Algoritmo LDA, come e perché funziona

by francesco 3

Ultimo aggiornamento 19 Aprile 2024

L’algoritmo LDA è un meccanismo logico che determina la distribuzione statistica di uno o più elementi testuali all’interno di proposizioni e periodi. Le proporzioni ideali della distribuzione di termini è sostanzialmente inconoscibile e può solo essere stimata. Si è tentato di sviluppare software che automatizzassero la composizione di testi, ma se da un lato non abbiamo cognizione delle logiche di information retrieval adottate da Google nella determinazione del ranking sulla base del testo, dall’altra un software non può far altro che selezionare topic già trattati sulle stesse serp, quindi sostanzialmente poco rilevanti in ottica di fare la differenza. No, l’immagine qui sotto è suggestiva, ma la calcolatrice non ti servirà in questo ragionamento.

Vorrei essere molto chiaro. Chi segue il mio blog sa che Seogarden è il canale che utilizzo per raccontare semplicemente tutta la mia vita professionale, quindi tanto i riscontri pratici quanto le idee e le intuizioni ancora non testate. Tanto queste ultime, quanto i casi concreti che spiego, possono essere applicati con più o meno successo ad altri casi a seconda delle nicchie specifiche e di chi cerca di applicarli. La stessa tecnica non può funzionare sempre, perché Google restituisce risultati diversi a seconda di due fattori:

1) cosa e quanto gli utenti cercano

2) cosa e quanto gli utenti pubblicano

Le variabili in gioco sono talmente tante da rendere necessari approcci diversi caso per caso, pertanto anche la stessa tecnica, usata in due casi differenti potrebbe dover subire variazioni. La SEO, non è “solo” matematica, almeno secondo il mio approccio sociologico, ma una scienza sociale che si sviluppa come un sapere di confine tra informatica, linguistica e (ormai) semiotica. Il mio approccio è quindi in tutto improntato alla cybernetica, ovvero la “scienza della decisione”, che deve tener conto da un lato delle ambiguità insite nel linguaggio, dall’altro della sua informatizzazione.

A questo aggiungi che in molti casi il testo NON è l’elemento principalmente preso in considerazione da Google per attribuire ranking a un documento web. Esistono altri segni che a certe condizioni contano molto di più. Non dimenticarlo.

Pertinenza e rilevanza dei topic

Una cosa su cui rifletto molto è la capacità che Google sta maturando di leggere i documenti web in risposta alle query di interesse per cercare di coglierne la varietà dei significati espressi.

Mi spiego: un articolo dal titolo: come disinstallare un programma da ubuntu, dovrebbe normalmente spiegare tutti i passaggi per rimuovere un software da un computer che monta il noto sistema operativo open source. Ognuno dei passaggi ha un suo significato che è sia pertinente con il titolo che rilevante, vale a dire che ogni passaggio parla di una procedura di gestione software (pertinenza) e nello specifico in merito ad ubuntu (rilevanza).

Un significato nel significato

A questo punto posso inserire un’apertura sul fatto che disinstallare un software da ubuntu è facile quanto rimuovere un software da windows, magari argomentando anche un po’ questo secondo caso. Cos’ho fatto nello specifico? Ho aggiunto un secondo grado di significazione al primo, pertinente, non rilevante e interessante per le stesse persone. Si tratta di un incastro mediante algoritmo LDA non matematizzato (sarebbe inutile) che funzionerà tanto meglio quanto più è basso il numero di articoli che competendo per la stessa chiave principale, sviluppano questo secondo significato.

Semantica del testo e algoritmo LDA

La faccio corta: se il tuo articolo tratta gli stessi argomenti degli altri che competono per la stessa query, a fare la differenza saranno appunto gli altri aspetti dell’ottimizzazione strutturale e i link in ingresso. Se però il tuo articolo distribuisce -come brevi parentesi nel testo- elementi che afferiscono ad altri topic solo pertinenti e non rilevanti, mescolandoli con quelli rilevanti, il contenuto ne risulterà più solido e complessivamente più completo sotto il profilo dell’analisi testuale da parte di Google. Funziona esattamente come funzionano i conversatori brillanti che in virtù della capacità di saltare di palo in frasca nel modo giusto, riescono a catturare l’attenzione degli altri. Il rischio è sempre lo stesso: andare fuori traccia, così come talvolta può bastar poco a far apparire schizofrenico un conversatore improvvisato. Le parentesi vanno aperte con molto garbo, in modo misurato e naturale, senza forzature.

Doppio legame forte

Perché sia veramente efficace, un algoritmo LDA necessita l’individuazione di un doppio grado di significazione. Occorre individuare topic molto pertinenti, non rilevanti, magari ad elevato volume di ricerca e soprattutto assenti dagli altri documenti web concorrenti. Se nell’incastro, una sola delle precondizioni non viene rispettata, la tecnica non funzionerà, quindi da un lato c’è da considerare questa difficoltà e dall’altro tutte le altre variabili legate al trust del sito web contro quello dei competitors nello stesso segmento di mercato in cui mi sto affacciando.

Di questa tecnica avevo già scritto in passato riferendomi all’individuazione di un topic specifico che “facesse la differenza”. 

La praticate? Avete casi specifici da mostrarmi?

Come sempre, chi si confronta cresce 🙂