Search Marketing

Guida al posizionamento dei siti web nei motori di ricerca

Amico degli spider
Home
2 Apr '05
Guida
8 Nov '04
Articoli
27 Mar '05
News/Blog
La Newsletter
30 Apr '09
FAQ
12 Gen '03
Risorse
10 Ott '04

SES: le informazioni dei brevetti

9 agosto '05 08:30:08
Dal Search Engine Strategies 2005, a San Josè. Resoconto di Search Engine Roundtable.

"Search Algorithms: The Patent Files" è il titolo del seminario del Search Engine Strategies in cui è stato discusso come i brevetti richiesti dai responsabili dei motori di ricerca possono fornire importanti indicazioni su come la tecnologia cambia e sui criteri potenzialmente usati per determinare la posizione delle pagine e migliorare i risultati delle ricerche.

Rand Fishkin (o, meglio una sua voce registrata) spiega i fattori in gioco in un recente brevetto presentato da Google e lungamente discusso anche tra i SEO italiani: Information retrieval based on historical data.

Fishkin introduce il concetto di "data iniziale" di un documento, ovvero la data in cui il motore di ricerca ha per la prima volta preso atto dell'esistenza del documento. Questa data non coincide necessariamente con l'acquisizione della risorsa ma può essere relativa semplicemente al momento in cui il motore nota un riferimento ad un documento finora sconosciuto. Questa data iniziale è indispensabile per basare tutti gli algoritmi che sfruttano informazioni storiche.

Fishkin spiega anche come la variazione dei contenuti di una pagina può influire sulla sua posizione. Cambiamenti cosmetici e poco significativi vengono generalmente ignorati ed ai link che rimangono sulla pagina dopo un aggiornamento può essere assegnato un valore maggiore. La data in cui un link appare e tutti i cambiamenti che esso subisce nel corso del tempo possono essere registrati ed analizzati dal motore di ricerca per determinare alcuni trend e ai link provenienti da siti considerati generalmente più affidabili (quelli governativi o istituzionali, ad esempio) può essere assegnato un peso maggiore.

Per quanto riguarda l'individuazione dello spam, i dati storici possono entrare in gioco per determinare se un sito web è riuscito a salire i risultati di ricerca in modo troppo repentino. Fishkin aggiunge che le tecniche per l'individuazione di domini usa-e-getta possono basarsi anche su controlli dei dati provenienti dai DNS Records.

Il Dott. Garcia di Mi Islita discute invece il brevetto Detecting query-specific duplicate documents, che consente a Google di eliminare dai risultati di ricerca i risultati troppo simili o identici.

Garcia spiega il metodo impiegato da Google, che consiste nel creare un estratto rappresentativo dei contenuti del documento in base ai termini digitati dall'utente e poi individuare le pagine duplicate basandosi non sull'intero contenuto delle pagine ma solo sui contenuti degli estratti.

La comparazione può essere effattuata calcolando un term vector per ogni estratto e successivamente determinarne il coseno: in questo modo i documenti rappresentati da coseni molto vicini possono essere considerati maggiormente simili, ed un valore di soglia scelto dal motore può determinare infine se il documento va incluso nei risultati o se risulta troppo simile ad un documento già presente nella lista.

< Torna alla pagina con le notizie più recenti

<< Torna alla pagina principale di Motoricerca.info