Search Marketing

Guida al posizionamento dei siti web nei motori di ricerca

Amico degli spider
Home
2 Apr '05
Guida
8 Nov '04
Articoli
27 Mar '05
News/Blog
La Newsletter
30 Apr '09
FAQ
12 Gen '03
Risorse
10 Ott '04

Leggendo tra le righe di Google Blog

24 aprile '05 06:30:56
Sul blog di Google e precisamente in un post circa il loro centro di New York, è stata pubblicata una frase che ha destato la mia attenzione: "We've got [...] a slightly nutty project that we think might revolutionize the way that we organize and search structured information.".

Ovvero: "Abbiamo un progetto leggermente folle che pensiamo possa rivoluzionare il modo in cui organizziamo e cerchiamo l'informazione strutturata.".

Non vengono forniti chiarimenti su ciò che questo significa, ma ho pensato che cercare di intuire ciò a cui la frase si riferisce potrebbe essere un buon pretesto per spiegare al lettore alcune nozioni di IR (Information Retrieval).

La parola chiave nella suddetta frase è "structured information" ed è necessario spiegare che cosa è. L'informazione, come concetto, è composta da contenuto e struttura. Il contenuto è rappresentato da testi, immagini, suoni, o da qualunque altro elemento che rappresenta l'oggetto della comunicazione. Per struttura si intende invece il modo in cui i contenuti sono organizzati, ovvero come il contenuto può essere diviso nei singoli elementi concettuali che lo compongono e come tali elementi sono classificati e relazionati tra loro.

Un'informazione può dunque essere più o meno strutturata a seconda di quanto essa è stata organizzata.

L'articolo che state leggendo, ad esempio, va classificato come informazione non strutturata in quanto consiste in una lista di generiche parole, priva di informazioni che classifichino i singoli elementi che compongono la lista stessa. "Via Mazzini 12 - 00100 Roma" viene riconosciuto da un essere umano come un indirizzo postale, ma solo grazie al fatto che il nostro cervello ha imparato a identificare questo tipo di informazione tra le altre, non perché l'articolo indica esplicitamente in qualche modo che il testo virgolettato è un indirizzo.

Al contrario, un database relazionale contiene informazioni strutturate sia perché tabelle e colonne di tabella possiedono un'etichetta che indica la loro natura, sia perché è possibile creare esplicite relazioni tra tabelle diverse del database (da qui il termine "relazionale").

Dato per scontato che l'informazione strutturata è quella che è più facile da classificare e cercare, in quanto comprende o permette di produrre informazioni semantiche sui contenuti, uno dei maggiori grattacapi dei motori di ricerca consiste proprio nel fatto che il Web è composto quasi integralmente da informazione non strutturata. Insomma, è un grande accozzaglia di contenuti (testuali, ma non solo) quasi interamente priva di struttura, non organizzati.

La ragione di questo è che il Web si basa principalmente sul linguaggio di marcatura HTML, un linguaggio nato per presentare i contenuti, non per organizzarli concettualmente. Esistono alcuni tag HTML che forniscono informazioni su cosa è il contenuto del tag; ad esempio il tag <address> indica esplicitamente che il suo contenuto va considerato un indirizzo (non necessariamente postale), ma si tratta di una goccia di struttura in un gigantesco oceano incasinato.

Il W3C ha sviluppato nuovi linguaggi e tecnologie per la rappresentazione di contenuti strutturati, come XML + Schema e RDF, ciononostante il Web rimane fortemente basato sul vecchio HTML, e i motori di ricerca devono trovare il modo per ovviare a questo inconveniente.

Il modo consiste nel tentare di trasformare, almeno in parte, l'informazione non strutturata in informazione strutturata e procedere all'indicizzazione dei contenuti solo dopo aver effettuato tale trasformazione.

Una prima tecnica utilizzata dai motori di ricerca per ottenere questo obiettivo consiste nell'analizzare il contenuto delle pagine web (o, più genericamente, dei documenti) cercando di individuare nel testo alcune specifiche tipologie di informazioni, come indirizzi postali, indirizzi e-mail, URL, acronimi, luoghi, valute, date e orari, nomi di persone, ecc.

Un passo successivo può consistere nell'identificare il tipo generale di contenuto del documento e poi andare in cerca di quegli elementi che, solitamente, compongono quel genere di contenuti. Ad esempio, riuscendo a capire (o stabilendo a monte) che una pagina contiene un articolo giornalistico, si può procedere ad analizzare il testo per trovarne il titolo, l'occhiello, l'autore, il corpo dell'articolo, e così via. Si noti come questa fase successiva di ricostruzione di una struttura si può basare sulle informazioni riconoscibili attraverso la tecnica precedente: l'autore di un articolo può essere trovato semplicemente cercando un nome di persona in cima o in fondo all'articolo stesso.

E' curioso notare come molti siti web i cui contenuti sono estrapolati da database possiedono già le informazioni strutturate (il database stesso) ma che la struttura generalmente si perde in maniera più o meno integrale una volta pubblicate le informazioni sul web, costringendo i motori di ricerca a ricostruire almeno in parte la struttura originaria del database.

La tecnica che però può fornire i risultati migliori, sia in termini quantitativi che qualitativi, consiste nell'estrapolare le informazioni dalle tabelle. Le tabelle presenti nelle pagine web, quelle ottenute col tag HTML <table> e affini, quando sono utilizzate per il loro utilizzo originario, ovvero quello di tabellare dati e non quello di impaginare le pagine web, costituiscono una vera e propria manna per gli algoritmi dei motori di ricerca. La tabellazione infatti è di per se una strutturazione dei contenuti e facilita di gran lunga il lavoro di identificazione di una struttura da assegnare alle informazioni.

Per esempio, cercando in Google [population of italy], il motore di ricerca propone in cima ai risultati una "Google Q&A" che indica il numero di abitanti in Italia, ovvero direttamente l'informazione cercata dall'utente. E' però presente anche un link ad una delle pagine dalle quali l'informazione è stata estrapolata, in questo caso una pagina di The World Factbook che mostra una lunga tabella con i dati sulla popolazione di molti Stati.

Questa struttura tabellare ha facilitato enormemente l'operazione di identificazione di una struttura nelle informazioni pubblicate e ha permesso al motore di ricerca di assegnare in maniera precisa il concetto di "numero di abitanti in un luogo" ai numeri che appaiono nella pagina.


Adesso che è chiaro che i motori di ricerca necessitano di strutturare le informazioni prima di indicizzarle e cercarle, possiamo tornare ad analizzare la frase apparsa sul blog di Google con un bagaglio di informazioni utile a capire quello che potrebbe succedere nell'immediato futuro.

Soffermiamoci sulla frase "rivoluzionare il modo in cui organizziamo e cerchiamo l'informazione strutturata".

Innanzitutto ci si chiede se con quel "noi" implicito l'autore della frase intendesse "noi di Google" o "noi utenti", ovvero "come Google organizza e cerca" oppure "come gli utenti organizzano e cercano". Dal contesto in cui la frase è stata pubblicata, tuttavia, pare evidente che il progetto accennato si riferisse proprio a qualcosa da mostrare agli utenti.

Non è un caso che l'autore del post inviti esplicitamente gli utenti a dare saltuariamente un'occhiata ai Google Labs e in ogni caso è improbabile che una frase come quella in questione sia stata usata per annunciare pubblicamente un progetto destinato a rimanere interno, di cui nessuno al di fuori di Google verrebbe a conoscenza. No, quel "rivoluzionare" si riferisce proprio a qualcosa da offrire agli utenti.

Adesso dovremmo spostare l'attenzione a "l'informazione strutturata". Non viene specificato se si intende l'informazione strutturata già presente sul Web (come molti file basati su XML e derivati, come RDF, RSS, ecc.) oppure l'informazione strutturata ottenuta attraverso un'analisi delle informazioni non strutturate. Personalmente ritengo che si intenda l'informazione strutturata nel suo complesso, indipendentemente da come Google l'abbia acquisita (direttamente o ricostruendola), ma questa distinzione non è particolarmente influente sulla deduzione finale di questo articolo.

Infine, in termine su cui focalizzare l'attenzione è "organizziamo". L'informazione strutturata possiede, per definizione, una sua organizzazione. Per tale ragione l'organizzazione a cui fa riferimento Google non è quella interna ad un singolo documento ma, inevitabilmente, l'organizzazione di molteplici documenti, dell'informazione strutturata nel suo complesso.

Il termine "cerchiamo" completa la visione del progetto, in quanto una moltitudine di documenti e fonti, ognuna delle quali in grado di fornire informazioni concettuali su disparati argomenti, richiede necessariamente un meccanismo di ricerca per accedere alle informazioni.

Cosa se ne ricava da questa analisi? Se ne ricava un nuovo modello di ricerca (ecco perché lo chiamano rivoluzionario) in cui il sistema presenta ("organizziamo") all'utente un'insieme di concetti, dandogli la possibilità di accedere ad essi attraverso un'interfaccia non ben specificata, ma per forza di cose grafica ("cerchiamo"), in modo tale che l'utente venga messo subito di fronte alle informazioni stesse più che ad una lista di documenti in cui le informazioni vanno individuate.

In poche parole il paradigma usato per la ricerca verrebbe sovvertito: finora è necessario farsi fornire dal motore una lista di documenti, all'interno dei quali l'utente ha il compito di individuare le informazioni di proprio interesse. Questo "rivoluzionare il modo in cui organizziamo e cerchiamo" consisterebbe invece nel fornire all'utente direttamente le informazioni, rappresentate dai concetti e dalle relazioni estrapolate dalle informazioni strutturate e, solo come "aggiunta", una lista di documenti in cui quelle informazioni strutturate erano presenti (come nella pagina con i dati della popolazione degli Stati) oppure da cui sono state ricostruite (come accade per gli articoli indicizzati da Google News).

Quanta speculazione c'è in questa analisi? Io ritengo che sia molto poca in quanto esiste già una tendenza ed una ricerca da parte dei motori per modificare il classico sistema di ricerca basato sulla casella per l'immissione dei termini da cercare.

Ovviamente non si può dire se il nuovo sistema consisterà in un innovativo "browser visuale di concetti" o semplicemente in qualche lista di concetti correlati e da navigare attraverso normali link HTML. Ma questi sono più che altro dei particolari, in quanto la rivoluzione del metodo di ricerca e la differenza con quello attuale è assicurata in qualunque caso.

Piuttosto: quanti di voi producono e presentano ai motori contenuti strutturati? Se avete una directory, quanti di voi producono un documento strutturato, ad esempio in formato RDF? E se pubblicate news o semplici aggiornamenti di un sito, avete accortamente prodotto un RSS o un file Atom (entrambe basati su XML)? O molto più semplicemente, usate proficuamente le tabelle HTML per strutturate dati o quei pochi tag HTML in grado di fornire qualche indicazione semantica (<address>, <cite>, <acronym>, ecc.)?

Il mondo cambia, gli standard pure. E' meglio stare al passo coi tempi e portarsi avanti col lavoro invece di subire i cambiamenti futuri come qualcosa di inaspettato e potenzialmente negativo.

Enrico Altavilla

< Torna alla pagina con le notizie più recenti

<< Torna alla pagina principale di Motoricerca.info