Search Marketing

Guida al posizionamento dei siti web nei motori di ricerca

Amico degli spider
Home
2 Apr '05
Guida
8 Nov '04
Articoli
27 Mar '05
News/Blog
La Newsletter
30 Apr '09
FAQ
12 Gen '03
Risorse
10 Ott '04

Traduzioni di nuova generazione

31 ottobre '05 07:22:37
Matt Cutts mi fa notare che alla conferenza Internet Librarian, Peter Norvig, ingegnere di Google, accenna al sistema di traduzione che Google sta sviluppando e che era stato menzionato durante il Google Factory di maggio scorso.

Colgo allora l'occasione per illustrare le differenze tra la nuova tecnologia di traduzioni e quelle attualmente utilizzate dalla maggior parte dei software, online e per PC.

Mentre finora gli algoritmi di traduzione più utilizzati si basavano pesantemente su delle regole linguistiche che i progettisti erano costretti ad inserire manualmente nel codice dell'applicazione, negli ultimi anni sta facendo molta strada una nuova generazione di algoritmi, che sfrutta informazioni statistiche per migliorare fortemente i risultati finora ottenuti.

Il nuovo approccio consiste nell'allenare il sistema fornendogli una serie di documenti in una lingua assieme alla relativa traduzione, operata da esperti traduttori. Dalla comparazione tra il testo originale e quello tradotto, il sistema estrapola delle statistiche sulla co-occorrenza di termini ed espressioni che, assieme, formano un modello di traduzione applicabile per tradurre nuovi testi.

In genere, un sistema che si basa sulla traduzione statistica viene allenato in questo modo:


  • I ricercatori forniscono al sistema i documenti nella lingua originale e le loro traduzioni;

  • Il sistema legge i documenti originari e sfrutta le iniziali (limitate) capacità per ipotizzare una traduzione;

  • Questa prima traduzione viene comparata con la traduzione umana ed il sistema ottiene delle informazioni per migliorare il modello predittivo.

Maggiore è il numero di traduzioni umane a cui il sistema può accedere e migliore sarà la qualità delle traduzioni che sarà in grado di produrre. Il processo di apprendimento dura pochissimo tempo (ore o giorni), se comparato con i tempi necessari a progettare un modello di traduzione basato su regole linguistiche, come finora è stato fatto.

Un altro vantaggio dell'approccio statistico consiste nel fatto che i progettisti non sono costretti a possedere conoscenze linguistiche sulla lingua da tradurre. E' il sistema che modella automaticamente sé stesso in base alle comparazioni effettuate, e questo rende più facile la costruzione di modelli traduttivi per lingue poco conosciute (o persino inventate) posto che si possieda una sufficiente quantità di documenti e traduzioni con i quali allenare il software.

Questo intervento sul blog di Google, nello scorso agosto, mostra come il nuovo sistema di traduzione della società di Mountain View si è comportato al Machine Translation Evaluation organizzato dal NIST, superando tutti gli altri partecipanti e mostrando una qualità delle traduzioni finora mai osservata.

Una delle caratteristiche che probabilmente influisce sulla maggiore qualità delle traduzioni automatiche di Google consiste nel fatto che, mentre gli altri sistemi di traduzione statistica effettuano le comparazioni prendendo in esame serie di tre parole, l'approccio di Google non prevede serie di lunghezza fissa.

Nella pratica questo significa che il sistema riesce con più facilità a "mappare" un singolo termine da tradurre con un'intera espressione, anche lunga. Ciò che in una lingua sorgente viene espresso con una sola parola o simbolo (si pensi agli ideogrammi, ad esempio), può venire tradotto dal sistema nella corrispondente espressione, anche multi-termine, che la parola o il simbolo può acquisire nella lingua di destinazione.

Il limite delle tre parole per serie finora è esistito principalmente per necessità di prestazioni ma Google, a differenza dei competitori, può superarlo più facilmente grazie ad una gigantesca capacità di calcolo nonché grazie a strumenti software che facilitano i processi di calcolo parallelo su più PC.

Va tuttavia detto che è improbabile che l'analisi multi-termine si basi semplicemente sulla forza di calcolo bruta, in quanto le migliori filosofie per l'ottimizzazione del codice predicano il superamento dei limiti sfruttando modifiche concettuali degli algoritmi, non l'applicazione di maggiori risorse.

Le traduzioni prodotte dai sistemi che si basano sulla traduzione statistica sono di qualità ben superiore a quelli ottenuti con i metodi linguistici ed i testi risultano estremamente più vicini ad una traduzione umana. Questo apre la porta ad nuovi utilizzi della tecnologia di traduzione, che in una visione futuristica (ma nemmeno troppo) potrebbe essere usata persino per tradurre automaticamente i testi che persone di lingua differente si scambiano con Google Talk.

Per chi volesse approfondire l'argomento, Statistical Machine Translation Gains Respect [PDF] è un articolo che illustra gli ultimi passi della ricerca, analizza i risultati del citato Machine Translation Evaluation e cita i vari soggetti che stanno sviluppando tecnologie simili.

< Torna alla pagina con le notizie più recenti

<< Torna alla pagina principale di Motoricerca.info