DeepMind Google, non solo scacchi e giornalismo: ora l'IA legge il labiale

30 novembre 2016 ore 17:20, Micaela Del Monte
L'obiettivo del futuro è quello di creare un'intelligenza artificiale in grado di poter sostituire non solo figure professionali ma anche, in parte, l'uomo. Per questo al richiesta è quella di avere un'IA sempre più performante e in grado di avveicinarsi all'intelligenza umana. Ecco quindi che Google avrebbe tirato fuori dal cilintro un'intelligenza artificiale in grado di osservare e apprendere come un qualsiasi essere umano. Artefice di queste meraviglie il laboratorio DeepMind.

DeepMind Google, non solo scacchi e giornalismo: ora l'IA legge il labiale
I laboratori DeepMind, specializzati in intelligenza artificiale, erano balzati agli onori della cronaca grazie al gioco Dama Go. Ma ora i suoi computer super intelligenti non giocano soltanto. L’ultima trovata dei laboratori è stata, infatti, quella di insegnare alla macchina a leggere il labiale umano. Il computer è stato allenato allo scopo con umani d’eccezione. I telegiornalisti della BBC. Ben 5000 ore di telegiornali e programmi di news condotti da esperti della parola. Professionisti in grado, per mestiere, di scandire bene ogni singola parola usata. Al termine dell’apprendimento, il software di Google DeepMind ha ottenuto, nel corso delle prove, una percentuale di successo pari al 46,8%. Nella stessa prova, un candidato umano ha ottenuto solo il 12,4% di successo.
Per fare un confronto con i test effettuati in passato: LipNet è stata in grado di riconoscere 51 parole. La collaborazione con Google ha moltiplicato i risultati, individuando 110mila frasi e 17500 parole.
 
“L'obiettivo di questo lavoro – affermano i ricercatori – è riconoscere frasi ed espressioni, indipendentemente dal fatto che ci sia o meno l'audio. Rispetto ai lavori precedenti, la lettura labiale è stata testata con video spontanei”, cioè non studiati in laboratorio ma provenienti dal mondo esterno. Lo studio indica anche alcune possibili applicazioni di una tecnologia come questa: sarà possibile, ad esempio, trascrivere con facilità film muti, sottotitoli per non udenti, interi eventi e conferenze (anche quando le voci si accavallano). In futuro potremo poi dettare istruzioni o messaggi al nostro smartphone anche in un ambiente rumoroso o quando non sarà possibile parlare. Gli assistenti digitali come Siri, Cortana o Google Assistant recepiranno un comando solo dal movimento della nostra bocca. Così, dopo l'IA in grado di "aiutare" il giornalista a scrivere un pezzo a solo 5 minuti dal ricevimento della notizia (come accadde il 17 marzo 2014 con Quakebot, il software sviluppato dal giornalista Ken Schwencke), arriva anche il computer in grado di capire senza ascoltare.

caricamento in corso...
caricamento in corso...
[Template ADV/Publy/article_bottom_right not found]