El porcentaje no impresiona si lo comparamos con la transcripción de un audio, pero la comparación hay que hacerla con la capacidad humana para descifrar el movimiento de los labios, que sólo alcanza a un 12,4 por ciento.
Este programa lo han implmentado los investigadores de DeepMind, una empresa británica especializada en inteligencia artificial que ha comprado Google y que se destacó en octubre del año pasado por crear un algortimo capaz de vencer a un ser humano al Juego chino tradicional de Go por primera vez (2).
DeepMind se ha apoyado en trabajos previos de la Universidad de Oxford, gracias a los cuales los científicos desarrollaron el programa LipNet para leer los labios, que en las pruebas mostró una precisión del 93,4 por ciento cuando los seres humanos apenas sobrepasaban la mitad.
Pero LipNet no se probó más que para secuencias grabadas especialmente con ese fin por voluntarios que sólo pronunciaban fórmulas específicas. Por el contrario, el programa DeepMind, conocido por “Observa, escucha, asiste, subraya”, se ha probado con secuencias más exigentes, transcribiendo conversaciones naturales, no escenografiadas, obtenidas de emisiones políticas difundidas en la BBC.
No obstante, hay una diferencia importante entre la transcripción de imágenes televisadas a alta resolución y la de vídeos mal definidos que contienen pocas imágenes, pero la programación informática (mal llamada “inteligencia artificial”) ya está en ese camino.
Las aplicaciones posibles son muy amplias, pero The Verge ya teme que el programa se utilice con fines de control y vigilancia policial a distancia.
(2) http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html