El habla humana ya no es solo de los humanos


30.12.19 - EspaƱa.- En breve, oiremos voces salir de nuestro telĆ©fono y no seremos capaces de distinguir si se trata de una persona, grabada o en directo, o de una mĆ”quina. Sentiremos que respira, toma aire, entona en funciĆ³n del mensaje, modula la voz para enfatizar y todo tipo de dejes e imperfecciones habituales en el habla humana. Mientras a algunos esta idea les produce escalofrĆ­os, algunos de los mejores expertos en inteligencia artificial trabajan en pulir unas voces que ya son lo mĆ”s humano que se ha escuchado nunca... surgido por entero de un ordenador.

"Los primeros modelos los probamos sin texto. Cuando tuvimos el primer audio supimos que el modelo era bueno: parece que sea inglĆ©s pero no era inglĆ©s ni nada. Pero oĆ­as hablar a alguien que respira y eso me sorprendiĆ³ muchĆ­simo", recuerda Oriol Vinyals, uno de estos especialistas de Google DeepMind que ha desarrollado este programa para crear voces humanas de la nada. Luego le dieron textos a la mĆ”quina para que dijera cosas inteligibles y el resultado fue convincente. 
WaveNet, como se denomina el proyecto, permitirĆ” asistentes en los mĆ³viles mucho mĆ”s personales, pero ya se ha demostrado capaz hasta de componer pequeƱas piezas de piano. 

El modelo aprovecha las capacidades de la inteligencia artificial basada en redes neuronales que estĆ”n desarrollando en DeepMind, la filial londinense de Alphabet (Google) que estĆ” liderando las conquistas mĆ”s vistosas en este campo. Del mismo modo que esas redes neuronales veĆ­an las jugadas ganadoras en el Go, ganando al campeĆ³n en este complejo tablero oriental, ahora son capaces de dibujar ondas de audio que parezcan voces humanas.

Para conseguirlo, primero alimentan a la mĆ”quina con horas y horas de audios y, a partir de ahĆ­, WaveNet aprende a generar simulaciones de voces emulando la frecuencia de los sonidos, la fluidez de los fonemas y el ritmo de conversaciĆ³n de las personas. En una onda de audio, desmenuzada al detalle, se encuentran todos los matices de una voz real: temblor, entonaciĆ³n, silencios irregulares, ruidos de respiraciĆ³n, etc. Son puntos en una lĆ­nea, 16.000 puntos en un segundo de voz. "Con unas cuantas horas de voz, WaveNet tiene muchos puntos de entrenamiento", afirma Vinyals.


En otros sistemas de voz artificial se recurre a fragmentos de discurso troceados que se encadenan para formar palabras y frases: fonemas enganchados uno tras otro como los vagones de un tren de juguete. De ahĆ­ que no sirvan para entonar o enfatizar en condiciones. Sin embargo, lo que hace WaveNet es simular la onda que crearĆ­a un humano al hablar, despuĆ©s de aprender cĆ³mo se encadenan todos los puntos de una onda de audio. "Va eligiendo dĆ³nde se coloca el siguiente punto de la onda, 16.000 veces por segundo, a lo largo de la seƱal temporal de muy alta frecuencia, lo cual es bastante difĆ­cil, un hito en el campo de la generaciĆ³n de voz", asegura Vinyals, formado en la Universidad PolitĆØcnica de Catalunya y Ćŗnico espaƱol de la lista del MIT de 35 innovadores de menos de 35 aƱos. 

Un compositor artificial /// Pensando en el futuro, Vinyals reconoce que WaveNet necesita mejorar en la rapidez de generar voz. Y aƱade: "Lo que estĆ” muy claro es que Google va a impulsar su asistente virtual, eso es obvio". Pero lo mĆ”s fascinante de su trabajo, reconoce, es la capacidad de crear mĆŗsica. Del mismo modo que aprende cĆ³mo dirĆ­a un humano una frase, WaveNet puede aprender cĆ³mo suena una pieza de piano y simular una por su cuenta (escucha los ejemplos). 

"Lo mĆ”s bonito desde el punto de vista de investigaciĆ³n pura serĆ­a trabajar en el campo de la creaciĆ³n de mĆŗsica, que aprendan de escuchar a Chopin o a Mozart y decirle: 'Dame otra sinfonĆ­a que no sea ninguna de las que existen pero que sea de su estilo", asegura. "Para la voz estĆ” mucho mĆ”s claro, el modelo tiene muchas mĆ”s pistas de cĆ³mo se genera un habla que parezca humana. Para generar una canciĆ³n de tres minutos que tenga coherencia, que sea agradable, que transmita sentimientos... es una posibilidad mucho mĆ”s lejana", reconoce. 

Visto en https://elpais.com

QuizƔs pueda interesarte:

No hay comentarios:

Instagram