VIRAL

Los problemas que abre la Inteligencia Artificial en el universo sonoro

Una vez que VALL-E aprende una voz específica, puede reproducir palabras, preservando, además, el particular tono emocional que la imprima el hablante.

PROCESO

CIUDAD DE MÉXICO (apro). –El 9 de enero de 2023, algunos periodistas especializados en temas de Inteligencia Artificial (IA), como Benj Edwards, en arsTECHINICA, informaron que un grupo de investigadores que laboran en Microsoft habían anunciado el desarrollo de un nuevo modelo de inteligencia artificial de texto a voz TTS (Text to Speech), llamado VALL-E.

VALL-E es capaz de simular, prácticamente a la perfección, la voz de cualquier una persona a partir de una muestra de audio de tan solo tres segundos.

Una vez que VALL-E aprende una voz específica, puede reproducir palabras, preservando, además, el particular tono emocional que la imprima el hablante.

En un documento publicado en la web, el equipo de investigadores en Microsoft que desarrolló VALL-E señala:

VALL-E dispone de capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante invisible como un aviso acústico. Los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante. Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis.

En el referido documento publicado en la web por los investigadores en Microsoft fueron incluidos ejemplos de voces originales y las respectivas imitaciones realizadas por VALL-E, destacando las variaciones enfáticas en los sonidos desplegados por el sistema a partir de distintas emociones expresadas por el hablante.   

Las pruebas realizadas al referido ambiente de IA por los investigadores en Microsoft comprendieron 60 mil horas de grabaciones en inglés. Los investigadores no reportaron haber realizado pruebas en otros idiomas.

VALL-E, afirman sus desarrolladores, supera todo lo que hoy existe en materia de Inteligencia Artificial destinada a reproducir con la mayor naturalidad posible lo dicho por cualquier hablante.

Es importante tener presente que, en los primeros días de enero, The Information señaló que Microsoft pretende implementar el sofware ChatGPT en sus principales herramientas. Microsoft ha invertido una gran suma de dinero en OpenAI, creadores de ChaptGPT, un sistema de chat basado en el modelo de lenguaje por Inteligencia Artificial GPT-3

Los ambientes GPT (Generative pre-Training Transformers) operan a partir de los principios básicos de Inteligencia Artificial. De acuerdo con Yúbal Fernández, “a una inteligencia artificial se la entrena a base de texto, se le hacen preguntas y se le añade información, de manera que este sistema, a base de correcciones a lo largo del tiempo, va «entrenándose» para realizar de forma automática la tarea para la que ha sido diseñada”.

ChaptGPT comprende más de 175 millones de parámetros, y fue entrenado con grandes cantidades de texto para realizar tareas relacionadas con el lenguaje, las cuales comprenden desde la traducción a la generación de textos.

Según The Information, Microsoft pretende introducir ChaptGPT en Bing con el propósito de comprender mejor el contexto y la intención del usuario en cada búsqueda. Ello permitirá ofrecer mejores resultados.

Microsoft se propone incorporar VALL-E en Bing para atraer mayor tráfico a su motor de búsqueda, el cual ha sido muy superado por Google. De acuerdo con Statista, la cuota de mercado mundial en motores de búsqueda, durante 2021 y 2022, fue de 92% para Google y apenas 3.02% para Bing.

Google también ha venido realizando investigaciones en materia de TTS (Text to Speech). Incluso ha empezado a comercializar uno de sus desarrollos a través de la página Text-to-Speech, en la cual, los usuarios son invitados a probar la API de Google, la cual es capaz de crear “voces muy similares a las humanas, ya que se ha desarrollado gracias a los conocimientos sobre síntesis de voz de Deep Mind”. El ambiente de Google permite elegir más de 220 voces con sus respectivas variaciones lingüísticas en más de 40 idiomas.

El mercado de la API desarrollada por Apple son marcas interesadas en establecer una identidad sonora, al personalizar paisajes auditivos través de la generación de voces inconfundibles.

En la mencionada página se invita al usuario a crear “una voz única que represente tu marca en todos los puntos de contacto con los clientes, en lugar de usuar una voz común que también utilicen otras organizaciones”.

Otros servicios que ofrece Google son “Voces en WaveNet” -más de 90 voces generadas a partir de WaveNet que podrían parecer humanas-; “Ajustes de la Voz”,  personalizar el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada, permitiendo modificar, además, la velocidad de elocución para hacerla más rápida o más lenta.

Independientemente de las bondades que abre la Inteligencia Artificial de texto a voz, algunas aplicaciones podrían resultar contraproducentes, tomando en consideración que VALL-E puede “clonar” prácticamente cualquier voz.

Algunas plataformas como FakeYou han hecho de la suplantación de voces una práctica aparentemente divertida. FakeYou se presenta como “tecnología falsa profunda para decir cosas con (las voces) de tus personajes favoritos”.

De acuerdo con lo asentado en una nota de Business Insider, los desarrolladores de VALL-E han reconocido posibles riesgos que podrían desprenderse de la falsificación de la voz.

«Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico», especifican (…) Para mitigar tales riesgos, es posible construir un modelo de detección para observar si un clip de audio ha sido sintetizado por VALL-E», agregan. «También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos». 

Sin embargo, más allá de los buenos propósitos e intenciones de los desarrolladores de VALL-E en Microsoft, las aplicaciones estimularán la creatividad de la ciberdelincuencia, como ocurrió con los “deep fakes” o videos falsos, tecnología que permite “que cualquiera haga videos de personas reales que parecen decir cosas que nuca han dicho”.

Por ejemplo, en mayo de 2019, Donald Trump, entonces presidente en funciones de Estados Unidos, presentó un video falso de Nancy Pelosi, presidenta de la Cámara de Representantes del Partido Demócrata. El video fue modificado profesionalmente para exhibir a Pelosi mostrando dificultades de dicción.

El video fue ampliamente difundido por medios convencionales de comunicación y fue viralizado en plataformas digitales. En algunas redes sociales, como Facebook, el video registró millones de reproducciones. Al amparo del referido video, Rudy Guliani insinuó, a través de Twitter, que Pelosi estaba bajo los efectos del alcohol. Pelosi en realidad es abstemia.

Mark Zuckerberg se negó a retirar el video sustentando tal decisión en las políticas editoriales de Facebook, en las cuales, afirmó, no se estipula que la información que publiquen los usuarios necesariamente tenga que ser verdadera. En cambio Google accedió a retirar el referido video.

Las aplicaciones de VALL-E y plataformas similares destinadas a la suplantación de voz, podrían reportar amplios beneficios a los profesionales de la desinformación, las noticias falsas y la propaganda sucia.

En una interesante disertación sobre el impacto de los cambios tecnológicos en las sociedades -Cinco cosas que debemos conocer acerca del cambio tecnológico-, en 1998, Neil Postman, uno de los principales referentes en la Ecología de los Medios, señaló que de toda nueva tecnología se desprenden beneficios para las sociedades; sin embargo, toda nueva tecnología también puede generar grandes problemas. En ocasiones -destacó Postman-, los efectos negativos que puede producir una nueva tecnología supera los beneficios que podría reportar.

Las posibilidades del universo sonoro se enriquecen a partir de la Inteligencia Artificial. Sin embargo, también tendremos que enfrentar grandes problemas.

Notas relacionadas

Botón volver arriba