Las voces generadas por IA ya son indistinguibles a las humanas, incluso en español

Hace unos años, muchos aseguraban que las voces generadas por IA, estaban lejos de alterar el orden público. Bueno, mucho ha llovido desde entonces y hoy, la tecnología es suficiente para falsificar audios. Incluso si son en español.

Esto ha desconcertado a los expertos, porque la cobertura mediática que se le hadado a la IA generativa no se ha volcado en este apartado. Mientras todos estaban pendientes, estudiando y analizando ChatGPT por poder resolver problemas matemáticos, otros algoritmos, como la clonación de voz, crecían sin restricción.

Voces generadas por IA se vuelven un problema

En México, se ha dado la prueba más grande de este caso, cuando un audio de WhatsApp se hizo viral. En él, se escucha al actual gobernador de CDMX, Martí Batres, conspirando contra otro político, Omar García Harfuch.

Este audio primero apareció en TikTok, provocando un debate sobre la veracidad del mismo, y es que no había forma de distinguir si era la voz real de Batres. Obviamente, el gobernador desmintió el audio, asegurando que la voz fue hecha con IA.

Expertos expusieron como el audio muestra muletillas, respiraciones, acento y demás detalles tan minúsculos, como propios de Batres. Además, usuarios usaron programas para ver si era falsa o no, y la imitación era tan perfecta, que algunos decían que era real y otros que era fabricada.

El nivel de sofisticación del audio mostró que los software capaz de crear voces generadas por IA están muy desarrollados. Esto solo puede generar preocupación, y que los verificadores deben ser mucho más astutos.

Natalia Martos Díaz, exjefa legal de Tuenti y ahora, CEO de Legal Army, compañía española que protege y asesora empresas que hacen software de clonación de voz para usos benéficos, declaró:

“Estos sistemas de IA de generación y doblaje de voz a voz tienen, al menos cuando hablamos de los softwares que yo he conocido en español, una capacidad de imitación realmente increíble… el nivel de progreso en lengua española es muy muy alto”.

Sostiene que, si el audio polémico de Martí Batres, realmente es generado por IA, no pudo ser desde un programa de texto. Para crear una voz sintética, primero se necesita mucho material de la voz original: entrevistas, conferencias, audios, etc. Todos en excelente calidad. Sólo así se puede entrenar una IA. Obviamente, material de ese tipo abunda cuando se trata de políticos.

Crear una imitación perfecta

Mientras más la alimenten, mejores serán las voces generadas por IA. Después es necesario que un locutor diga de forma natural, las oraciones a imitar, incluyendo muletillas, respiraciones, acentos, respiraciones, etc. Si la IA está bien entrenada, la imitación será perfecta. El sonido ambiental tampoco es un problema para el software, así que se puede hacer aún más creíble.

Natalia, quien ha visto a empresas cobrar hasta 3,000€ solo por entrenar una voz, y luego cobrar por segundo de audio, asegura que con capital, tiempo y conocimiento, se pueden hacer imitaciones perfectas de cualquier persona.

Ahora la pregunta es: ¿Cómo los medios, periodistas, investigadores y la gente común, pueden hacer frente a voces generadas por IA tan perfectas? La respuesta más fácil, al menos para los primeros, es ir directo a las empresas que se dedican a eso. Claro que hay plataformas como AI Voice Ditector, que son útiles, pero en estos casos no son 100% certeras.

Entonces, el uso de deepfakes de audio y voces generadas por IA son un problema inminente, ya que no se le ha prestado la atención necesaria.

Hay que desconfiar

Nieves Ávalos Serrano, cofundadora de Monoceros Lab, otra empresa española que trabaja con RTBE y la Universidad de Granada para crear herramientas que detectan deepfakes de audio, e Iria Puyosa, investigadora Senior de Digital Forensic Research Lab del Atlantic Council, aseguraron que no existía otro caso similar en América Latina. Además, esto abre la puerta para el caso contrario, que personajes digan que audios reales, son falsos.

El camino de las voces generadas por IA y toda la tecnología de deepfakes, demostró que lo irreal puede volverse real fácilmente. Y es que, más allá de lo político, ya se conocen casos de estafa y extorsión con este tipo de voces. Por ejemplo, Reino Unido vio como una firma de energía perdió alrededor de 243.000$ cuando estafadores se hicieron pasar por el CEO de la empresa y solicitaron dinero a otros empleados.

Oli Buckley, experto en seguridad, dijo en una entrevista que, si tienes una mínima sospecha de que hay algo extraño con algún desconocido, así estés hablando con él por teléfono en ese momento, cuelga la llamada y llámalo tú directamente.

Al parecer, la IA, en vez de facilitarnos la vida, está comenzando a volverse un problema y puede hacernos más paranoicos, especialmente en nuestra región, donde la inseguridad está a la orden del día.

Las voces generadas por IA ya son indistinguibles a las humanas, incluso en español

Voces generadas por IA se vuelven un problema

Crear una imitación perfecta

Hay que desconfiar

Dejar un comentario Cancelar respuesta

The

Newsletter

Navigation

Contact

Editorial

Legal

© 2025 Cerebro Digital. All Rights Reserved.

Las voces generadas por IA ya son indistinguibles a las humanas, incluso en español