La estafa de clonación de voz con Inteligencia Artificial (IA)

Resulta ineludible que profundicemos respecto a las (nuevas) metodologías criminales, que se encuentran perfeccionándose en los hechos fraudulentos con ayuda de la inteligencia artificial, puesto que, en la actualidad, basta con tan solo (tres) segundos de audio para que los agentes logren adaptarlo a través de herramientas técnicas que consolidan la “clonación” de voz de una persona, conforme a las inferencias del sistema electrónico - informático. Es que los parámetros recientes han determinado un desarrollo desde la modalidad (tradicional) de estafa, vinculada a una muestra (limitada) del audio de una persona, para la posibilidad de clonar su voz, y en tal efecto, remitir audios por vía mensajería con el sentido de (lograr) engañar a los “conocidos” de dicha (persona), y con ello, potenciar la disposición patrimonial de las “víctimas”.

Remitir audios por vía mensajería con el sentido de (lograr) engañar a los “conocidos” de dicha persona, y con ello, potenciar la disposición patrimonial de las “víctimas”.GENTILEZA
audima

Dicho lo anterior, tenemos que los “ciberdelitos” se han expandido en los últimos tiempos, y conforme a dicho acaecimiento, tenemos que el procesamiento delictivo de la clonación de voz para defraudar se inicia (primeramente) obteniendo “grabaciones” de voz de la persona (a ser utilizada), que suelen surgir desde las redes sociales u otras fuentes. Seguidamente, el agente del ilícito hace transitar dicho registro de voz por un “software” de deepfake (uso de algoritmos y técnicas de aprendizaje profundo).

En el ciberespacio se encuentran libres de acceso algunos softwares como el “Speechify”, que ocupa un generador de texto a voz. No obstante, dicha aplicación permite algunas voces sintéticas de sonido natural e inclusive con (15) idiomas distintos. Así también, se tiene al “Resemble.ai” que resulta en una mezcla entre una aplicación de texto de voz y deepfake; es decir, tiene función de imitación de voz similares a las humanas, que logra clonar una voz grabada a partir de un archivo de audio. De igual forma, podemos exponer el “CereVoice Me” que se ha proclamado como la herramienta de clonación de voz en tiempo real, pero, no posee plan gratuito, en razón a que suele ser incorporada por las empresas para generar voces de alta calidad.

Por otro lado, se tiene al “Play.ht” que se perfecciona en una aplicación de síntesis de voz que incrementa la efectividad en la clonación de voz, puesto que esta se basa en inteligencia artificial (IA) para permitir crear todo tipo de voces realistas que potencian el deepfake. Finalmente, se tienen tecnologías como el Vall-e, un algoritmo de Microsoft, que admite clonar la voz de cualquier persona con solo escucharla hablar unos segundos.

Así, todos estos procesadores pueden generar archivos de audio, que asientan la imitación de voz de alguna (persona), y que trascienden en la consolidación de las acciones fraudulentas que aprovechan las reproducciones para solicitar dinero o información confidencial.

Entretanto, los agentes también se han abocado en la práctica del ransomware, el malware y el phishing, reconocidas como “ingeniería social”, mejorando el alcance con la inteligencia artificial, basándose en el machine learning, que certifica un ataque más “sofisticado”. Pero, en acontecimientos recientes en la esfera internacional, se han evidenciado ciertos hechos de “extorsión” sobre la base del vishing, que sirve para suplantar la identidad con el fin de obtener datos bancarios, contraseñas (entre otras informaciones), y que se distingue del “smishing”, que consiste en el envío de mensajes de texto “SMS” para conseguir datos de la víctima.

Es por tanto que todas estas incidencias (delictuales) se facilitan con la inteligencia artificial (IA), en razón directa a que su utilización para la recopilación de audio de la persona a suplantar se faculta con los datos que recrean la voz, lo que permite las extracciones en configuración a un sintetizador preciso.

Ciertamente, al determinar bienes jurídicos, concurren efectos pluriofensivos, en vista a que se encuentra en debate la protección de derechos propios y de terceros. En tanto, en la incidencia legislativa (comparada), se puede advertir lo que expresa el artículo 263º del código penal alemán: “Quien con el propósito de procurarse para sí o para un tercero una ventaja patrimonial antijurídica, en la medida en que él perjudique el patrimonio de otro, por una estructuración incorrecta del “programa”, por la utilización de datos incorrectos o incompletos, por el empleo no autorizado de datos, o de otra manera por medio de la influencia no autorizada en el desarrollo del proceso, será castigado con pena privativa de la libertad hasta cinco años o con multa”. Mientras que, en España, el segundo párrafo del artículo 248 del Código Penal establece: “También se consideran reos de estafa los que, con ánimo de lucro, y valiéndose de alguna manipulación informática o ‘artificio semejante’ consigan la transferencia no consentida de cualquier activo patrimonial en perjuicio de tercero”.

Definitivamente, debemos potenciar la certificación criptográfica para reflejar la autenticación de cualquier contenido que capturemos con las cámaras y/o micrófonos digitales, así como, advertir el alcance (complejo) de la inteligencia artificial generativa, para enfocarnos en aquellas adecuaciones (dispositivas) ante el abuso irregular de la tecnología.

Audio

Parámetros recientes han determinado un desarrollo desde la modalidad (tradicional) de estafa, vinculada a una muestra (limitada) del audio de una persona, para la posibilidad de clonar su voz.

Engañar

Remitir audios por vía mensajería con el sentido de (lograr) engañar a los “conocidos” de dicha persona, y con ello, potenciar la disposición patrimonial de las “víctimas”.

(*) Docente investigador de la carrera de Derecho de la Universidad Americana. Doctor en Derecho. PosDoctor en Ciencias (PD Cs.) - Mención Investigación Científica. Magíster en Ciencias Penales. X: @MatiasGarceteP

Lo
más leído
del día