euskaraespañol

Cómo evitar el engaño en audios de aprendizaje automático

Cuestionan la fiabilidad de las medidas para detectar si un engaño en el audio a los modelos de Inteligencia Artificial es percibido por el oído humano

  • Research

First publication date: 30/12/2021

El investigador Jon Vadillo en su despacho escribiendo en su ordenador portátil
Jon Vadillo, investigador del Departamento de Ciencia de la Computación e Inteligencia Artificial de la UPV/EHU. FOTO: Nagore Iraola. UPV/EHU

Investigadores de la UPV/EHU han demostrado que las métricas de distorsión utilizadas para detectar perturbaciones intencionadas en señales de audio no son una medida fiable de la percepción humana, y han propuesto una serie de mejoras. Estas perturbaciones, diseñadas para ser imperceptibles, pueden utilizarse para provocar predicciones erróneas en inteligencia artificial. Las métricas de distorsión se aplican para evaluar la eficacia de los métodos de generación de este tipo de ataques.

La inteligencia artificial (IA) se basa cada vez más en modelos de aprendizaje automático, entrenados a partir de conjuntos de datos de gran tamaño. Asimismo, la interacción persona-ordenador depende cada vez más de la comunicación oral, principalmente debido al notable rendimiento de los modelos de aprendizaje automático en tareas de reconocimiento del habla.

Sin embargo, estos modelos pueden ser engañados por ejemplos “adversarios”, es decir, entradas perturbadas intencionadamente para producir una predicción errónea sin que los cambios sean perceptibles para los humanos: “Supongamos que tenemos un modelo que clasifica audio (por ejemplo, el reconocimiento de comandos de voz) y queremos engañarle, es decir, generar una perturbación que de manera maliciosa el modelo deje de funcionar correctamente. Si una señal se escucha bien, una persona es capaz de percibir si una señal dice ‘yes’, por ejemplo. Cuando añadimos una perturbación adversaria seguiremos escuchando ‘yes’, pero el modelo empezará a escuchar ‘no’, o ‘gira a la derecha’ en vez de a la izquierda o cualquier otro comando que no deseamos ejecutar”, explica Jon Vadillo, investigador del Departamento de Ciencia de la Computación e Inteligencia Artificial de la UPV/EHU.

Esto puede tener “implicaciones muy serias a nivel de la aplicación de estas tecnologías en problemas del mundo real o problemas muy delicados —añade Vadillo—. Todavía no se sabe muy bien por qué pasa esto. Por qué un modelo que se comporta tan inteligentemente, cuando recibe señales alteradas mínimamente, de repente deja de funcionar correctamente”.

Conseguir engañar al modelo con una perturbación no detectable

“Es importante saber si un modelo o un programa tiene vulnerabilidades o no —añade el investigador de la Facultad de Informática—. Por un lado, investigamos estas vulnerabilidades, para ver que existen, y porque ese es el primer paso para luego corregirlos”. Aunque muchas investigaciones se han centrado en el desarrollo de nuevas técnicas para generar perturbaciones adversarias, se ha prestado menos atención a los aspectos que determinan si las perturbaciones son percibidas por los humanos y cómo lo son. Esta cuestión es relevante, ya que las estrategias de perturbación adversaria propuestas sólo representan una amenaza si las perturbaciones no son detectables por humanos.

En este estudio se ha investigado hasta qué punto las métricas de distorsión propuestas en la literatura para los ejemplos adversarios de audio son una medida fiable de la percepción humana de las perturbaciones. Mediante un experimento en el que 36 personas han evaluado ejemplos adversarios o perturbaciones de audio según diferentes factores, los investigadores han demostrado que “las métricas que se están usando de manera estándar en la literatura no son del todo robustas o fiables. Es decir, no representan adecuadamente la percepción auditiva de los humanos; te pueden decir que una perturbación no es detectable, pero luego cuando lo evaluamos con humanos sí que son detectables. Con esto queremos lanzar una advertencia de que el estudio de estos ataques en audio no se está haciendo del todo bien, por esa falta de fiabilidad de estas métricas”, apunta el investigador.

Asimismo, los investigadores han propuesto un método de evaluación más robusto, como resultado del “análisis de algunas propiedades o factores del audio relevantes a la hora de evaluar la detectabilidad; por ejemplo, en qué partes del audio es más detectable una perturbación”. Aun así “este problema sigue abierto, porque resulta muy complejo conseguir una métrica matemática que sea capaz de modelar la percepción auditiva. Dependiendo del tipo de la señal de audio, harán falta probablemente métricas diferentes o considerar factores diferentes. Llegar a conseguir métricas generales en audio que sean representativas es una tarea compleja”, concluye Vadillo.

Bibliographic reference