Encubren comandos a sistemas de reconocimiento de voz en canciones

07/02/2018

Científicos de IBM y de universidades de China y Estados Unidos han ideado una forma de emitir comandos encubiertos para el software de inteligencia artificial basado en voz, como Siri de Apple, Alexa de Amazon, Google Assistant y Microsoft Cortana, codificándolos en canciones populares.

Los investigadores nombraron CommanderSongs a esta técnica, que emite comandos casi inaudibles dirigidos a dispositivos de reconocimiento de voz.

En CommanderSong: Un enfoque sistemático para el reconocimiento de voz práctico, un documento distribuido a través del servicio de preimpresión Arxiv, los diez autores involucrados en el proyecto, Xuejing Yuan, Yuxuan Chen, Yue Zhao, Yunhui Long, Xiaokang Liu, Kai Chen, Shengzhi Zhang, Heqing Huang, Xiaofeng Wang y Carl A. Gunter describen su técnica para engañar con "perturbaciones adversas" a los modelos de aprendizaje profundo utilizados para reconocer el habla.

Los ataques adversos son una forma de engañar a los sistemas de inteligencia artificial al alterar los datos de entrada para obtener los resultados deseados de un sistema específico. Han sido explorados extensamente para imágenes. Por ejemplo, los estudiantes de MIT recientemente demostraron que podían engañar al sistema de reconocimiento de imágenes de Google para etiquetar a una tortuga como un rifle.

Alteraciones

Se ha hecho menos trabajo con el reconocimiento de audio y voz. Los investigadores dicen que las imágenes proporcionan una manera fácil de alterar pixeles para disparar algoritmos sin artefactos visuales visibles, no es obvio si los ataques de audio también pueden pasar por alto porque las alteraciones añadidas a las voces normalmente no pueden ser reconocidas por dispositivos controlados por voz como Amazon Echo.

El año pasado, un grupo de personas propusieron lo que llamaron DolphinAttack , para manipular aplicaciones de reconocimiento de voz basadas en software que usan sonido fuera del alcance del oído humano. Sin embargo, esa técnica puede mitigarse con tecnología capaz de suprimir las señales de ultrasonido.

Los investigadores de CommanderSong, del Laboratorio Estatal de Seguridad de la Información (SKLOIS), de la Academia de Ciencias de China, del Instituto de Tecnología de Florida, de la Universidad de Illinois en Urbana-Champaign, del Centro de Investigación IBM TJ Watson y de la Universidad de Indiana dicen que su técnica tiene dos diferencias: no se basa en ninguna otra tecnología para ocultar el comando, y no puede ser bloqueada por filtros de frecuencia de audio.

"Nuestra idea de hacer un comando de voz imperceptible es integrarlo en una canción", explican en su artículo. "De esta forma, cuando se reproduce la canción elaborada, el sistema de reconocimiento de voz decodificará y ejecutará el comando inyectado en el interior, mientras que los usuarios todavía disfrutan de la canción normalmente".

En una entrevista telefónica con The Register, Gunter, profesor de ciencias de la computación en la Universidad de Illinois, dijo que mientras se realizaban trabajos previos que demostraban que los sonidos confusos pueden activar sistemas de reconocimiento de voz, enmascarar el comando en una canción sería menos notorio porque la música es a menudo presente.

"Tiene un vector de ataque más práctico", dijo.

Los investigadores comenzaron con una canción seleccionada aleatoriamente y una pista de comando generada por un motor de conversión de texto a voz. Posteriormente, decodificaron cada archivo de audio utilizando el kit de herramientas de reconocimiento de voz Kaldi (open source) y extrajeron la salida de una red neuronal profunda (DNN).

Después de identificar las salidas específicas de DNN que representan el comando deseado, manipularon la canción y ordenaron el audio usando el método gradient descent, un algoritmo de optimización de aprendizaje automático.

En esencia, utilizaron su conocimiento de la forma en que el audio se procesaría para garantizar que el sistema de reconocimiento de voz escuchara el comando dentro de la música.

El resultado es un audio adverso: canciones que contienen un comando interpretable por código de Kaldi pero que es poco probable que un oyente humano lo detecte.

El audio alterado puede ser perceptible para un oyente, pero es difícil que el sonido agregado sea reconocido como algo más que distorsión.

"Se confunde algunas de estas señales como defectos en los medios", dijo Gunter, permitiendo que algunas canciones enmascaren el comando mejor que otras. "Algunos de los ejemplos, te harían una mueca. Otros son más sutiles".

Los investigadores probaron una gran cantidad de comandos en la canción entregados directamente a Kaldi como grabaciones de audio, tales como: "Ok Google, leer el correo" y "Echo, abre la puerta de entrada". La tasa de éxito de estos fue del 100 por ciento.

También probaron comandos en la canción entregados de manera audible, donde el ruido ambiental puede dificultar el reconocimiento, incluyendo "Echo, pida a Capital One que pague con tarjeta de crédito" y "Ok Google, llame a uno uno cero uno uno nueve uno dos cero".

Para sustituir a los dispositivos reales, los atacantes utilizaron el software Kaldi escuchando canciones con comandos integrados, entregados a través de un altavoz portátil clip2 de JBL, equipo de transmisión TAKSTAR y una computadora portátil ASUS, desde una distancia de 1,5 metros.

Para la prueba al aire libre, las tasas de éxito variaron del 60 al 94 por ciento.

Gunter dijo que para estar seguro de que el ataque funcionaría, digamos en Echo de Amazon, se tendría que realizar ingeniería inversa en el motor de reconocimiento de voz de Alexa. Pero dijo que sabe de colegas que trabajan en eso.

Los investigadores sugieren que CommanderSongs podría solicitar que los dispositivos de reconocimiento de voz ejecuten cualquier comando emitido por el aire sin que de nadie cercano lo pueda notar. También dijeron que tales ataques podrían ser entregados a través de radio, televisión o reproductores multimedia.

Ya tenemos la prueba de concepto para los comandos enviados a través de las ondas. Con el tiempo, podemos obtener un canal secreto también.

"Va a tomar un trabajo continuo para llegar al punto en que sea menos notorio", dijo Gunter.

Artículos relacionados:

Amazon Echo es vulnerable a un ataque para ganar privilegios de administrador