Comandos de ultrassom inaudíveis podem ser usados para controlar secretamente Siri, Alexa e Google Now
Estariam os assistentes digitais recebendo ordens enquanto você não está olhando?
Cientistas da Universidade Zheijiang, na China, provaram que é possível dar comandos por voz de forma secreta. Eles demonstraram como Siri, Alexa e outros programas ativados por voz podem ser controlados usando comandos de ultrassom, inaudíveis para os seres humanos.
Isso fornece um novo método de ataque para hackers, que podem visar dispositivos como telefones, tablets e até carros. Mas não se preocupe demais – a técnica tem uma série de limitações importantes, o que significa que é improvável que ataques ocorram.
O uso de ultrassom como forma discreta de comunicação digital é bastante comum. Conforme apontado em um relatório da FastCompany sobre o tópico, o Chromecast do Google e os Botões Dash da Amazon usam sons inaudíveis para emparelhar em seu telefone.
Os anunciantes aproveitam essas alternativas secretas de áudio também, transmitindo códigos ultrassônicos em comerciais de TV que funcionam como cookies em um navegador web, rastreando a atividade de um usuário em dispositivos.
A implantação dessas frequências agudas para hackear assistentes de voz também foi sugerida antes, mas este novo trabalho da Zheijiang fornece o teste mais abrangente do conceito até o momento. E realmente, é impressionante o quão suscetível é a tecnologia moderna.
Como?
Para realizar seus ataques, os pesquisadores primeiro criaram um programa para traduzir comandos de voz normais em frequências muito altas, para que os humanos não possam escuta-las. Então, eles testaram se esses comandos seriam obedecidos por 16 sistemas de controle de voz, incluindo Siri, Google Now, Samsung S Voice, Cortana, Alexa e várias interfaces de carro.
Os pesquisados apelidaram de seu método "DolphinAttack", porque os golfinhos, assim como os morcegos, usam ruídos de alta frequência em seus habitats, como uma forma de eco localização.
DolphinAttack foi bem-sucedido e os pesquisadores conseguiram emitir vários comandos, incluindo "ativar a Siri para iniciar uma chamada do FaceTime, no iPhone; ativar o Google Now para mudar o smartphone para o modo avião e até mesmo manipular o sistema de navegação em um carro da Audi".
Eles sugerem que o método pode ser usado para uma série de ataques maliciosos, incluindo a instrução de um dispositivo para visitar um site que faça o download de um vírus ou iniciar chamadas telefônicas para espiar uma vítima.
Em um bom trabalho de crédito extra, eles até pensaram em como comprometer um sistema de comando de voz treinado para responder apenas a voz de uma pessoa. Siri ofereceu esse recurso por um tempo, mas dificilmente é infalível.
Eles teorizaram que se você pudesse obter um alvo potencial para dizer uma frase particular, alguém poderia cortar as sílabas e reorganize-os para formar artificialmente as palavras, reorganizadas na voz do proprietário. Dando brecha para alguém mal-intencionado emitir seus comandos para o dispositivo alvo.
DolphinAttack provou ser consistentemente capaz de emitir comandos para vários dispositivos em diferentes idiomas. Aqui estão alguns dos resultados dos testes para controlar o Siri.
Conclusões
Tal como acontece com o resto da pesquisa, este método é gratificante, mas um pouco impraticável para ser um perigo generalizado. Para que os comandos funcionem, é necessário estar perto do dispositivo e, estar em um local que conte com um bom sinal de rede e nenhum tipo de interferência.
“É um hack eficaz, mas é improvável que cause muito dano no mundo real” – comentam os cientistas.
Para começar, para que um dispositivo adote um comando de voz ultrassônico, o atacante precisa estar próximo - como em, a mais de alguns metros de distância. Os ataques também precisam ocorrer em um ambiente bastante silencioso. Um DolphinAttack que pede a Siri para ativar o modo avião foi 100 por cento bem-sucedido em um escritório; 80% de sucesso em um café; e apenas 30% de sucesso na rua.
Os pesquisadores também tiveram que comprar um orador especial (embora muito barato) para transmitir os comandos e observou que os ataques às vezes deveriam ser ajustados ao alvo. Isso ocorre porque as respostas de frequência dos microfones diferem do fabricante para o fabricante. Para o Nexus 7, por exemplo, eles descobriram que o melhor desempenho veio de comandos emitidos a 24,1 kHz (embora o tablet também tenha respondido a outras frequências).
Além dessas restrições ambientais, vale a pena lembrar que praticamente todos os sistemas de assistentes digitais respondem audivelmente a qualquer comando de voz. Então, as chances de um hacker controlar seu telefone sem que você perceba são magros.
Além disso, para realizar comandos mais impactantes - como informar um dispositivo para visitar um determinado site, ou enviar dinheiro para alguém - geralmente você precisa desbloquear seu dispositivo ou confirmar as instruções. Os pesquisadores também observaram que seria bastante fácil implementar uma correção: você pode simplesmente ajustar o hardware ou o software para ignorar comandos fora de uma determinada faixa de frequência.
Todas essas ressalvas, o DolphinAttack mostra como novas formas de interagir com a tecnologia invariavelmente introduzem novas vulnerabilidades. O advento da "computação conversacional" não é uma exceção, e os fabricantes podem querer examinar esse tipo de hack antes que a campanha de sussurros inaudível contra eles seja iniciada com seriedade.