A arte da leitura labial tem fascinado psicólogos, cientistas da computação e especialistas forenses. Na maioria dos casos, os experimentos envolvem alguém lendo os lábios de outra pessoa ou uma inteligência artificial lendo os lábios de um humano por meio de um aplicativo de telefone.
Mas um tipo diferente de experimento está sendo desenvolvido no Laboratório de Interfaces Inteligentes de Computadores para Interações Futuras (SciFi) da Universidade de Cornell.
Uma equipe de cientistas desenvolveu um sistema de reconhecimento de fala que pode identificar até 31 palavras em inglês. Mas o EchoSpeech, como o sistema é chamado, não é um aplicativo – é um par de óculos aparentemente normal.
Conforme descrito em um relatório, os óculos são capazes de ler os próprios lábios do usuário e ajudar aqueles que não podem falar a realizar tarefas básicas, como desbloquear o telefone ou pedir à Siri para aumentar o volume da TV sem ter que emitir um único som.
Os óculos são equipados com dois microfones, dois alto-falantes e um microcontrolador tão pequeno que praticamente se camufla. Seu funcionamento parece mágica, mas na verdade a tecnologia usada é a de um sonar.
Mais de mil espécies usam sonares para caçar e sobreviver, como as baleias, que conseguem enviar pulsos de som que refletem em objetos na água. Os sons retornam para que o animal possa processar esses ecos e construir uma imagem mental de seu ambiente, incluindo o tamanho e a distância dos objetos ao redor.
O EchoSpeech funciona de maneira semelhante, exceto que o sistema não se baseia na distância. Ele rastreia como as ondas sonoras (inaudíveis ao ouvido humano) viajam pelo rosto e como atingem várias partes móveis da face.
O processo pode ser resumido em quatro etapas principais:
1. Os pequenos alto-falantes (localizados em um dos lados dos óculos) emitem ondas sonoras.
2. À medida que o usuário pronuncia várias palavras, as ondas sonoras viajam pelo rosto e atingem vários “articuladores”, como lábios, mandíbula e bochechas.
3. Os microfones (localizados do outro lado dos óculos) coletam essas ondas sonoras
4. O microcontrolador os processa junto com o dispositivo com o qual os óculos estão emparelhados
Mas como o sistema sabe atribuir uma determinada palavra a um determinado movimento facial? Para isso, os pesquisadores usaram uma forma de inteligência artificial conhecida como algoritmo de aprendizado profundo, que ensina os computadores a processar dados da mesma forma que o cérebro humano.
“Se você treinar o suficiente, poderá olhar para a boca de alguém, sem ouvir nenhum som, e inferir o conteúdo de sua fala”, diz o principal autor do estudo, Ruidong Zhang.
A equipe usou uma abordagem semelhante, exceto que, em vez de outro humano inferir o conteúdo de sua fala, a equipe usou um modelo de inteligência artificial previamente treinado para reconhecer certas palavras e combiná-las com um “perfil de eco” correspondente do rosto de uma pessoa.
PARA ALÉM DO INGLÊS
Por enquanto, o EchoSpeech tem o vocabulário de uma criança. Ele sabe reconhecer todos os 10 dígitos numéricos. Consegue entender direções como “para cima”, “para baixo”, “esquerda” e “direita” – que, segundo Zhang, poderiam ser usadas para desenhar linhas em um software auxiliado por computador. E pode ativar assistentes de voz como Alexa, Google ou Siri, ou conectar-se a outros dispositivos habilitados para bluetooth.
O ECHOSPEECH RASTREIA COMO AS ONDAS SONORAS VIAJAM PELO ROSTO E COMO ATINGEM VÁRIAS PARTES MÓVEIS DA FACE.
Zhang diz que aumentar o vocabulário do sistema para 100 ou 200 palavras não deve representar nenhum desafio específico com a IA atual. Mas qualquer número acima disso exigiria um modelo de IA mais avançado, que pegaria carona nas pesquisas existentes sobre reconhecimento de fala.
Este é um passo importante, considerando que a equipe deseja emparelhar o sistema com um sintetizador de voz e ajudar as pessoas que não podem falar a vocalizar o som de forma mais natural e eficiente.
Por enquanto, o EchoSpeech é um protótipo com conceito intrigante e com tremendo potencial para ajudar pessoas com deficiência, mas a equipe não espera que ele esteja pronto para uso nos próximos cinco anos. E funcionará apenas para o idioma inglês.
“A dificuldade é que cada língua tem sons diferentes”, diz François Guimbretière, coautor do estudo, que é francês. Sons diferentes podem significar diferentes movimentos faciais. Mas também depende dos tipos de idiomas em que o modelo de IA é treinado.
“Há um esforço para aplicar também outros idiomas, para que nem toda a tecnologia seja voltada para o inglês”, diz Guimbretière.
FONTE:
Fast Company Brasil