Pesquisadores usam inteligência artificial para aperfeiçoar e criar novas aplicações para os personagens virtuais

Pesquisadores usam inteligência artificial para aperfeiçoar e criar novas aplicações para os personagens virtuais

Unicamp avança com avatares para comunicação em Libras

O professor José Mario De Martino gosta de dizer que, assim como nenhum carro nasce Ferrari, toda pesquisa é um processo em evolução. Docente da Faculdade de Engenharia Elétrica e de Computação (Feec) da Unicamp, o pesquisador passou os últimos 20 anos desenvolvendo projetos de criação de avatares — personagens virtuais em 3D — para a tradução em Libras, a língua brasileira de sinais. Ao longo desse período, a capacidade de sua equipe de gerar avatares experimentou um salto qualitativo, obtendo modelos capazes de, entre outras tarefas, traduzir textos em português e reconhecer a língua de sinais. Apesar desses avanços, o docente permanece modesto e sugere que o projeto ainda se assemelha a um Ford T: possui funcionalidades básicas, mas com espaço para aperfeiçoamento.

“Nós apostamos no realismo do avatar, mas isso ainda permite avanços”, explica De Martino, destacando ser esse, na verdade, o aspecto mais maduro da iniciativa. De acordo com o pesquisador, o maior desafio do projeto está na tradução de mensagens em Libras, uma língua visuoespacial, para um idioma escrito ou falado — ou dessa língua falada para Libras —, visto que a comunicação por sinais tem uma estrutura gramatical diferente da oral. “Em Libras, aspectos como expressões faciais e movimentos dos olhos e da cabeça influenciam o que se quer dizer. E há também outros recursos empregados na língua de sinais que precisam ser considerados no processo de tradução. Um caso particular disso são os classificadores — movimentos e configurações das mãos que podem descrever o tamanho e a forma de um ser ou objeto”, diz.

O uso de classificadores ocorre, por exemplo, no emprego de sinais distintos para as expressões “abrir um livro” e “abrir a janela”. No primeiro caso, a pessoa junta as palmas das mãos e depois as separa em um movimento similar ao de abrir um livro, enquanto, no segundo, a pessoa estica os braços para a frente com os punhos fechados e, em seguida, os afasta, em um movimento parecido ao de empurrar as janelas para o lado de fora da casa. Dessa forma, falar em abrir um livro ou uma janela em Libras não se resume a usar o sinal de “abrir” junto com os sinais de “livro” ou “janela”, o que acrescenta uma dimensão de complexidade à tarefa de tradução.

Na tentativa de aprimorar as abordagens de tradução automática de avatares sinalizantes, De Martino, desde o ano passado, coordena o Centro de Ciência para o Desenvolvimento — Tecnologia Assistiva e Acessibilidade em Libras (CCD-Taal), uma parceria com a Secretaria de Estado dos Direitos da Pessoa com Deficiência (SEDPCD) financiada pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp). O projeto busca novas formas de usar a inteligência artificial na tradução automática Libras-português e português-Libras, avaliando a utilização de técnicas de computação gráfica, aprendizado de máquina e animação, bem como de processamento e análise de imagens e vídeos, para aperfeiçoar a leitura e a tradução da língua de sinais.

Além do professor, participam do grupo pesquisadores de áreas tão diversas quanto computação, linguística, estudos da tradução e educação. Entre esses figuram o docente Hélio Pedrini, do Instituto de Computação (IC) da Unicamp, o fonoaudiólogo Felipe Barbosa, professor do Departamento de Linguística da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da Universidade de São Paulo (USP), o pesquisador Vagner Luiz Gava, do Instituto de Pesquisas Tecnológicas (IPT) de São Paulo, o linguista Marcus Vinicius Nascimento, professor da Universidade Federal de São Paulo (Unifesp), e a docente Sylvia Grespan, da Faculdade de Educação da USP.

A meta, ao final, é construir um recurso capaz de oferecer suporte às pessoas surdas em seu dia a dia, o que inclui tecnologias para atender às demandas das secretarias estaduais no que se refere à saúde, à educação e aos direitos da pessoa com deficiência. “Seria interessante oferecer avatares para alunos surdos que frequentam a mesma escola que os oralizados e que são expostos ao mesmo material didático escrito. Os ouvintes, quando chegam à escola, já sabem o idioma. O surdo, não. Para ele, aprender português na escola significa o mesmo que aprender japonês olhando apenas os ideogramas. Então, seria importante e útil oferecer uma ferramenta com a qual essa pessoa consiga traduzir os livros para a sua língua de conforto”, afirma De Martino.

Uma tentativa inicial de tradução de livros realizada pela pedagoga Débora Gonçalves Dias, que é surda, obteve resultados promissores. Em 2018, a pesquisadora defendeu um mestrado na Faculdade de Ciências Médicas (FCM) da Unicamp, com orientação do professor De Martino e da professora Ivani Rodrigues Silva, do curso de fonoaudiologia, em que avaliou a aceitação do avatar como tradutor, para Libras, de textos didáticos sobre ciência escritos em português. Envolvendo estudantes do quinto ano de uma escola de Londrina (PR), o estudo demonstrou que esses estudantes conseguiram realizar os experimentos com o apoio do avatar atingindo o mesmo sucesso de experimentos realizados com o auxílio de intérpretes humanos.

À época, a tecnologia ainda não havia incorporado as expressões faciais e corporais próprias da língua de sinais, algo aprimorado no avatar disponível atualmente. Para tornar os movimentos das mãos, do tronco e do rosto do personagem virtual mais fiéis, a equipe utiliza na animação do avatar imagens produzidas nos estúdios do Laboratório Galileu da Unicamp, sob a coordenação de De Martino, por meio de um sistema de captura de movimentos corporais e faciais. “No nosso projeto, hoje, nós temos três pessoas surdas trabalhando, uma professora e duas alunas, que fornecem o aspecto mais importante, os dados para o desenvolvimento das abordagens de tradução automática e de controle do avatar”, conta o docente.

Acessibilidade no transporte

Os avanços no desenvolvimento do avatar propiciaram uma parceria do CCD-Taal com a Universidade Técnica de Ingolstadt (Alemanha), por meio do centro Aware (rede aplicada em pesquisa e educação automotiva, na sigla em inglês), da universidade europeia, um órgão voltado a pesquisas em conjunto com parceiros da América Latina. O projeto Unity (sigla em inglês para aperfeiçoamento da acessibilidade de pessoas surdas em sistemas de transporte multimodais), financiado pela Fapesp e pelo Instituto Aimotion Bavaria, da universidade alemã, pretende unir os conhecimentos de cada instituição a fim de integrar os avatares realistas a meios de transporte público. Os pesquisadores buscam, assim, facilitar a comunicação entre os passageiros surdos e os condutores dos veículos ou os representantes do sistema de mobilidade, usando sensores incorporados à central multimídia de carros, telas no banco traseiro ou mesmo aplicativos de smartphone.

O professor Alessandro Zimmer, docente da universidade europeia e um dos fundadores do Aware, conta que a instituição foca bastante a área de mobilidade porque a região onde se localiza possui muitas indústrias de tecnologia locomotiva, como a Audi, a Airbus, a BMW e a Mercedes. De acordo com Zimmer, o centro nasceu após uma visita de membros da universidade alemã ao departamento de engenharia elétrica da Universidade Federal do Paraná (UFPR), o que resultou em um projeto conjunto, com financiamento do governo alemão e do governo do Estado da Baviera. Esse projeto, mais tarde, tornou-se um centro permanente responsável por manter em contato integrantes da universidade alemã e pesquisadores da América Latina.

O projeto Unity, no entanto, surgiu do interesse da Aware em realizar parcerias com a Fapesp, o que originou uma linha de financiamento hoje coordenada pela equipe de De Martino no Brasil e de Zimmer na Alemanha. Nesse contexto, caberá à universidade alemã oferecer a tecnologia de sensores internos do veículo, bem como o processamento de imagens por inteligência artificial, enquanto o CCD-Taal se responsabilizará pelas tecnologias de acessibilidade. “Nós começamos os trabalhos há pouco tempo e estamos oferecendo uma plataforma de desenvolvimento, um carro BMW X3 elétrico que dispõe de sensores já instalados dentro e fora do veículo, sensores esses capazes de capturar imagens e informações das pessoas em duas e três dimensões, para testar casos específicos”, afirma Zimmer.

Por se tratar de uma tecnologia a ser colocada dentro de veículos, o teste de sensores em casos específicos é relevante porque há o desafio de lidar com as câmeras em um espaço restrito, como táxis e carros de plataformas de mobilidade, dentro dos quais o movimento dos usuários pode bloquear a câmera dos dispositivos. Por isso, o projeto, com duração de dois anos, pretende testar a viabilidade de se instalar múltiplos tipos de sensores dentro de meios de transporte diversos para, então, conseguir financiamentos mais robustos visando aos próximos passos da pesquisa.

O laboratório alemão, entre suas linhas de ação, deseja criar algoritmos que incorporem a inteligência dos computadores aos sensores, permitindo o processamento das imagens capturadas no próprio dispositivo, sem a necessidade do suporte de um computador, algo ainda inviável levando em conta as tecnologias atuais. “A nossa ideia é adquirir a imagem em tempo real, processar os dados e devolver o resultado para o carro sem a necessidade de armazenar nada. Até porque, aqui na Europa, é complicado guardar fotos e informações de pessoas devido às leis de proteção geral de dados”, explica Zimmer.

Próximos passos

A proposta do Unity também inclui ampliar o escopo de tradução do avatar para o alemão e a língua alemã de sinais, além do próprio português e da Libras, o que acarreta outra complexidade por trazer desafios supratécnicos — que precisam ser trabalhados antes das questões técnicas. “Hoje, o desafio envolve quatro domínios: a língua de sinais brasileira, a língua de sinais alemã, o alemão e o português. Somado a isso, nós temos que lidar com quatro culturas diferentes, duas de comunidades surdas e duas de comunidades ouvintes”, explica De Martino, afirmando que, no futuro, se for possível criar algo generalizável, talvez seja possível estender a tradução para outros idiomas.

Um dos primeiros passos da pesquisa, no entanto, envolve o levantamento de informações junto à comunidade surda e junto aos linguistas, pois, por se tratar de um projeto de aprendizado de máquina, faz-se necessário um grande volume de dados para treinar o modelo. No final de agosto, uma equipe da Alemanha veio ao Brasil fazer capturas no Laboratório Galileu. Ao longo de quinze dias, a equipe registrou mais de 1,5 milhão de frames utilizando três tipos de sensores diferentes: o primeiro, de câmeras Flir RGB, que capturam imagens coloridas, obtendo informações mais detalhadas; o segundo, de câmeras time of flight (TOF), que obtêm imagens coloridas e em profundidade; e o terceiro, com a câmera de um tablet.

O experimento contou com três intérpretes diferentes, com cinco repetições, simulando um diálogo entre um passageiro surdo e um motorista de táxi e utilizando três veículos diferentes. Além disso, os cientistas registraram dados de movimento e geraram animações de avatar sinalizando 38 sentenças no papel do motorista. Com esses dados em mãos, o Unity iniciará os testes com modelos de aprendizado de máquina, verificando quais deles são mais eficientes para o processo de tradução e qual a melhor solução. “Esse é um projeto de dois anos. Então, não dá para esperar que vai sair uma Ferrari. Mas estamos evoluindo com nosso Ford T para ter algo robusto que alavanque projetos mais longos de pesquisa”, finaliza De Martino.

CRÉDITO/IMAGEM: Replicar as expressões faciais e os movimentos dos olhos e da cabeça realizados em Libras é o principal desafio na criação de um avatar realista

Fonte: Secretaria Executiva de Comunicação – https://jornal.unicamp.br/

Compartilhe esta notícia:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Aviso de Direitos Autorais

Todos os direitos sobre os conteúdos publicados em todas as mídias sociais do Diário PcD, incluindo textos, imagens, gráficos, e qualquer outro material, estão reservados e são protegidos pelas leis de direitos autorais.
Todos os Direitos Reservados.
Nenhuma parte das publicações em todas as mídias sociais do Diário PcD devem ser reproduzidas, distribuídas, ou transmitidas de qualquer forma ou por qualquer meio, incluindo fotocópia, gravação, ou outros métodos eletrônicos ou mecânicos, sem a prévia autorização por escrito do titular dos direitos autorais, de acordo com a legislação vigente.
Para solicitações de permissão para usos diversos do material aqui apresentado, entre em contato por meio do e-mail jornalismopcd@gmail.com ou telefone 11.99699 9955.
A infração dos direitos autorais é uma violação de Lei Federal 9.610, passível de sanções civis e criminais.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore