Algoritmo que rastreia mão pode reconhecer língua de sinais

Google utiliza inteligência artificial para ler língua de sinais

Milhões de pessoas se comunicam usando a língua de sinais, mas até agora os projetos para capturar seus sinais complexos e traduzi-los para a fala verbal tiveram pouco sucesso. No entanto, um novo avanço no rastreamento de mão em tempo real dos laboratórios de inteligência artificial do Google pode ser o avanço esperado por alguns.

A nova técnica usa alguns atalhos inteligentes e, é claro, a crescente eficiência geral dos sistemas de machine lerning para produzir, em tempo real, um mapa altamente preciso da mão e de todos os seus dedos, usando apenas um smartphone e sua câmera.

“Enquanto as abordagens atuais de ponta se baseiam principalmente em poderosos ambientes de desktop para inferência, nosso método alcança desempenho em tempo real em um telefone celular e até mesmo se adapta a várias mãos”, escrevem os pesquisadores do Google Valentin Bazarevsky e Fan Zhang em um blog. “A percepção robusta da mão em tempo real é uma tarefa de visão computacional decididamente desafiadora, pois as mãos geralmente se ocludem umas às outras (por exemplo, oclusões de dedos / mãos e tremores nas mãos) e não apresentam padrões de alto contraste.”

Não apenas isso, mas os movimentos das mãos geralmente são rápidos, sutis ou ambos – não necessariamente o tipo de coisa que os computadores são bons em capturar em tempo real. Basicamente, é muito difícil fazer o certo, e fazer o certo é difícil de fazer rápido. O objetivo dos pesquisadores, neste caso, pelo menos em parte, era reduzir a quantidade de dados que os algoritmos precisavam filtrar. Menos dados significa um retorno mais rápido.

Novo método

Por um lado, eles abandonaram a ideia de ter um sistema detectando a posição e o tamanho de toda a mão. Em vez disso, eles só têm o sistema para encontrar a palma, que não é apenas a parte mais distinta e confiável da mão, mas é quadrada, para inicializar, o que significa que eles não precisavam se preocupar com o sistema imagens, curtos e assim por diante.

Uma vez que a palma da mão é reconhecida, é claro, os dedos brotam de uma das pontas e podem ser analisados separadamente. Um algoritmo separado olha para a imagem e atribui 21 coordenadas a ela, coordenando aproximadamente as articulações e as pontas dos dedos, incluindo o quão longe elas provavelmente são (ela pode adivinhar com base no tamanho e no ângulo da palma da mão, entre outras coisas).

Para fazer essa parte de reconhecimento de dedo, eles primeiro tinham que adicionar manualmente esses 21 pontos a cerca de 30.000 imagens de mãos em várias poses e situações de iluminação para o sistema de aprendizado de máquina para ingerir e aprender. Como de costume, a inteligência artificial depende do trabalho humano duro para seguir em frente.

Uma vez que a pose da mão é determinada, essa postura é comparada a um monte de sinais conhecidos, desde símbolos da língua de sinais para letras e números até coisas como “paz” e “metal”.

mãos

O resultado é um algoritmo de reconhecimento manual rápido e preciso que é executado em um smartphone normal. Tudo funciona dentro da estrutura do MediaPipe, sobre a qual pessoas de tecnologia multimídia podem já saber alguma coisa.

Próximos passos

Com sorte, outros pesquisadores serão capazes de pegar esse material e melhorar os sistemas existentes que precisavam de hardware mais pesado para fazer o tipo de reconhecimento de mão e os sinais. No entanto, é muito difícil entender realmente a língua de sinais, que usa as duas mãos, expressões faciais e outras sugestões para produzir um modo rico de comunicação diferente de qualquer outro.

Isso ainda não está sendo usado em nenhum produto do Google, por isso os pesquisadores podem oferecer seu trabalho gratuitamente. O código fonte está aqui para qualquer um pegar e construir.

“Esperamos que o fornecimento dessa funcionalidade de percepção de mão para a comunidade de pesquisa e desenvolvimento resulte em um surgimento de casos de uso criativo, estimulando novas aplicações e novos caminhos de pesquisa”, escrevem eles.

Fonte: TechCrunch

Foto de Bruno Lugarini
Foto de Bruno Lugarini O autor:

Estudante de Sistema da Informação, técnico de informática, apaixonado por tecnologia, entusiasta das criptomoedas e Nerd.