Reconhecimento de fala da Microsoft agora é tão preciso como seres humanos

0

cortana

A Microsoft fez um grande avanço no reconhecimento de fala, criando uma tecnologia que reconhece as palavras em uma conversa tão bem quanto uma pessoa pode fazer.

Esta é uma conquista histórica para a Microsoft e sua equipe de engenheiros do Grupo de Pesquisa em Inteligência Artificial da Microsoft Research.

For Microsoft Technology and Research: A research team photographed in Microsoft's Building 99 in Redmond, Wash. on Thursday, October 13, 2016. Photo by Dan DeLong

Equipe Microsoft Technology and Research, da esquerda para a direita: Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo e Andreas Stolcke

De acordo com um artigo publicado na segunda-feira, relataram que seu sistema alcançou uma taxa de erro de palavra (WER) de 6,3% e que apenas um mês depois, baixaram esse valor para 5,9%.

“Chegamos a paridade humana. Este é um feito histórico”. disse Xuedong Huang, cientista chefe da empresa.

E por que isso é um feito histórico? Simples, a taxa de erro de 5.9% é aproximadamente igual ao de profissionais convidados para transcrever a mesma conversa, e é a mais baixa já registrada contra a tarefa de reconhecimento de discurso padrão do setor.

Isto significa que o software da Microsoft tem uma taxa de erro de 6 palavras a cada 100, ou seja, aquelas pausas, correções e engasgos comum em qualquer transcrição. Basta recordar as transcrições simultâneas do Oscar e outros eventos ao vivo, que temos uma ideia de quão poderosa ficou essa ferramenta.

“Cinco anos atrás, não diria que poderíamos ter alcançado isso. Só não pensei que seria possível,”disse Harry Shum, o vice-presidente executivo que lidera o grupo de pesquisa e Inteligência Artificial de Microsoft.

O marco da pesquisa vem depois de décadas de investigação no reconhecimento de fala, começando na década de 1970 com a DARPA, a Agência dos Estados Unidos encarregada de fazer avanços de tecnologia no interesse da segurança nacional. Ao longo das décadas, a maioria das grandes empresas de tecnologia e muitas organizações de pesquisa, juntaram-se na busca.

“Essa conquista é o resultado de mais de vinte anos de esforço,”, disse Geoffrey Zweig, que gerencia o grupo de pesquisa, discurso e diálogo.

Para alcançar esses níveis de precisão, os pesquisadores empregaram redes neurais profundas para armazenar uma quantidade significativa de dados, chamado conjuntos de formação — que ajudou os sistemas a reconhecer padrões de entrada humana. Sons e imagens foram usados para treinar a rede para utilizar seus dados armazenados de forma mais eficiente.

Pesquisadores querem deixar claro que a paridade está longe da perfeição. Neste caso, significa apenas que é tão bom quanto os seres humanos.

Seguindo em frente, a equipe espera atingir níveis ainda mais altos de precisão, bem como assegurar-se de que o reconhecimento de voz funcione melhor em situações do mundo real, tais como: restaurantes barulhentos, ruas lotadas e em ventos fortes. No futuro, a equipe sonha com um sistema que não só irá reconhecer o discurso, mas verdadeiramente compreendê-lo.

O Marco terá grandes implicações para o consumidor e os produtos de negócios que podem ser significativamente aumentados por reconhecimento de voz. Isso inclui a Cortana, Xbox, Windows entre outras aplicações como transcrição de vídeos.

“Isso fará a Cortana mais poderosa, possibilitando um assistente verdadeiramente inteligente,” disse Shum.

 

Fonte: Microsoft

Share.

About Author