“Aiuretê”

A união entre a linguística e a engenharia elétrica proporcionou a criação de um programa de computador capaz de falar em português claro, sem o sotaque característico dos softwares atuais. Desenvolvido na Unicamp (Universidade Estadual de Campinas), o programa foi batizado de Aiuruetê (“papagaio verdadeiro”, em tupi). O projeto começou em 1991, como um estudo de descrição fonético-acústica da língua portuguesa feito pelo Laboratório de Fonética e Psicolinguística (Lafape). No entanto, um ano depois, passou a contar com o apoio do Laboratório de Processamento Digital da Fala (LPDF), da Faculdade de Engenharia Elétrica. Os pesquisadores do LPDF já trabalhavam com um conversor texto-fala, mas seu desempenho era limitado por falta de conhecimentos linguísticos. A união com o projeto do Lafape permitiu a introdução de regras de transcrição ortográfico-fonética e de pronúncia das palavras no software.

 

Um dos maiores diferenciais do programa em relação aos sistemas estrangeiros é o Ortofon (conversor ortográfico-fônico), segundo a coordenadora do Lafape, Eleonora Cavalcante Albano. Ele permite que o programa respeite as nuanças da pronúncia da língua portuguesa, aproximando-se de uma fala natural. O software também consegue resolver outras situações complexas, como palavras de grafia idêntica e pronúncia diferente, siglas, abreviaturas e expressões numéricas. O Aiuretê funciona de modo diferente dos softwares tradicionais, onde as sentenças são organizadas e reproduzidas a partir de um banco de dados limitado formado por palavras. Nele, a formação de palavras se dá pela união trechos sonoros com dois ou mais fonemas, como sílabas desconectadas, simulando a fala humana. O sistema foi financiado pela Fapesp (Fundação de Amparo à Pesquisa do Estado de São Paulo) e funciona em qualquer computador equipado com o sistema operacional Windows.

Por razões óbvias, cada língua exige uma base de dados diferente para que um programa desse tipo funcione. A pronúncia das palavras muda completamente de um idioma para outro, exigindo que cada país desenvolva seus sistemas, voltados para sua língua e seu vocabulário específicos. Além disso, mesmo considerando só o português, as letras ganham pronúncias diferentes, dependendo das palavras nas quais estão inseridas. ‘O ‘x’ é um dos casos mais complicados, que pode assumir um som de ‘sc’, ‘s’, ‘x’ e ‘z’, diz Fábio Violaro, coordenador do projeto na Faculdade de Engenharia Elétrica e de Computação da Universidade. Para isso, o programa precisa trabalhar com unidades fonéticas, não com as letras do alfabeto. Foi aí que a participação do pessoal do Instituto de Estudos da Linguagem foi preciosa. Eles compilaram uma base de 2.500 polifones (as tais unidades de pronúncia), que foi aplicada ao sistema.

O sistema já é capaz de sintetizar em som as palavras de praticamente qualquer texto, mas ainda é deficiente na expressão de emoções. É nisso que o grupo da Unicamp está concentrado agora, desenvolvendo um módulo de programação capaz de dar entonação mais natural à voz do computador. Embora não tenha por objetivo tornar o programa uma aplicação comercial, a equipe presta assessoria e forma pessoal para empresas nacionais que possam ter interesse em desenvolver sistemas para o mercado brasileiro. Segundo Violaro, a pesquisa não vai só na direção de apurar as ‘cordas vocais’ da máquina, mas também seus ouvidos. O grupo também trabalha no desenvolvimento de sistemas de reconhecimento de voz – ou seja, que permitem que o computador entenda o que o usuário está dizendo. ‘Com comandos simples [uma palavra], a taxa de acerto é de 99%. Com fala contínua, o acerto gira em torno de 91%, 92%.’

 

Fonte: http://revistagalileu.globo.com/Galileu/1,6993,ECT553081-1938,00.html (12 junho 2003)

http://www.jornaldaciencia.org.br/Detalhe.jsp?id=10834

acesso em agosto de 2003

Posso ajudar?