Skip to content

O estado do reconhecimento de voz do Linux

17 de maio de 2021

O reconhecimento de voz no Linux está atrás das plataformas Windows e Mac porque tanto a Microsoft quanto a Apple investiram tempo e despesas consideráveis ​​para adicionar software de comando de voz ou assistente de voz em seus sistemas operacionais centrais. Embora a situação não seja desanimadora para o Linux, como acontece com muitas tecnologias de ponta, o universo de código aberto e gratuito permanece um passo atrás, especialmente com ferramentas de comando de voz.

Linux Speech Recognition

Nenhuma distribuição Linux se concentra no reconhecimento de voz. No entanto, os aplicativos que oferecem suporte ao recurso de reconhecimento de voz contam com um punhado de bibliotecas de código aberto, incluindo Sphinx, Kaldi, Julius e Mozilla Deepspeech.

Negativespace / Mockup.Photos
Essas bibliotecas contam com um corpus de fala para oferecer variações de sons para treinar a IA e, portanto, traduzir corretamente a fala em texto. No entanto, os projetos de código aberto são menos sofisticados (porque desfrutam de contribuições menores para treinar a IA), o que significa que a maioria dos aplicativos de texto para voz para Linux frequentemente prejudicam a conversão. Normalmente, eles erram tanto que não fica claro qual poderia ter sido o discurso original.

Opções para Linux Speech to Text

Use um dos cinco caminhos de solução.

  • Conte com os aplicativos Linux disponíveis nos repositórios de sua distribuição – se houver algum.
  • A Amazon disponibilizou Alexa para Linux, incluindo Raspberry Pi. Você precisará realizar muitos ajustes personalizados para fazer esse arranjo funcionar, mas funcionará.
  • Acesse a API do Google Speech em seu navegador através de DictationIO. Este serviço funciona apenas para ditado; você não pode usá-lo para comandos de voz. Ele é alimentado pela IA do Google, então a qualidade é boa.

O Google Assistente exibe uma transcrição das chamadas filtradas.

  • Use um serviço como Alexa ou Google Assistant como um utilitário de comando de voz para Linux por meio do serviço Triggercmd. O Triggercmd é executado em seu computador; use-o para invocar o Alexa ou o Google Assistant e fazer com que essas ferramentas executem scripts Bash específicos com base no seu comando. Diga algo como, “Ok Google, peça o comando do gatilho para abrir a calculadora.” O Google Assistant atua como um intermediário com o Triggercmd para executar o script Bash especificado pela frase “abra a calculadora”.
  • Use o Wine ou uma máquina virtual com software para Windows como o Dragon NaturallySpeaking. Com os ajustes certos, você pode usar o mecanismo Dragon para transcrição, embora essa solução não funcione para aplicativos de comando de voz.