Skip to content

Tillståndet för Linux röstigenkänning

9 de augusti de 2021
ManlookingatiMac b1773d37ba1443c5a46facac76868cd6

Taligenkänning i Linux följer Windows- och Mac-plattformarna eftersom både Microsoft och Apple har investerat mycket tid och kostnader för att lägga till röstkommando eller röstassistentprogramvara i sina kärnoperativsystem. Även om situationen inte är dyster för Linux, som det är med många spetsteknologier, är det fria och öppna källuniversumet ett steg bakom, särskilt med röstkommandot.

Linux taligenkänning

Ingen Linux -distribution fokuserar på taligenkänning. Men appar som stöder taligenkänning är beroende av en handfull bibliotek med öppen källkod, inklusive Sphinx, Kaldi, Julius och Mozilla Deepspeech.

Dessa bibliotek förlitar sig på en talkorpus för att erbjuda variationer av ljud för att träna AI och därför översätta talet korrekt till text. Men öppen källkodsprojekt är mindre sofistikerade (eftersom de tycker om mindre bidrag för att träna AI), vilket innebär att de flesta text-till-tal-appar för Linux ofta misslyckas med konverteringen. Vanligtvis misslyckas de med det så noga att det inte är klart vad det ursprungliga talet kunde ha varit.

Alternativ för Linux -tal till text

Använd en av fem lösningsvägar.

  • Lita på Linux -appar som är tillgängliga i din distributions lagringsplatser – om sådana visas.
  • Amazon gjorde Alexa tillgängligt för Linux, inklusive för Raspberry Pi. Du måste utföra många anpassade tweaking för att få det här arrangemanget att fungera, men det kommer att fungera.
  • Få åtkomst till Google Speech API i din webbläsare via DictationIO. Denna tjänst fungerar endast för diktering; du kan inte använda den för röstkommando. Den drivs av Googles AI så kvaliteten är bra.

Google Assistant visar en avskrift för skärmade samtal.

  • Använd en tjänst som Alexa eller Google Assistant som ett röstkommandoverktyg för Linux genom tjänsten Triggercmd. Triggercmd körs på din dator; använd den för att åkalla Alexa eller Google Assistant och få dessa verktyg att utföra specifika Bash -skript baserat på ditt kommando. Säg något i stil med ”OK Google, be trigger -kommandot för att öppna miniräknaren.” Google Assistant fungerar som mellanhand med Triggercmd för att köra Bash -skriptet som anges av frasen ”öppna miniräknaren”.
  • Använd Wine eller en virtuell maskin med programvara för Windows som Dragon NaturallySpeaking. Med rätt anpassning kan du använda Dragon-motorn för transkription, även om den här lösningen inte fungerar för röstkommandoprogram.