Sphinx - technologiniai deigimai

2013-10-02

Atpažinimo įrankis

Šiuo metu dauguma komercinių produktų šnekai atpažinti yra pagrįsti paskirstytų(internetinių) sistemų principu. Savistoviai sprendimai yra naudojami sprendimuose kai nėra įmano pasiekti interneto ar atpažinimą atlikti siaurame kontekste.

Sphinx Deployment

CMU Sphinx - Savistoviai sprendimai

Tokie sprendimai nereikalauja interneto visą reikia informaciją atpažinimui yra platinama kartu(kalbos, etalonų modeliai ir algoritmas).

Šnekos atpažinimas šiuo metu yra aktualus:

  • Mobiliuosiuose įrenginiuose
  • Asmeniniuose kompiuteriuose
  • Naršyklėse

Mobilieji įrenginiai

Šnekos atpažinimas šiuo metu yra plačiai išvystytas: Apple Siri, Android šnekos palaikymas, Nuance Dragon šnekos technologių sprendimai.

Dauguma šių sprendimų reikalauja internetinio ryšio. Galima numanyti, kad didžioji atpažinimo dalis vyksta nutolusiuose serveriuose, o telefonas tarnauja tik šnekos priėmimui, požymių gavybai ir komandų vykdymui. Tokie sprendimai, kartais nėra patogūs nes gali būti užtikrintas internetinis ryšys. Kartai abejonių kelia ir privačių duomenų apsauga. Šis sprendimas yra nepakeičiamas kuomet reikia vykdyti informacijos paiešką internete. Plačiau apie tai Šneka su naršykle skyriuje

Mobiliųjų įrenginių plačiausia žinomos operacinės sistemos: Android ir iOS. Šios sistemoms galima sukurti programėles kurios naudoja pocketsphinx speneliai sukompiluotą biblioteką. Pvz androidui daugiau info Building Pocketsphinx On Android, XCode instaliacija (iPhone): Building application with pocketsphinx.

Asmeniniuose kompiuteriuose

Priklausomai nuo programinės įrangos ir OS naudojimo galima naudoti tiek Sphinx-4, tiek PocketSphinx atpažintuvo versijas. Sphinx-4 leidžia lengviau rašyti programas WORE principu: vieną kartą parašius visose operacinėse sistemose veiks vienodai. Sphinx-4 vienas iš kūrimo tikslų buvo programinis lankstumas ir su tai susietas tinkinimo sudėtingumas, tai lemia kad panaudojamas gali būti per sudėtingas tam tikriems atvejams (greitas demonstracija kaip )

Šneka su naršykle

Funkcionalumas šneka su naršykle galima pasiekti kelias būdais:

  • Kliento pusėje atpažinimas
    • Javascript kodas vykdomas pačioje naršyklėje. Projektas pocketsphinx.js. Javascipt kodas užima 6mb
  • Serverio pusėje. Nagrinėta plačiau sekančiam skyriuje.

CMU Sphinx - Internetai sprendimai

Internetiniai sprendimai reikalauja kad kliento pusėje būtų gaunamas garso signalas ir atlikti pradiniai signalo apraudojimai, kurie sumažina tinklo apkrovas. Toliau šių signalų duomenys su papildoma kontekstine informacija yra siunčiami tinklu į serverį. Jame yra vykdomi atpažinimo uždavinio sprendimas. Serveris siunčia atgal klientui duomenis su galimom atpažinimo hipotezėm. Klientas yra atsakingas atpažinimo įvertinti hipotezes su turimu papildomu kontekstu jei reikia. Taip pat klientas pasirinkęs hipotezę vykdo atitinkamus veiksmus.

Naršyklės serverio pusėje atpažinimas: * Spantus Speech