Predstavljajte si, da sproščeno sedite na kavču in samo naročite računalniku ali prenosniku ali mobilnemu telefonu, da izvaja preprosta opravila, kot je tipkanje črke ali izvajanje nekaj ukazov. Ali je možno?

Seveda je, tu nastopi prepoznavanje glasu.

Glede na definicijo gre za postopek prepoznavanja človeškega govora in njegovo dekodiranje v besedilno obliko.

Načelo

Osnovno načelo prepoznavanje glasu vključuje dejstvo, da govor ali besede, ki jih govori kateri koli človek, povzročajo vibracije v zraku, znane kot zvočni valovi. Ti neprekinjeni ali analogni valovi se digitalizirajo in obdelajo ter nato dešifrirajo v ustrezne besede in nato v ustrezne stavke.

prepoznavanje glasu

Sestavni deli sistema za prepoznavanje govora

Kaj torej sestavlja osnovni sistem za prepoznavanje govora?

Sestavni deli sistema za prepoznavanje govora

Naprava za zajem govora : Sestavljen je iz mikrofona, ki pretvori signale zvočnega vala v električne signale, in analognega v digitalni pretvornik, ki vzorči in digitalizira analogne signale, da dobi diskretne podatke, ki jih računalnik lahko razume.
Digitalni signalni modul ali procesor : Izvede obdelavo neobdelanega govornega signala, kot je pretvorba frekvenčne domene, obnovi samo zahtevane informacije itd.
Predobdelano shranjevanje signala : Predobdelani govor se shrani v pomnilnik za nadaljnjo nalogo prepoznavanja govora.
Referenčni vzorci govora : Računalnik ali sistem je sestavljen iz vnaprej določenih vzorcev govora ali predlog, ki so že shranjeni v pomnilniku in bodo uporabljeni kot referenca za ujemanje.
Algoritem za ujemanje vzorcev : Neznani govorni signal se primerja z referenčnim vzorcem govora, da se določijo dejanske besede ali vzorec besed.

Delovanje sistema

Zdaj pa poglejmo, kako celoten sistem dejansko deluje.

Delovanje sistema

Govor lahko razumemo kot zvočno valovno obliko, tj. Informacije o sporočilih, ki prenašajo signal. Običajno človeško bitje z omejeno hitrostjo gibanja svojih artikulatorjev (govornih organov) lahko govori s povprečno hitrostjo 10 zvokov na sekundo. Povprečna hitrost informacij je približno 50-60 bitov / sekundo. To pomeni, da je v govornem signalu dejansko potrebnih le 50 bitov / sekundo informacij. Ta zvočna oblika se z mikrofonom pretvori v analogne električne signale. Pretvornik Analog v Digital pretvori ta analogni signal v digitalne vzorce z natančnimi meritvami vala v ločenih intervalih.
Digitalizirani signal je sestavljen iz toka periodičnih signalov, vzorčenih s 16000 krat na sekundo, in ni primeren za izvajanje dejanskih prepoznavanje govora postopka, saj vzorca ni mogoče enostavno najti. Za pridobivanje dejanskih informacij se signal v časovni domeni pretvori v signal v frekvenčni domeni. To naredi procesor digitalnih signalov s pomočjo tehnike FFT. V digitalnem signalu komponenta po vsakem 1/100^thsekunde se analizira in izračuna frekvenčni spekter za vsako takšno komponento. Z drugimi besedami, digitalizirani signal je razdeljen na majhne dele frekvenčnih amplitud.
Vsak segment ali frekvenčni graf predstavlja različne zvoke, ki jih oddajajo ljudje. Računalnik izvaja ujemanje neznanih segmentov s shranjeno fonetiko določenega jezika. To ujemanje vzorcev se izvede na 3 načine:

Uporaba akustičnega fonetičnega pristopa : V akustičnem fonetičnem pristopu se običajno uporablja model skritega Markova. Ta model razvija nedeterministični verjetnostni model za prepoznavanje govora. Ta model je sestavljen iz dveh spremenljivk - skritih stanj fonemov, shranjenih v računalniškem pomnilniku, in vidnega frekvenčnega segmenta digitalnega signala. Vsak fonem ima svojo verjetnost in segment se ujema s fonemom glede na verjetnost, nato pa se ujemajoči fonemi zberejo, da tvorijo prave besede v skladu s shranjenimi slovničnimi pravili jezika.

Uporaba pristopa prepoznavanja vzorcev : Pri pristopu prepoznavanja vzorcev se sistem usposobi z določenim govornim vzorcem za kateri koli jezik, neznani govorni vzorec pa se primerja z referenčnim vzorcem govora z določitvijo razdalje med signali s pomočjo tehnike upogibanja časa.

Uporaba umetne inteligence : Pristop umetne inteligence temelji na uporabi osnovnih virov znanja, kot so poznavanje zvokov, izgovorjenih na podlagi spektralnih meritev, poznavanje ustreznih pomenljivih in skladenjskih besed.

Dejavniki, od katerih je odvisen sistem za prepoznavanje govora

Sistem za prepoznavanje govora je odvisen od naslednjih dejavnikov:

Izolirane besede : Med zaporednimi izgovorjenimi besedami je treba narediti premor, ker se neprekinjene besede lahko prekrivajo, kar oteži sistemu, da razume, kdaj se beseda začne ali konča. Tako mora biti med zaporednimi besedami tišina.
En zvočnik : Mnogi zvočniki, ki poskušajo hkrati izvajati govorni vnos, lahko povzročijo prekrivanje signalov in prekinitve. Večina uporabljenih sistemov za prepoznavanje govora je odvisnih od govorcev.
Velikost besedišča : Za ujemanje vzorcev je težko upoštevati jezike z velikim besediščem kot z majhnim besediščem, saj je v slednjem verjetnost dvoumnih besed manjša.

Sistem za prepoznavanje govora v sistemu Windows 7

Priporočam naslednje korake vsem, ki uporabljajo sistem Windows 7 za sistem za prepoznavanje govora

Odprite nadzorno ploščo v meniju Start ali s klikom na ikono.
Izberite Enostaven dostop in kliknite Prepoznavanje govora.
Nato kliknite nastavitev mikrofona in med razpoložljivimi možnostmi izberite namizni mikrofon.
Nato vzemite vajo za govor in sledite navodilom.
Po tem usposobite računalnik za boljše možnosti, tako da bo računalnik shranil določen vzorec vašega govornega signala. To storite tako, da kliknete možnost »usposobite računalnik, da vas bolje razume« in nato sledite navodilom.
Zdaj zaženite ikono za prepoznavanje govora in začnite diktirati svoj govor v računalnik. V računalniški slovar lahko dodate tudi svoje besede.

Praktični sistemi za prepoznavanje govora: Uporaba HM2007

Praktični sistem za prepoznavanje govora je mogoče izdelati s pomočjo funkcije za prepoznavanje govora HM2007 . HM2007 je 48-pinski IC, ki omogoča funkcijo prepoznavanja govora. Deluje v dveh načinih: ročnem ali CPU. V obeh načinih se IC najprej usposobi za prepoznavanje besed tako, da uporabnik izgovori vsako besedo za ustrezno številko, pritisnjeno na tipko. IC shrani vsak besedni signal na mesto pomnilnika, ki ustreza besedi. Izhodni podatki iz IC so povezani z mikrokrmilnikom, od koder so prikazani na LCD-prikazovalniku.

Praktični sistemi za prepoznavanje govora

Običajno uporabljamo ročni način delovanja HM2007.

HM2007 je sestavljen iz zatiča RDY, ki je aktiven nizki zatič, kar pomeni, da je IC pripravljen za vadbo.
Glasovni vhod se odda prek mikrofona, priključenega na zatič MICIN IC.
IC je povezan s tipkovnico, ki se uporablja za vnos številk, ki ustreza vsaki besedi. IC deluje v dveh funkcijah - Clear in Train. Ko na tipkovnici pritisnete tipko za vlak, začne IC vadbeni postopek.
Uporabnik pritisne številsko tipko, preden pritisne funkcijsko tipko ‘Train’ in v mikrofon izgovori zahtevano besedo.
IC pošlje visok signal na zatič ME (Memory Enable), ki je povezan z ustreznim ME zatičem SRAM-a. 8-bitni podatkovni signal, ki ustreza pritisnjeni številki, se prek zunanjega vodila shrani v SRAM (zunanji RAM).
Ko je zaznan glasovni vhod, je zatič RDY na logični ravni in IC pride v stanje prepoznavanja, kjer začne postopek prepoznavanja.
Rezultat postopka je podan prek podatkovnega vodila z visoko zatičem DEN (Data Enable).
8-bitne podatke lahko nato posreduje mikrokrmilniku prek serijskega vmesniškega procesorja ali najprej zapahne z zapahom IC 74HC573.
Mikrokrmilnik je povezan z LCD-jem in je programiran tako, da se na zaslonu prikaže ustrezna beseda.

Edini previdnostni ukrep, ki ga je treba sprejeti, je, da ne uporabljamo homonimov (besed s podobnim zvokom) in tudi skrbimo za vznemirjenje v glasu.

Torej, to je vse, kako a osnovni sistem za prepoznavanje govora deluje. Vse nadaljnje prispevke je dobrodošlo dodati.