Google DeepMind omogoča boljšo sintezo govora
Google je našel še eno zanimivo in nadvse koristno uporabo svoje platforme za umetno inteligenco DeepMind. S pomočjo tehnologij nevronskih mrež in strojnega učenja so razvili novo tehnološko ogrodje imenovano WaveNet, s katerim uspejo pričarati računalniško generirano sintezo govora, ki zveni bistveno bolj naravno, kot dosedanje tehnologije na tem področju. Google trdi, da je po njihovih ocenah WaveNet 50% bližje človeškemu govoru, kot karkoli drugega doslej.
Na področju sinteze govora so proizvajalci, med katerimi je Google nadvse aktiven, uporabljali različne metode. Google je doslej uporabljal zlasti algoritem združevanja različnih glasov, ki tvorijo posamezen fonem, vendar tak pristop ustvarja preveč robotski govor, ki ne vsebuje čustev in variacij pri izgovorjavi.
Izboljšava metode združevanja je parametrična metoda, kjer so podatki o pravilni izgovorjavi shranjeni za vsako kombinacijo besed izrečenih v nekem kontekstu. S tem so kvaliteto govora sicer izboljšali, a so bili uspešni predvsem pri ne-zlogovnih jezikih, kot je kitajščina, precej manj pa pri zlogovnih, kot je angleščina.
Nov pristop z imenom WaveNet deluje na precej drugačen način, saj modificira posamezen vzorec v nizu zvočnih vzorcev glede na parametre izračunane v nevronski mreži in pridobljene z vzorčenjem ter strojnim učenjem. Če imamo denimo sintezo s frekvenco 16.000 Hz, WaveNet prilagodi prav vsakega od 16.000 vzorcev. Programerji so vgradili v izgovorjavo celo take elemente, kot so premik ust pri izgovorjavi in dihanje med govorom, kar najbolje oponaša človeški govor.
Da bi pokazali, kako dober je nov algoritem, so pri Googlu izvedli test z naključno izbranimi posamezniki, ki so ocenjevali 100 izgovorjenih stavkov, brez da bi vedeli, kateri sistem ali človek jih izgovarja. Rezultati pričajo, da WaveNet sicer še ni dosegel prisotnosti človeškega govora, je pa močno zmanjšali razkorak.
Novo tehnologijo bo Google najbrž postopoma uporabil v svojih izdelkih in spletnih storitvah, denimo pametnih pomočnicah, pametnih telefonih, še zlasti pa računalniških napravah, kij nadenemo in je sinteza govora primarni način interakcije z uporabnikom. Trenutno je glavna ovira še razmeroma visoka procesna moč, ko je potrebna za uporabo algoritma WaveNet, kar pa naj bi razrešili z novimi generacijami računsko intenzivnih računalnikov (HPC), ki jim cena v zadnjem času močno pada.