Prepis zvočnih zapisov s pomočjo umetne inteligence
Kdorkoli je moral kdaj narediti prepis zvočnega zapisa, najbrž ve, da je to zamudno in monotono delo. Toda razvoj tehnologij na temelju razpoznave govora in umetne inteligence obljublja, da se bo to najbrž že kmalu izrazito spremenilo. Kitajski velikan Baidu je tako razkril prototip novega orodja, ki omogoča zmanjšati čas prepisov za kar okoli 40%.
Spletna storitev Swiftscribe temelji na lastniškem razpoznavalniku govora Deep Speech 2, ki je zgrajen na nevronski mreži z zmožnostjo strojnega učenja. Drugi del inovativne storitve pa je popolna sinhronizacija med zvočnim zapisom in razpoznanim besedilom. Ko se prepisovalec premika po časovni osi zvočnega zapisa, se sproti premika tudi označba pozicije v besedilu.
Na ta način je nato zelo preprosto opraviti zamenjavo besede, če jo je algoritem napačno razpoznal. Obenem pa se razpoznavalnik na ta način sproti uči novih kombinacij besed in različic izgovorjave s čimer gradi zanesljivost celotnega sistema. Orodje je za zdaj še v zaprti preizkusni fazi, končna različica pa bo namenjena vsem, ki pogosto ali redno prepisujejo zvočne zapise v besedila. Sistem za zdaj deluje v angleščini in kitajščini, v načrtu pa je podpora tudi za druge jezike.