Objavljeno: 26.11.2024 | Avtor: Matej Huš | Monitor December 2024

S telefonom na koncert

Profesionalni posnetki s koncertov oziroma njihovih prenosov se lahko znajdejo tudi na albumih, medtem ko so videoposnetki obiskovalcev s telefoni zgolj potrata časa. Posnetek je tako poln hrupa, da je kasnejše poslušanje naporno za ušesa in okolico. A dandanes so tudi ti amaterski posnetki bistveno boljši kot pred desetletji. Ne zaradi amaterjev, temveč proizvajalcev pametnih telefonov. To je tudi razlog, da lahko po telefonu govorite v hrupni množici.

V pisarni imam računalnik priključen na UPS, ki začne ob izpadu napajanja prav nadležno in nezgrešljivo piskati. Nedavno je zaradi okvare na napajalniku sosednjega računalnika, ki je povezan na isto napajalno linijo, izpadla celotna linija. UPS je začel presunljivo piskati, medtem ko sem bil več kilometrov stran.

Sodelavka iz pisarne mi je poskušala zvok prenesti prek telefona, a ji ni uspelo. Čeprav je bilo piskanje izjemno glasno, ga med telefonskim klicem sploh ni bilo slišati. Četudi je telefon približala viru, je samsung zvok mirno odfiltriral. Povsem enako se je zgodilo, če sva namesto klica po glasovnem omrežju uporabila klic prek Whatsappa. Po drugi strani pa je snemanje zvoka v aplikaciji za diktafon in pošiljanje posnetka prek Messengerja normalno delovalo. Piskanje je bilo glasno in jasno.

Usmerjeno oddajanje

Pri akustičnem zumu želimo zvok zaznavati usmerjeno, a na podoben način lahko z več neusmerjenimi oddajniki tudi oddajamo usmerjeno. V ta namen se uporablja fazni antenski niz (phased-array antenna). Antene, ki so v tem nizu geometrijsko razmeščene, oddajo isti signal in vsaka vedno v isto smer. A pri tem lahko smer vendarle spreminjamo, če oddajajo z ustreznim faznim zamikom. S tem dosežemo interferenco signalov, ki je v želeni smeri konstruktivna, v ostalih smereh pa destruktivna. Geometrijske razporeditve običajno ne moremo spreminjati, lahko pa fazni zamik in s tem smer oddajanja.

Uporaba tovrstnih antenskih nizov sega v drugo svetovno vojno in k radarjem, danes pa se uporabljajo za najrazličnejše namene, vse od slikanja v medicini do glasbenih festivalov. Na enak način lahko uporabimo tudi mikrofone, torej detektorje, kar sta v 70. letih prva pokazala John Billingsley in Roger Kinns.

Drugi povod za nastanek tega članka so videoposnetki s koncertov, ki jih naredimo s pametnimi telefoni. Čeprav so množice glasne, obiskovalci tako rekoč kričijo, so posnetki dandanes jasni in z zelo malo okoliškega hrupa. Telefoni zajamejo pretežno zvok izvajalcev iz zvočnikov, medtem ko motnje iz okolice precej uspešno odfiltrirajo. Posnetki izpred desetletja so precej slabši. Kako so se torej telefoni naučili ločiti zrnje od plev, ko gre za zvok? In kako sploh prepoznajo pleve?

Občutljivost človeškega ušesa na različne frekvence ni enaka.

Kaj je zvok?

Kar zaznavamo kot zvok, je pravzaprav nihanje delcev v mediju. Ko ti urejeno nihajo v istih smereh, nastane valovanje. To potuje skozi pline in kapljevine kot longitudinalno valovanje: motnja se širi v isti smeri, kot nihajo posamezni delci. Posamezni delci nihajo s frekvenco in z amplitudo, ki sta pomembni značilnosti zvoka. Ta potuje s hitrostjo valovanja v snovi, ki je v zraku približno 340 metrov na sekundo, a je odvisna od temperature in vlažnosti.

Frekvenco prepoznamo in slišimo, saj so toni višji in nižji, amplitudo pa občutimo kot jakost zvoka oziroma glasnost. Glasnost je odvisna od zvočnega tlaka. To je lokalna sprememba tlaka v zraku, ki nastane zaradi zvočnega valovanja. Medtem ko je normalni zračni tlak 101.325 paskalov, so spremembe tega tlaka zaradi zvoka izjemno majhne. Prag slišnosti je 20 mikropaskalov (pri 1.000 Hz), torej več kot milijardokrat manj, prag bolečine pa okrog 20 paskalov, torej desettisočkrat manj. Energijski tok, ki ga prenaša valovanje, pa je odvisen od kvadrata zvočnega tlaka.

Fourierova transformacija omogoča prehod iz časovne v frekvenčno domeno.

Razpon slišnosti sega od 20 mikropaskalov do 20 paskalov, torej obsega približno šest velikostnih razredov (faktor milijon). Hkrati človeško zaznavanje zvoka ni linearno, zato bomo razliko med 0,010 in 0,011 paskala močno občutili, med 1,000 in 1,001 pa skoraj ne. Za merjenje jakosti zvoka zato uporabljamo raje logaritemsko merilo. Zvočni tlak 0,02 milipaskala ustreza glasnosti 0 decibelov (dB), desetkratno povišanje pa predstavlja povečanje za 20 dB. Zdaj tudi veste, zakaj je 120 dB zgornja meja, ki je smiselna za človeške potrebe in kjer govorimo o okvarah sluha in bolečini. Od slišnosti do bolečine je šest podeseterjenj, ki vsako prinesejo 20 dB.

Ob tem ne smemo pozabiti, da je občutljivost človeškega ušesa močno odvisna od frekvence zvoka. Med 1.000 in 5.000 Hz slišimo najbolje, lahko tudi malce pod 0 dB, medtem ko na skrajnih robovih slišnega območja (20–20.000 Hz) precej slabše. Pri frekvenci 100 Hz potrebujemo skoraj 30 dB, da jo sploh slišimo! Običajen pogovor nanese med 40 in 60 dB, v spokojni sobi na zimski večer daleč od civilizacije pa izmerimo okrog 20 dB.

Ker živimo v tridimenzionalnem svetu, se valovanja in druge motnje širijo v koncentričnih sferah, katerih površina je sorazmerna s kvadratom razdalje od izhodišča. To v praksi pomeni, da bo 10-krat dlje zvočni tlak 100-krat nižji, kar ustreza znižanju za 40 dB. V idealnih razmerah bomo torej pogovor med človekoma slišali tudi z razdalje 10 metrov, z razdalje 100 metrov pa le, če bosta naokoli smrtna tišina in brezvetrje.

Zapis in shranjevanje

Zvok z ušesi slišimo zelo podobno, kot snemajo mikrofoni. Bobnič zaznava spremembe tlaka, ki povzročajo njegovo nihanje. To se prenese na kladivce, nakovalce in stremence. Ta potem nihanje prenesejo na tekočino v notranje uho, kjer polž poskrbi za prenos informacije v električne impulze, ki jih živci prenesejo v možgane, kjer nastane zaznava zvoka. Mikrofoni imajo opno, ki jo spremembe lokalnega tlaka zanihajo na enak način kakor bobnič, nato pa se to nihanje s tuljavo, kondenzatorjem, z upornikom ali kako drugače spremeni v električni signal. Krivulja električne napetosti mora čim bolje ustrezati krivulji zvočnega tlaka. Mikrofon mora torej čim manj popačiti signal.

Odstranjevanje hrupa je s specializiranimi programi mogoče že vrsto let.

Surovi zapis zvoka, kot sta na primer WAV ali AIFF, je reprodukcija zvočnega signala. Vsebuje informacijo o nihanju opne kot funkcijo časa, kar lahko enostavno reproduciramo kot zvok. Takšne datoteke so velike in nepraktične za uporabo, predvsem pa pogled na takšen zapis ne omogoča enostavne identifikacije frekvenc. Pravimo, da smo v časovni domeni.

Zahteve za akustični zum

­ Vsaj trije mikrofoni v primerni postavitvi.

­ Usmerjeni zajem zvoka z analizo signalov posameznih mikrofonov.

­ Obdelava digitalnega signala z algoritmi za odstranitev okoliškega hrupa in ojačitvijo zvoka želenega vira.

­ Časovna sinhronizacija z videoposnetkom zaradi trajanja obdelave in morebitnega spreminjanja optičnega zuma oziroma usmeritve kamere.

Matematična čarovnija, ki nas prestavi iz časovne domene v frekvenčno, se imenuje Fourierova transformacija, njen rezultat pa je spekter. S to matematično operacijo lahko iz zapisa izluščimo pojavnost frekvenc in amplitudo, ki ustreza posamezni frekvenci. Tako lahko razklopimo zapis v sestavne dele, ki ustrezajo tonom. Ton namreč predstavlja enostavna sinusna frekvenca, torej ima eno samo frekvenco (v spektru eno samo črto). Glasbila se navadno oglašajo z zveni, kjer ima ton pridruženih še več višjih harmoničnih frekvenc, iz česar nastane zven. Njegov spekter je črtast, saj je črt več.

Fourierova transformacija je ključna operacija pri vsak obdelavi zvoka. Zapis v formatu MP3 izkorišča dejstvo, da nekaterih frekvenc ne slišimo ali pa jih slišimo slabše, zato jih mora v posnetku najprej identificirati. Pri zapisu v MP3 zato zvočni signal najprej vzorčimo z dovolj visoko frekvenco, nato pa s Fourierovo transformacijo pretvorimo v frekvenčno domeno. Ta spekter potem obdela psihoakustični model, ki prepozna ključne sestavine ter oceni, česa zaradi fiziologije ali prisotnosti glasnejših sestavin ne bomo slišali, ter to zavrže.

Akustični zum

Iz sveta fotoaparatov poznamo možnost optičnega povečevanja slike (optical zoom), kar je mogoče zaradi spremenljive goriščne razdalje, s čimer so lahko izostreni in povečani deli slike, na katerih so predmeti različno oddaljeni. Tako lahko posnamemo bolj oddaljene predmete, pri čemer pa slika geometrično ni enaka, kot če bi se predmetu fizično približali. Pri povečevanju slike ostajajo proporci in koti enaki, pri približevanju pa se perspektiva spreminja. (Digitalno povečevanje slike pa zgolj odreže okolico in digitalno poveča želeni del z interpolacijo pik, zato ne moremo povečati ločljivosti.)

Že davnega leta 2013 je LG izdal telefon G2, ki je imel zanimivo novost, o kateri se ni veliko govorilo: akustični zum (audio zoom). HTC ga je v H11 uvedel štiri leta pozneje, Apple pa je z iPhonom 11 Pro sledil še tri leta zatem. Istega leta sta ga dobila tudi Huawei P40 in OnePlus 8 Pro, Google ga je imel že v Pixlu 5. O čem govorimo?

Zvočni valovi v nasprotju z vidno svetlobo niso usmerjeni, temveč se širijo v vse smeri. Mikrofon zato v vsakem trenutku zaznava vse zvoke, ki pridejo do njega, torej vsoto vseh zvočnih valov. Enako velja tudi za ušesa, a lahko kljub temu razločimo, kje v prostoru je vir posameznega zvoka, ker imamo dve ušesi. Ti zaradi svoje lokacije na različnih straneh zaznavata nekoliko drugačne zvoke, od koder možgani izračunajo izvir v prostoru.

Sorodna metoda je oblikovanje snopa (beamforming), ki se uporablja, kadar imamo več detektorjev razporejenih v ustreznem geometričnem vzorcu. Z analizo njihovih signalov lahko razločimo, od kod v prostoru izvirajo posamezni signali. Znana algoritma sta DSB (delay-and-sum beam-former) in MVDR (minimum variance distortionless response), ki se uporabljata na primer v telekonferenčnih sistemih. Telefoni podobno tehnologijo imenujejo audio zoom, v različnih operacijskih sistemih pa se pojavlja z različnimi imeni. V nastavitvah kamere za videoposnetke v iOS bomo našli možnosti Record Stereo Sound in Phone Noise Cancellation.

Mnogotera uporaba

Odkar imajo telefoni več mikrofonov – Pixel 9 ima tri, iphone celo do štiri – ter obvladamo Fourierovo transformacijo (desetletja) in druge algoritme, so možnosti mnogotere. Delovanje akustičnega zuma bomo najbolje opazili med snemanjem videoposnetkov. Telefon bo poskušal glasneje posneti zvoke, ki izvirajo iz smeri, kamor smo usmerili kamero. Če bomo približali sliko, bo poskušal ojačiti tudi zvok, ki izvira iz opazovanega kadra. V vseh primerih pa poskuša telefon zadušiti okoliški hrup.

Odstranjevanje hrupa je s specializiranimi programi mogoče že vrsto let.

To je mogoče, ker se okoliški hrup razlikuje od usmerjenih virov zvoka. Hrup je približno konstanten v celotnem prostoru, ker so njegovi viri bodisi zelo razpršeni bodisi zelo oddaljeni, pogosto pa oboje. Hrup ima tudi zelo frekvenčni spekter brez izrazitih vrhov, ki je v skrajnosti beli šum. Nobena frekvenca ne izstopa posebej. Zvok s takšnimi značilnostmi je mogoče prepoznati in ga bolj ali manj uspešno utišati.

Telefoni tovrstnih orodij ne uporabljajo le pri snemanju videoposnetkov, temveč tudi pri pogovorih. Kadar ne telefoniramo prostoročno, je zelo jasno, da bo vir, torej naše govorjenje, povsem blizu telefona. Tedaj je cilj odfiltrirati vse vire, ki so bolj oddaljeni, ne glede na njihovo obliko. Najsi gre za beli šum ali predirljivo piskanje z začetka tega besedila, oboje je moteče. Čim boljši je telefon, tem učinkoviteje bo odstranil te motnje.

V ozadju se sicer dogajajo kompleksne matematične operacije, v novejših primerih pa proizvajalci uporabljajo visokoleteče izraze, kot je umetna inteligenca. A osnovna ideja je zelo enostavna: potrebujemo več mikrofonov in matematiko, ki zvok pretvori v frekvenčno domeno in ugotovi, kjer v prostoru so njegovi viri.

Kako deluje

Človeški možgani znajo početi isto kljub omejeni »strojni opremi«, ki jo imajo na voljo za zaznavanje zvoka. Fenomen ima celo uradno ime (cocktail party effect). Na bučni zabavi se kljub zelo glasni okolici običajno lahko pogovarjamo s sogovornikom, pri čemer gre za kompleksen proces, ki vsebuje tako zvočne kot neakustične komponente (recimo opazovanje ustnic). To se nam zdi povsem nezahtevno in naravno, ker je evolucija možgane izmojstrila v tem kompleksnem in računsko zahtevnem problemu.

V telefonu se zgodba začne z več mikrofoni, ki snemajo v vse smeri (omni-directional). Čim več jih je in čim dlje narazen so, tem bolje bo funkcija delovala. Čeprav posamezni mikrofoni niso usmerjeni, je končni izdelek usmerjen, ker signale z mikrofonov seštevajo in odštevajo z različnimi utežmi (gains). Valovanja želenega zvoka se morajo konstruktivno sešteti, neželeni hrup pa destruktivno odšteti. Krivulja usmerjenosti za snemanje iz smeri, kamor je usmerjena kamera, se imenuje hiperkardioida. Pri telefoniranju bo seveda drugače.

Razlika med signalom z malo šuma in z veliko.

Telefoni imajo seveda povsem praktične omejitve, ki so tudi pri najdražjih modelih nepremostljive, in ena od njih je velikost. Ker ne morejo uporabljati velikih, studijskih kondenzatorskih mikrofonov, se morajo zadovoljiti z elektretnimi mikrofoni v izvedenki MEMS (mikroelektromehanski sistemi). Ti ustvarjajo pri oblikovanju snopov spektralne in časovne popačitve, ki jih morajo algoritmi proizvajalca čim bolje odpraviti. Podrobnosti algoritmov so skrbno varovana skrivnost, so pa tudi odvisni od vrste mikrofonov in njihove razporeditve na napravi. Običajno so na vrhu in dnu, da so čim bolj razmaknjeni.

Čeprav akustični zum v veliki večini primerov vsaj nekoliko izboljša posnetke, je v nekaterih primerih lahko sorazmerno neuspešen. Problematična so zelo hrupna okolja, kjer hrup bistveno preglasi zvok želenega vira. Še posebej težavno je to pri snemanju na veliko razdaljo, ko je želeni zvok na sprejemniku že tako šibek, da tudi najboljši algoritmi kaj dosti ne morejo storiti.

Slušalke to počnejo drugače

Akustični zum se nanaša na snemanje. Modernejše slušalke pa za boj proti hrupu uporabljajo nekoliko drugačno metodo, ker je problem drugačen. Slušalke morajo v idealnem primeru blokirati ves okoliški hrup, da slišimo samo njihov zvok. Pasivno odpravljanje šumov (PNC) so preprosto vse fizične ovire, s katerimi to dosegajo, torej preprečujejo vdor okoliških zvočnih valov v uho. Velike, zaprte slušalke se temu sorazmerno dobro približajo.

Aktivno odpravljanje šumov (ANC) pa temelji na konceptu interference. Valovanja se seštevajo, in če se pri tem izničijo vrhovi in doline, govorimo o destruktivni interferenci. Slušalke z ANC imajo vgrajen mikrofon, ki zaznava okoliški hrup. Tega nato obdelajo z algoritmom in izračunajo, kakšen nasprotni zvok morajo oddajati, da izniči (destruktivno interferira) s hrupom. Slišali bomo zgolj želene zvoke iz slušalk. Na tak način lahko slušalke oddajajo zvok tiše, kar blagodejno vpliva na obremenjenost sluha in preprečuje dolgoročne poškodbe.

PNC se bolje izkaže pri zvokih, ki se ne ponavljajo in jih je težko odpraviti z ANC. Taki primeri so glasen govor, pasji lajež ali pa zvonjenje telefona. ANC pa se bolje izkaže pri stalnem hrupu, denimo v prometu, ob zvoku motorja, v bučni predavalnici itd.

Telefoni uporabljajo tehnologijo MVDR s ciljem povečati SINR (signal-to-interference-plus-noise ratio), ki predstavlja razmerje med jakostjo signala in vsemi neželenimi interferencami in šumom. Ker zvok iz istega vira do različno nameščenih mikrofonov v nizu pride z različnimi zamudami, lahko iz teh podatkov konstruiramo vektor (steering vector). Algoritem mora nato določiti vektor uteži za posamezne mikrofone, ki minimizirajo šum in zagotovijo, da signal iz želene smeri ni popačen. To dosežejo z minimizacijo variance in s pogojem nepopačenja (distortionless). Iz tega se izračunajo optimalne uteži, s čimer se pridobi najboljši SINR za posamezno smer (in razdaljo), ko signale z mikrofonov obtežimo s temi utežmi in seštejemo.

Ko odštejemo ozadje, je spekter govora jasnejši.

Ob tem povejmo, da odpravljanje hrupa s posnetkov seveda ni izum zadnjega desetletja in proizvajalcev pametnih telefonov. Ti so ga resda zdaj dodali v svoje izdelke in si pri tem pomagajo tako z matematiko kot s fiziko (več mikrofonov), a orodja za obdelavo zvoka so to znala že davno, le izvedba se razlikuje v odvisnosti od dostopnih podatkov. Če imamo signal posnet le z enim mikrofonom na enem mestu, je seveda MVDR neuporaben. Funkcija Noise Reduction je v Audacityju namenjena točno temu. Posebej lahko posnamemo hrup, potem pa ga bo program odštel od posnetka. Tudi brez ločenega posnetka hrupa je mogoče posnetke do neke mere izboljšati, pri čemer uporabimo znane lastnosti okoliškega hrupa. Na enak način je v poprodukciji mogoče odstraniti posamezne motnje, kot je zvok avtomobilske troblje, če si vzamemo dovolj časa in jih ročno poiščemo. V prihodnosti bo to verjetno znala tudi umetna inteligenca.

Telefoni so čedalje boljši

Akustični zum je zgolj ena izmed funkcij, ki se je skoraj neopazno pritihotapila v pametne telefone. Da si to že zdavnaj postali več kot le telefon, pravi računalnik v žepu, ve vsakdo. Precej redkeje pa se zavedamo, da poleg računalnika z njimi nosimo še cel kup strojne opreme oziroma senzorjev. Pospeškomeri, žiroskopi, več kamer in več mikrofonov imajo svoje namene in ne služijo le napihovanju cene ali postavljanju pred konkurenco. Najnovejši in najzmogljivejši telefoni stanejo več kot tisočak, morda celo dva, ker vse te funkcije potrebujejo strojno opremo, ki ima svojo ceno. To vidimo vsakokrat, ko na zelo glasnem koncertu posnamemo izvajalca – in to večkratno. Zvok bo boljši kot pred desetletjem, slika ostrejša, osvetlitev boljša, videoposnetek pa manj tresoč. Nič od tega ni naključje.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji