Revolucija za podkaste
Google v javno rabo občasno spusti še nedokončana eksperimentalna orodja, v zadnjem času še posebej s področja umetne inteligence. Nedavno so tako nadgradili že lani predstavljeno konceptualno orodje NotebookLM za »razgovore« na temo uporabnikovih dokumentov, ki zna odslej tudi generirati zvočne oddaje (podkaste), kjer se navidezna voditelja pogovarjata o izbrani vsebini. Rezultati so navdušujoči in osupljivo dobri.
NotebookLM najprej naredi povzetek gradiva in nato samodejno generira zvočni podkast.
Tehnologija generativne umetne inteligence je letos dobesedno obnorela svetovno javnost, in sicer do te mere, ko skoraj ni več novice ali pogovora, ki tako ali drugače ne bi vključeval teme umetne inteligence. Kar je pravzaprav presenetljivo, saj smo šele na začetku razvoja tovrstnih tehnologij. Doslej smo se dotaknili samo področja razumevanja in generiranja besedil, delno fotografij, uporaba generiranih slikovnih in zvočnih posnetkov pa je šele v prihajanju, daleč od res množične rabe. Toda že začetni koraki nakazujejo, da se obeta radikalna transformacija na področju generiranja, analize in tolmačenja večpredstavnostnih vsebin.
Lep primer tovrstne evolucije je eksperimentalno orodje NotebookLM, ki ga je Google predstavil že leta 2023, pred tem pa je bil znan kot Project Tailwind. Orodje je sprva ponujalo analizo dokumentov, ki jih posreduje uporabnik, pripravo povzetkov, razlage in možnost odgovarjanja na vprašanja. Z današnjega zornega kota nič pretresljivega, saj to znajo danes večinoma že vsi pomočniki z umetno inteligenco, med drugim je to tudi osnova tehnologije RAG (Retrival Augmented Generation), ki omogoča kramljanje z našimi lastnimi dokumenti.
Podkast o članku, ki ga pravkar berete
Za test smo NotebookLM podtaknili kar besedilo, ki ga pravkar berete. Rezultat je lahkoten pogovor dveh Američanov o – Googlovem izdelku NotebookLM.
Toda septembra so Googlovi inženirji še vedno zgolj eksperimentalnemu orodju dodali funkcijo Audio Overview, ki zna generirati zvočne pogovore na izbrano temo. Tudi to samo po sebi ne bi bilo nič posebnega, saj mnogi generativni programi znajo ustvarjati govor in celo glasbo.
Razlika je v tem, kako dobro NotebookLM opravi svoje delo. Končni rezultat je zvočni posnetek, podkast v dolžini 6–10 minut (te hip dolžine ne moremo določati oziroma omejevati), ki predstavlja razgovor (v angleščini) med dvema umetno ustvarjenima osebama na izbrano temo. Kakovost posnetkov je neverjetna in gre do te mere, da slušatelj skorajda ne more določiti, ali gre umetno ustvarjen govor ali za dejanski posnetek pogovora dveh oseb.
Pri tem ni pohvale vredna le sinteza govora (praktično brez napak), temveč predvsem kontekstno povezovanje vsebine, ki smo jo podali v osnovnem dokumentu. Umetna voditelja oddaje še tako zapleteno temo ali dolgo besedilo pretvorita v pogovor, ki je razumljiv širšemu občinstvu, ne samo poznavalcem teme. Programu smo ob enem izmed preizkusov podtaknili celo znanstveni dokument s področja matematike, pa ga je NotebookLM spretno pretvoril v poljudno razumljiv pogovor.
Še več, voditelja oddaje se v razlagi pogosto lahkotno šalita in primerjata koncepte iz teme s primeri iz vsakdanjega življenja, kar zelo lepo vpliva na »poslušljivost« celotnega podkasta. Res pa je, da je ton razgovora povsem ameriški, celo način predstavitve je tipično ameriški, tudi če se voditelja pogovarjata o povsem slovenski tematiki, na primer našem davčnem in carinskem sistemu ali poročilu s slovenske konference.
Ne smemo pozabiti, da gre za eksperimentalni program, Google pa je v predogled vgradil cel niz omejitev. Govorca v podkastu sta denimo vedno dva, moški in ženski glas. NotebookLM, ki temelji na velikem jezikovnem modelu Gemini 1.5 in nizu dodatnih za zdaj neznanih Googlovih pomožnih orodij, razpozna gradivo v različnih jezikih, povsem dobro tudi v slovenščini, a je podkast vselej narejen le v angleškem jeziku. Dolžina pogovora ni fiksna, določi jo sam program, najbrž na podlagi dolžine in kakovosti osnovnega besedila, dolžine uporabniki za zdaj ne moremo spreminjati.
Uporaba programa NotebookLM je silno preprosta. Prijavimo se na spletno stran (notebooklm.google.com) in izberemo preizkus, najbolje z lastnim Google računom. Tu lahko poslušamo pretekle generirane podkaste (plus nekaj Googlovih primerov) ali pa ustvarimo novega. Priprava podkasta ne bi mogla biti preprostejša. Program kot vir sprejema dokumente v formatih PDF, TXT, zvočne posnetke MP3, dokumente Google Docs in Slides, izbrane spletne strani, Youtube posnetke ali pa v začetno okno preprosto skopiramo besedilo iz odložišča.
V naslednjem koraku NotebookLM napiše kratek povzetek analiziranega besedila in celo omogoča, da se pred pripravo podkasta nekoliko pogovorimo s pomočnikom, dodamo celo lastna vprašanja. Nakar lahko izberemo generiranje same oddaje, kot že rečeno, brez možnosti izbire dodatnih parametrov, kot je dolžina. Sama priprava podkasta traja vsaj 3–5 minut, lahko pa tudi precej več, če smo generativnemu modelu kot osnovo podali več dokumentov ali če so ti kompleksnejši.
Na koncu lahko poslušamo posnetek, ga damo v javno rabo (ne priporočamo) ali pa shranimo lokalno kot zvočni posnetek v formatu WAV. Preseneča predvsem, kako dobre povzetke zna narediti program in kako na preprost način govorca predstavita temo. Poslušanje je lahkotno, kar bi moralo pravzaprav veljati za vsak podkast.
Vsaka od oddaj je povsem samosvoja z različnim začetkom in koncem, čeprav se vse držijo koncepta uvod, jedro, zaključek ali najava, razgovor, povzetek. Kar je spet šolski primer priprave vseh kakovostnih vsebin. Zanimivo je, da program s svojimi algoritmi sam določi vodilno temo, s čimer večinoma zadene bistvo, razen v primerih, ko mu damo več povsem ločenih tematik. Tu bo odločitev za nosilno temo bolj »ustvarjalna«.
Kot testni primer smo dali programu v obdelavo kar članke iz Monitorja. Presenetilo nas je predvsem to, da je program v pogovoru poudaril prave teme in trditve v osnovnem gradivu, kar pomeni, da zelo dobro razume kontekst.
Podkaste lahko ustavimo na podlagi bogatega nabora virov, med drugim celo drugih zvočnih posnetkov.
NotebookLM brez težav povzame članke, brošure, predstavitve in vselej naredi zanimiv povzetek ter pogovor. Toda kljub eksperimentalni naravi programa smo želeli videti, kje so njegove meje. Kot gradivo smo programu ponudili zvočni posnetek predavanja z ene od slovenskih konferenc. Pretvorili smo ga v zapis MP3, rezultat je bil zapis zelo slabe kakovosti z veliko odmevov zaradi snemanja s telefonom v zelo velikem prostoru. Toda to programa ni niti najmanj zmedlo. Prepis govora (iz slovenščine!) je bil skoraj popoln, podkast o predavanju pa je bil povsem korekten in s poudarki na pravih stvareh.
Ne bomo skrivali, NotebookLM nas je navdušil. Tudi tiste med nami, ki niso strastni poslušalci podkastov. Pogovori so bili tako dobri, da si je zgoraj podpisani zaželel, da bi bilo mogoče dobiti prepis podkasta v besedilo, za nadaljnjo rabo.
Ob navdušenju pa nas tudi skrbi - prej ko slej bo nekdo tovrstna orodja uporabil za širjenje lažnih informacij, lažne pogovore (dodajmo le še oponašanje glasu znane osebe), skratka za zlorabe takega ali drugačnega tipa. Prav tako nas skrbi, da bi lahko tovrstna orodja vsaj v nekaterih primerih ogrozila delovna mesta in delo novinarjev, ki za svoje oddaje opravijo obilico priprav, česar poslušalci ne vidijo in ne vedo. NotebookLM sicer (še) ne zna nekaterih stvari, kot sta zastavljanje in odgovarjanje na provokativna vprašanja ali pa odgovarjanje na naključna vprašanja poslušalcev, vendar ne dvomimo, da tudi to še sledi.
NotebookLM
Generativni model za izdelavo podkastov
Kdo: Google
Za: Izredno prepričljiv končni izdelek/pogovor, ki odlično razume kontekst v začetku podanega besedila.
Proti: Nima možnost natančnega nastavljanja, saj gre še za eksperimentalni izdelek.