Objavljeno: 15.8.2023 05:00

Tako lahko ChatGPT preprečite, da bi se učil z vaše spletne strani

Podobno kot lahko z datoteko robots.txt Googlovemu pajku povemo, naj ne obiskuje našega spletišča, je odslej možno tudi za OpenAI-jeve pajke, ki nabirajo podatke za trening modelov umetne inteligence GPT. Za ChatGPT in GPT-4 so se ti  brez dovoljenja po spletu sprehodili že predlani, v prihodnosti pa bomo imeli več besede pri omejitvah.

OpenAI je uradno predstavil svojega pajka, ki se imenuje GPTBot. Ta razume tudi datoteko robots.txt, zato ga lahko z njo odvrnemo od spletne strani. OpenAI obljublja, da bodo ukaze spoštovali in da vsebine v takem primeru ne bodo vključili med podatke za trening umetne inteligence.

Poleg tega OpenAI zagotavlja še, da med podatke za trening ne bodo uvrščali plačljivih vsebin (za plačljivimi zidovi), strani z osebnimi informacijami in strani, ki kršijo njihove smernice za vsebino. Na tak način želijo preprečiti, da bi se ChatGPT naučil stvari, ki jih ne sme znati, da bi razkrival osebne podatke, da bi delil avtorsko zaščitene vsebine ali da bi preprosto postal nesramen.

Tudi nastavitve v robots.txt niso nobeno zagotovilo, da stran ne bo nekoč pristala v kakšni bazi. Z interneta se dandanes intenzivno pobirajo vsebine (scraping), ki se potem znajdejo kdo ve kje.  A za začetek bo pomagalo, če v robots.txt dodamo User-agent: GPTBot in Disallow: /. Druga možnost je blokada IP-jev, s katerih bo pajek brskal, saj je OpenAI razkril tudi te.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji