„December végén a The New York Times beperelte az OpenAI-t és az avval szorosan együttműködő és abba befektető partnerét, a Microsoftot, mert szerintük megsértették a szerzői jogokat azzal, hogy generatív MI-modelleket képeztek ki a Times tartalmain. Az OpenAI most nyilvános választ adott, amelyben – nem meglepő módon – azt állítja, hogy a Times keresete alaptalan.
Az OpenAI hivatalos blogján közzétett levélben a vállalat megismétli álláspontját, miszerint az MI-modellek képzése a világháló nyilvánosan elérhető adatainak felhasználásával – beleértve a Times cikkeihez hasonló cikkeket is – tisztességes felhasználásnak minősül. Más szóval, az OpenAI úgy véli, hogy a GPT-4-hez és a DALL-E 3-hoz hasonló generatív mesterséges intelligencia rendszerek létrehozásakor – amelyek több milliárd műalkotás, e-könyv, esszé és egyéb példából „tanulnak”, hogy emberhez hasonló szövegeket és képeket generáljanak – nem köteles licencelni vagy más módon fizetni a példákért, még akkor sem, ha pénzt keres a modellekből. „Ezt az elvet igazságosnak tartjuk az alkotókkal szemben, szükségesnek az innovátorok számára, és kritikus fontosságúnak az Egyesült Államok versenyképessége szempontjából” – írja az OpenAI.
Az OpenAI levelében foglalkozik a regurgitációval is, azzal a jelenséggel, amikor a generatív MI modellek szó szerint (vagy majdnem szó szerint) kiköpik a képzési adatokat, ha bizonyos módon kérik őket – például olyan fotót generálnak, amely megegyezik egy híres fotós által készített fotóval. Az OpenAI arra hivatkozik, hogy a regurgitáció kevésbé valószínű, hogy egyetlen forrásból (pl. The New York Times) származó képzési adatokkal történik, és a felhasználókra hárítja a felelősséget, hogy „felelősségteljesen járjanak el”, és ne ösztönözzék szándékosan a modelleket a regurgitációra.
„Érdekes módon a The New York Times által a perben hivatkozott regurgitációk úgy tűnik, hogy olyan több éves cikkekből származnak, amelyek harmadik fél weboldalán is megjelentek” – írja az OpenAI. „Úgy tűnik, hogy szándékosan manipulálták a parancssort, amely gyakran hosszú cikkrészleteket is tartalmazott, hogy rávegyék a modellünket a regurgitálásra. Még ilyen felszólítások használata esetén sem viselkednek a modelljeink jellemzően úgy, ahogyan a The New York Times sugallja, ami arra utal, hogy vagy utasították a modellt a regurgitálásra, vagy sok kísérletből válogatták ki a példáikat” – olvasható a cikkben.
Az OpenAI ugyanezt az álláspontot képviselte a brit Lordok Háza kommunikációs és digitális bizottsága által a mesterséges intelligenciamodellek kockázatairól és lehetőségeiről folytatott vizsgálatra adott válaszában. A beadványban arra figyelmeztetnek, hogy modelljei nem fognak működni anélkül, hogy szerzői jogvédett tartalmakon képeznék ki őket. „Mivel a szerzői jog ma gyakorlatilag mindenféle emberi kifejezésre kiterjed – beleértve a blogbejegyzéseket, fényképeket, fórumbejegyzéseket, szoftverkódfoszlányokat és kormányzati dokumentumokat -, lehetetlen lenne a mai vezető MI-modelleket szerzői jogvédelem alatt álló anyagok felhasználása nélkül betanítani” – közölte a cég. „A képzési adatoknak a több mint egy évszázaddal ezelőtt készült, ma már közkincs könyvekre és rajzokra való korlátozása érdekes kísérletet eredményezhet, de nem biztosítana a mai polgárok igényeinek megfelelő mesterséges intelligencia-rendszereket.”
Az OpenAI válaszával szemben az IEEE Spectrumban most megjelent cikkben Gary Marcus, egy neves MI-kritikus és Reid Southen, egy vizuális effekteket készítő művész bemutatta, hogy az MI-rendszerek – köztük a DALL-E 3 is – akkor is felöklendeznek tréning-adatokat, ha nem kifejezetten erre kérik őket – így az OpenAI ezzel ellentétes állításai kevéssé hitelesek. Marcus és Southen szerint szinte biztos, hogy a Midjourney és az OpenAI szerzői jogvédett anyagokon képezte ki az MI képgeneráló modelljeit. „Nem gondoljuk, hogy a nagy generatív mesterséges intelligenciával foglalkozó vállalatoknak azt kellene feltételezniük, hogy a szerzői jog és a védjegyjogszabályok elkerülhetetlenül átíródnak majd az igényeik szerint.” Marcus és Southen egyébként a The New York Times perére is hivatkozik írásában, megjegyezve, hogy a Times képes volt „plagizáló” válaszokat kicsikarni az OpenAI modelljeiből, egyszerűen azzal, hogy a Times cikkek első néhány szavát adta meg.
A felhasználók nem biztos, hogy tudják, hogy használatukkal megsértik-e a szerzői jogokat. „Ezek a rendszerek nem tájékoztatják a felhasználókat, amikor ezt teszik. Nem adnak semmilyen információt az általuk előállított képek eredetéről. A felhasználók nem tudhatják, amikor egy képet előállítanak, hogy az jogsértő-e”. Egyik cég sem hozta teljes mértékben nyilvánosságra a mesterséges intelligenciamodelljeik elkészítéséhez használt képzési adatokat. Southen megjegyezte, hogy a Midjourney a jogsértő tartalmakból hasznot húz az előfizetési bevételeken keresztül. „A Midjourney felhasználóinak nem kell eladniuk a képeket ahhoz, hogy potenciálisan szerzői jogsértés történjen, a vállalat már most is profitál a képek létrehozásából.” Az OpenAI szintén előfizetési díjat számít fel.
Marcus, az IEEE-jelentés társszerzője a közösségi médiában tegnap közzétett, lent olvasható bejegyzésében durván kifigurázza az OpenAI álláspontját: „Nem leszünk mesésen gazdagok, ha nem engedik, hogy lopjunk, ezért kérem, ne tegyék a lopást bűncselekménnyé! Ne kényszerítsenek minket díjak fizetésére sem! Persze lehet, hogy a Netflix évente milliárdokat fizet licencdíjakért, de nekünk nem kellene! Több pénzt nekünk, minél többet!””
Forrás:
Az OpenAI szerint az Egyesült Államok érdeke, hogy lopjanak; 2024. január 9.