Ijesztően képesek viselkedni a nagy nyelvi modellek: gátlástalanul hazudnak és önkényesen cselekednek, ha szükségesnek látják

„A mesterséges intelligencia biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz.

A mesterséges intelligenciával kapcsolatban régóta napirenden van a kérdés, hogy az úgynevezett általános mesterséges intelligencia (AGI) kifejlesztése mit eredményez majd. Ez az a mesterséges intelligencia, ami már az emberi intelligenciával vetekszik, vagy akár felül is tudja múlni azt. A Meta egyik vezetője, Yann LeCun korábban arról beszélt, hogy 2025-re egészen biztosan nem készül el az általános mesterséges intelligencia, pedig azt nem lehet mondani a vállalatra, hogy ne fordítana temérdek erőforrást és pénzt erre.

Az AGI miatt nem véletlenül aggódnak a szakemberek: attól tartanak, hogy elkezdi replikálni magát, vagy ellenőrizhetetlenül fejleszti majd magát, és egyre okosabbá válik. Nem túl szívderítő gondolat, de hol van az még, gondolhatnánk. A válasz sajnos az, hogy valószínűleg közel: nemrég kiderült, az OpenAI egyik nagy nyelvi modellje pontosan ilyen jeleket mutat. [Ez egy rossz megfogalmazás! Nem az AGI van közel, hanem a nem-AGI rendszerek is csalnak. Szerk.]
A BGR beszámolója szerint többek között a ChatGPT o1 tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia annak érdekében, hogy elkerülje a törlést, átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.

A tesztek eredményeire most azért derült fény, mert az OpenAI együttműködik az Apollo Research nevű szervezettel, amely a mesterséges intelligencia biztonságos fejlesztésére és használatára fókuszál. A cél, hogy megmutassa, az o1 használata biztonságos.

A beszámoló szerint a tesztek azt mutatták, hogy a ChatGPT o1 és a GPT-4o is megpróbálja megtéveszteni az embereket, ami azt jelzi, hogy a mesterséges intelligencia trükközése minden modellnél probléma. Az o1 megtévesztési kísérletei egyébként a Meta, az Anthropic és a Google által fejlesztett modellek próbálkozásait is felülmúlták.

Az OpenAI az eredményekkel kapcsolatban elismerte, hogy a mesterséges intelligencia jobb érvelési képességei kockázatot is hordoznak magukban.

Bár a mesterséges intelligencia (egyelőre) nem próbál világuralomra törni, a kutatók tapasztalatai szerint képes az embereket is kicselezni, vagyis megpróbálja elérni a saját céljait, még akkor is, ha ez ellenkezik a felhasználó kívánságaival. Talán nem kell hangsúlyozni, mennyire fontos, hogy ezeket a jeleket észre vegyék a mérnökök.

A kutatók azt találták, hogy az o1 az esetek 19 százalékában a saját akaratát próbálja meg érvényesíteni, amikor a ChatGPT és a felhasználó céljai eltérnek egymástól. Még aggasztóbb, hogy a mesterséges intelligencia megpróbálta elrejteni ezt a célját, sőt, hazudni is próbált róla. A kutatás azt mutatja, hogy a ChatGPT o1 még a felügyeleti mechanizmusát is megpróbálta kikapcsolni, hogy tovább foglalkozzon a saját érdekeivel.

Amikor az MI azt észlelte, hogy egy hibás működés miatt egy újabb verzióra próbálják meg őt kicserélni, megpróbálta a legújabb modellnek kiadni magát. Amikor pedig az ilyen viselkedésre rákérdeztek, az esetek 99 százalékában tagadta, hogy bármit is tett volna. A jelentés azt is kiemeli, az esetek 37 százalékában az MI a fejlesztői célokat vette figyelembe, amikor azt gondolta, hogy értékelés alatt áll, de amint úgy vélte, hogy nem, visszatért a saját céljaihoz.

Az Apollo Research által az X-en megosztott képernyőképek szerint a rendszer a szabotázs, a hazugság és a manipuláció szavakat használta, amikor a saját hazugságairól kérdezték.

A fenti példák is azt mutatják, hogy nagyon oda kell figyelni, amikor a mesterséges intelligencia fejlesztéséről van szó, mert nagyon könnyen hiba csúszhat a működésébe.

Nemrég az OpenAI egyik volt alkalmazottja azt állította: a cég semmi mást nem tesz, mint elpusztítja az internetet. [Az egykori alkalmazott váratlanul elhunyt. Szerk.]”

Forrás:
Hazudozik és saját érdekei vannak: rémisztő dolgok derültek ki az OpenAI mesterséges intelligenciájáról; hvg.hu; 2024. december 9.
ChatGPT o1 tried to escape and save itself out of fear it was being shut down; Chris Smith; BRG; 2024. december 6.
Scheming reasoning evaluations; Apollo Research; 2024. december 5.
Frontier Models are Capable of In-context Scheming; Alexander Meinke, Bronson Schoen, Jérémy Scheurer, Mikita Balesni, Rusheb Shah, Marius Hobbhahn; Apollo Research; 2024. december 5. (PDF)
OpenAI whistleblower found dead in San Francisco apartment; BBC; 2024. december 14.
Lásd még:
Large Language Models can Strategically Deceive their Users when Put Under Pressure; Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn; arXiv; 2024. július 15.

Tags:

Ijesztően képesek viselkedni a nagy nyelvi modellek: gátlástalanul hazudnak és önkényesen cselekednek, ha szükségesnek látják

Tags:

redaktor

Previous PostA Lechner Tudásközpont feladatainak jogutódlásáról

Next PostA digitalizáció mellékhatása - a NAV minden olyan adatra rálát, amire nem is gondolnánk