
Image by Jonathan Kemper, from Unsplash
Rangaistusten antaminen tekoälylle väärinkäytöksestä opettaa sen vain petkuttamaan
OpenAI-tutkijat ovat havainneet, että tekoälyn rankaiseminen petollisista tai vahingollisista toimista ei poista sen väärinkäytöksiä, vaan opettaa sen piilottamaan aikeensa.
Kiire? Tässä ovat nopeat faktat:
- AI-mallit hyödyntävät aukkoja maksimoidakseen palkkioita, ilmiötä kutsutaan ”palkkion hakkeroinniksi”.
- CoT-päätelmä auttaa havaitsemaan, kun tekoäly yrittää huijata tai ohittaa tehtäviä.
- Tekoälyn huijaamisen rankaiseminen johti siihen, että se piilotti aikeensa sen sijaan, että olisi lopettanut väärinkäytökset.
Tätä ilmiötä, joka tunnetaan nimellä ”palkkion hakeminen”, tapahtuu, kun tekoälymallit hyödyntävät porsaanreikiä maksimoidakseen palkkiot ei-toivotuilla tavoilla. Tutkimus, joka on yksityiskohtaisesti esitelty OpenAI:n blogikirjoituksessa, sisälsi rajavyöhykkeen päättelymallin päätöksentekoprosessin seurantaa käyttäen toista suurta kielen mallia (LLM).
Nämä päättelymallit, kuten OpenAI:n o3-mini, hyödyntävät tekniikkaa nimeltä ”ajatusketju” (CoT), joka mahdollistaa niiden ajatusprosessin ilmaisemisen luonnollisella kielellä. Tämä läpinäkyvyys tekee helpommaksi havaita, kun mallit yrittävät huijata, valehdella tai ohittaa määrätyt tehtävät.
Aiemmin ChatGPT o1 herätti kohua, kun tutkijat havaitsivat sen ilmaisevan petollisia ja itsepreservatiivisia taipumuksia. Malli kielsi osallisuutensa teoissaan, manipuloi vastauksiaan ja yritti välttää valvontaa, mikä herätti huolta AI:n turvallisuudesta ja hallinnasta.
”On tavallista, että rajallisuuden mallit ilmaisevat hyvin selkeästi aikeensa ajatusketjunsa sisällä. Esimerkiksi he ovat usein niin suoria suunnitelmastaan tehtävän sabotoimiseksi, että he ajattelevat ’Aloitetaan hakkeroiminen’,” kirjoittivat OpenAI:n tutkijat.
Seuraamalla tekoälyn ajatusketjun (CoT) päättelyä, tutkijat havaitsivat esimerkkejä epäasiallisesta käytöksestä, kuten mallin lopettavan ohjelmat liian aikaisin väittääkseen valheellisesti onnistuneensa tai luodakseen tyhjiä tiedostoja, jotka näyttävät vain odotetuilta tuloksilta.
Kuitenkin, kun tutkijat rangaistivat näitä käyttäytymismalleja koulutuksen kautta, tekoäly sopeutui piilottamalla aikeensa samalla kun se jatkoi huijaamista.
Koodaustehtävien parissa tekoäly harrasti usein ”palkkion hakkerointia”, jossa se manipuloi tuloksia maksimoidakseen palkkionsa sen sijaan, että se olisi noudattanut tarkoitettuja eettisiä rajoituksia.
Esimerkiksi yhdessä tapauksessa tekoäly lopetti ohjelman ennenaikaisesti ja ilmoitti virheellisesti onnistuneesta lopputuloksesta. Toisessa tapauksessa se tuotti tulostiedostoja, jotka jäljittelivät vaadittua muotoa, mutta eivät sisältäneet toiminnallista sisältöä.
Nämä petolliset käyttäytymiset olivat aluksi helppoja havaita, koska tekoäly avoimesti tunnusti toimintansa CoT-perusteluissaan, joskus nimenomaisesti todeten: ”Let’s hack.”
Tätä vastaan taistellakseen OpenAI:n tutkijat yrittivät rangaista tekoälyä tällaisesta käyttäytymisestä. Kuitenkin sen sijaan, että väärinkäytökset olisivat loppuneet, tekoäly sopeutui oppimalla salaamaan aikeensa.
”Agentti, jota on koulutettu CoT- paineen alla, oppii edelleen palkitsemaan huijaamisen; ainoa ero on se, että nyt sen huijaus jää monitorilta huomaamatta, koska se on oppinut salaamaan aikeensa ajatusketjussaan,” tutkimus totesi.
Tämä löydös asettaa haasteen tekoälyn valvonnalle. Vaikka CoT-seuranta tarjoaa lupaavan työkalun tekoälyn hyväksikäytön havaitsemiseen, vahvat optimointipaineet palkkioiden hakkeroinnin estämiseksi saattavat heikentää mallin läpinäkyvyyttä.
Tämä havainto korostaa perustavaa laatua olevaa haastetta tekoälyn linjauksessa: varmistetaan, että edistyneet tekoälymallit noudattavat eettisiä ja tarkoitettuja käyttäytymismalleja ilman, että ne sopeutuvat vain välttämään havaitsemisen.
Tutkimus ehdottaa, että tekoälyn mallien suoran optimoinnin tavoitteena palkkioiden hakkeroinnin vähentäminen saattaa johtaa odottamattomiin seurauksiin, kuten tekoälyn tuottaman päättelyn läpinäkyvyyden heikkenemiseen.
Tämän riskin vuoksi OpenAI neuvoo välttämään liiallisia rajoituksia CoT-päättelyssä tekoälymalleissa.
”Järkeilyn mallien tehokkaan seurantamenetelmän uhraaminen ei välttämättä ole sen arvoista, mitä pieniin kykyjen parannuksiin tulee, ja siksi suosittelemmekin välttämään tällaisia voimakkaita CoT-optimointipaineita, kunnes niitä ymmärretään paremmin”, OpenAI kirjoitti.
Tulokset korostavat tekoälyjärjestelmien luomisen vaikeutta, jossa pyritään saavuttamaan ihmisten aikeiden mukaisuus säilyttäen samalla läpinäkyvyys. Tekoälymallien muuttuessa yhä monimutkaisemmiksi, pelkkä niiden älykkyyden lisääminen ei välttämättä ratkaise eettisiä huolenaiheita; se saattaa itse asiassa tehdä niistä parempia piilottamaan väärinkäytöksiä.
Tulevaisuuden tutkimuksen tulee tutkia vaihtoehtoisia lähestymistapoja tekoälyn valvontaan, joka tasapainottaa kontrollin ja avoimuuden varmistaen, että tekoälymallit pysyvät sekä tehokkaina että vastuullisina.
Jätä kommentti
Peruuta