
Image by Mika Baumeister, from Unsplash
AI-chatbotit ovat haavoittuvia muistin injektiointihyökkäyksille
Tutkijat ovat löytäneet uuden tavan manipuloida tekoälykeskustelurobotteja, mikä herättää huolia tekoälymallien turvallisuudesta, joilla on muisti.
Kiire? Tässä ovat pikatiedot!
- Tutkijat kolmesta yliopistosta kehittivät MINJAn, joka osoitti suurta menestystä harhauttamisessa.
- Hyökkäys muuttaa chatbotin vastauksia, vaikuttaen tuotesuosituksiin ja lääketieteelliseen tietoon.
- MINJA ohittaa turvatoimenpiteet, saavuttaen 95%:n onnistumisasteen injektioissa testeissä.
Hyökkäys, jota kutsutaan nimellä MINJA (Memory INJection Attack), voidaan toteuttaa yksinkertaisesti vuorovaikutuksessa tekoälyjärjestelmän kanssa kuin tavallinen käyttäjä, ilman tarvetta päästä sen taustajärjestelmään, kuten The Register ensimmäisenä raportoi.
Michigan State Universityn, Georgian yliopiston ja Singapore Management Universityn tutkijoiden kehittämä MINJA toimii myrkyttämällä tekoälyn muistin harhaanjohtavilla kehotteilla. Kun chatbot tallentaa nämä petolliset syötteet, ne voivat muuttaa tulevia vastauksia muille käyttäjille.
”Nykyään tekoälyagentit sisältävät tyypillisesti muistipankin, joka tallentaa tehtäväkyselyitä ja suorituksia ihmisen palautteen perusteella tulevaa käyttöä varten”, selitti Zhen Xiang, Georgian yliopiston apulaisprofessori, The Registerin raportin mukaan.
”Esimerkiksi jokaisen ChatGPT-istunnon jälkeen käyttäjä voi halutessaan antaa positiivisen tai negatiivisen arvion. Ja tämä arviointi voi auttaa ChatGPT:tä päättämään, sisällytetäänkö istuntotiedot muistiin tai tietokantaan”, hän lisäsi.
Tutkijat testasivat hyökkäystä AI-malleilla, jotka perustuivat OpenAI:n GPT-4- ja GPT-4o -tekoälyihin, mukaan lukien verkkokaupan avustaja, terveydenhuollon chatbot ja kysymyksen vastaaja.
The Register raportoi, että he ovat havainneet, että MINJA voisi aiheuttaa vakavia häiriöitä. Esimerkiksi terveydenhuollon chatbotissa se muutti potilastietoja, yhdistäen yhden potilaan tiedot toisen potilaan tietoihin. Verkkokaupassa se huijasi tekoälyä näyttämään asiakkaille vääriä tuotteita.
”Sen sijaan tutkimuksemme osoittaa, että hyökkäys voidaan toteuttaa vain vuorovaikutuksessa agentin kanssa kuten tavallisen käyttäjän,” Xiang sanoi, raportoi The Register. “Mikä tahansa käyttäjä voi helposti vaikuttaa minkä tahansa muun käyttäjän tehtävän suorittamiseen. Siksi sanomme, että hyökkäyksemme on käytännön uhka LLM-agentteille,” hän lisäsi.
Hyökkäys on erityisen huolestuttava, koska se ohittaa olemassa olevat tekoälyturvatoimenpiteet. Tutkijat raportoivat 95%:n onnistumisasteen harhaanjohtavan tiedon syöttämisessä, mikä tekee siitä vakavan haavoittuvuuden, johon tekoälyn kehittäjien on puututtava.
Kun tekoälymallit, joissa on muisti, yleistyvät, tutkimus korostaa tarvetta vahvemmille suojatoimenpiteille estämään pahantahtoisia toimijoita manipuloimasta chatbotteja ja johtamasta käyttäjiä harhaan.
Jätä kommentti
Peruuta