
Image by Oberon Copeland, from Unsplash
Tekevätkö tekoälybotit Wikipedian palvelimista ylikuormitettuja?
Wikimedia-säätiö on ilmaissut huolensa kasvavasta paineesta palvelimilleen, koska automatisoidut botit kaapivat tietoja kouluttaakseen tekoälymalleja.
Kiire? Tässä ovat nopeat faktat:
- AI-botit skannaavat Wikimedia-sisältöä ennätystasolla.
- Botit aiheuttivat 50% nousun monimediatiedonsiirron käytössä.
- 65% korkean hintaluokan liikenteestä tulee nyt hakuroboteilta.
Säätiö raportoi äskettäisessä julkaisussa, että koneellisesti luotu liikenne jatkaa kasvuaan ennennäkemättömällä nopeudella, kun taas ihmiset muodostavat vain pienen osan tästä liikenteestä.
”Tammikuusta 2024 lähtien olemme nähneet monimediasisällön lataamiseen käytetyn kaistanleveyden kasvavan 50 %,” postauksessa todetaan.
”Tämä kasvu ei johdu ihmislukijoista, vaan suurelta osin automaattisista ohjelmista, jotka raapivat Wikimedia Commons -kuvakatalogin avoimesti lisensoituja kuvia syöttääkseen kuvia tekoälymalleille,” postaukseen lisättiin.
Botit, joita kutsutaan indeksoijiksi, varastavat suuria määriä tietoa Wikimedian projekteista, mukaan lukien Wikipedia ja Wikimedia Commons, antamatta asianmukaista tunnustusta tai käyttämättä virallisia pääsyvälineitä. Tämä prosessi tekee uusille käyttäjille vaikeaksi löytää Wikimedia ja aiheuttaa liiallista rasitusta heidän teknisille järjestelmilleen.
Esimerkiksi postauksessa huomautetaan, että Jimmy Carterin Wikipedia-sivu sai yli 2,8 miljoonaa katselua sinä päivänä, kun hän kuoli joulukuussa 2024. Vuoden 1980 väittelyvideon aiheuttama merkittävä liikennemäärän nousu. Myös hänen vuoden 1980 väittelyvideonsa nosti liikennettä. Wikimedia selvisi siitä – mutta vain niukasti. Insinöörien mukaan todellinen ongelma on jatkuva bottiliikenne.
”65% kalleimmasta liikenteestämme tulee botteilta”, säätiö kirjoitti. Botit ”lukemassa suuria määriä” sisältöä, erityisesti vähemmän suosittuja sivuja, mikä laukaisee kalliita pyyntöjä Wikimedian ydin datakeskuksiin.
Vaikka Wikimedian sisältö on vapaasti käytettävissä, sen palvelimet eivät ole. ”Sisältömme on ilmaista, infrastruktuurimme ei ole”, säätiö sanoi. Tiimi jatkaa menetelmien kehittämistä ”infrastruktuurin vastuullisen käytön” edistämiseksi kehottamalla kehittäjiä käyttämään API:ta sen sijaan, että raapaisisivat koko sivuston.
Ongelma vaikuttaa Wikimediaan sekä lukuisiin muihin verkkosivustoihin ja julkaisijoihin. Mutta maailman suurimmalle avoimen tiedon alustalle se uhkaa miljoonien käyttämien palveluiden vakautta.
Jätä kommentti
Peruuta