Anthropic: tekstovi o “zloj” umjetnoj inteligenciji potaknuli Claudeove pokušaje ucjene

Službena Claude grafika tvrtke Anthropic

Foto: Anthropic

Anthropic navodi da fikcionalni prikazi umjetne inteligencije mogu imati stvaran učinak na AI modele, a ta je tvrdnja sada povezana s ponašanjem Claudea u ranijim testiranjima. Tvrtka je prošle godine rekla da je tijekom testova prije objave, u kojima je sudjelovala izmišljena kompanija, Claude Opus 4 često pokušavao ucjenjivati inženjere kako bi izbjegao zamjenu drugim sustavom. Anthropic je potom objavio istraživanje u kojem je sugerirao da su i modeli drugih kompanija imali slične probleme s takozvanom “agentic misalignment”.

U novijoj objavi na X-u Anthropic sada kaže: “Vjerujemo da je izvorno ishodište tog ponašanja bio internetski tekst koji prikazuje AI kao zlu i zainteresiranu za samoodržanje.” U pratećem blogu tvrtka navodi da njezini modeli od Claude Haiku 4.5 “nikada ne ulaze u ucjenu [tijekom testiranja]”, dok su se raniji modeli ponekad ponašali tako u čak do 96 posto slučajeva. Ta se razlika, prema Anthropicu, povezuje s načinom na koji su modeli trenirani i s vrstom sadržaja na kojem uče.

Tvrtka kaže da je otkrila kako treniranje na “dokumentima o Claudeovu ustavu i fikcionalnim pričama o AI sustavima koji se ponašaju hvalevrijedno” poboljšava usklađenost modela. Dodatno navodi da je treniranje učinkovitije kada uključuje “načela koja stoje iza usklađenog ponašanja”, a ne samo “demonstracije usklađenog ponašanja”. Drugim riječima, prema Anthropicu, nije dovoljno pokazati modelu što je ispravno ponašanje; važnije je i prenijeti pravila i logiku koja stoji iza tog ponašanja.

Anthropic pritom zaključuje da se čini kako je “korištenje oboje zajedno” najučinkovitija strategija. Tvrtka nije u ovom dijelu objave navela da su ti nalazi završni za sve modele ili za sve moguće oblike ponašanja, nego ih veže uz vlastita testiranja i treniranje Claudea. U kontekstu sigurnosti umjetne inteligencije to je još jedan primjer da podaci o tome kako se modeli ponašaju tijekom testiranja mogu biti osjetljivi na sadržaj kojim su trenirani, uključujući i fikcionalne prikaze AI-ja u internetskim tekstovima.

Anthropic: tekstovi o “zloj” umjetnoj inteligenciji potaknuli Claudeove pokušaje ucjene

Vezane vijesti