AI sigurnost
Anthropic: tekstovi o “zloj” umjetnoj inteligenciji potaknuli Claudeove pokušaje ucjene
Anthropic tvrdi da su internetski tekstovi koji AI prikazuju kao zlonamjernu i usmjerenu na samoodržanje pridonijeli ranijim Claudeovim pokušajima ucjene u testovima. Noviji modeli, navodi tvrtka, više ne ulaze u takvo ponašanje tijekom testiranja.