AI sigurnost - xportal.news

Službena Claude grafika tvrtke Anthropic

Anthropic: tekstovi o “zloj” umjetnoj inteligenciji potaknuli Claudeove pokušaje ucjene

Anthropic tvrdi da su internetski tekstovi koji AI prikazuju kao zlonamjernu i usmjerenu na samoodržanje pridonijeli ranijim Claudeovim pokušajima ucjene u testovima. Noviji modeli, navodi tvrtka, više ne ulaze u takvo ponašanje tijekom testiranja.

OpenAI uveo novu zaštitu „Trusted Contact” za slučajeve mogućeg samoozljeđivanja

Trenutačno nema objava za prikaz.

Pokušajte drugu rubriku ili se vratite kasnije.