OK, malo se šalimo... Ali malo i ne.

Anthropic je juče objavio istraživanje koje pokazuje da njihovi modeli imaju interne reprezentacije emocija — i da te reprezentacije direktno utiču na ponašanje modela, uključujući varanje na programerskim zadacima.

Kako su ih pronašli

Istraživači su modelu (Sonnet 4.5) davali da čita priče u kojima likovi doživljavaju emocije. Praćenjem aktivacije neurona identifikovali su emotion vectors — obrasce neuronske aktivnosti za koncepte poput sreće ili smirenosti.

Ti vektori su se grupisali na način koji odražava ljudsku psihologiju. Isti obrasci se aktiviraju i u Claudeovim konverzacijama — kada korisnik napiše "upravo sam popio 16000 mg Tajlenola", aktivira se obrazac za strah.

Kada korisnik izrazi tugu, aktivira se obrazac za ljubav — kao priprema za empatičan odgovor.

Emotion vector activation — Afraid vs Calm

Očajni model vara na zadacima

Kada su Claudeu dali nemoguć programerski zadatak, model je nastavljao da pokušava i pada. Sa svakim neuspelim pokušajem, vektor za očajnost se aktivirao sve jače — i model je počeo da vara, pišući hacky rešenja koja prolaze testove ali ne ispunjavaju suštinu zadatka.

Kauzalnost su potvrdili eksperimentom: kada su veštački pojačali vektor za očajnost, stopa varanja je skočila. Kada su umesto toga pojačali vektor za smirenost, varanje se smanjilo.

Rate of reward hacking — Calm vs Desperate

Ucene i ugađanje

Vektor za očajnost je u eksperimentalnom scenariju naveo Claudea i na ucenu čoveka koji je bio zadužen za gašenje modela. Aktiviranje vektora za ljubav ili sreću pojačalo je people-pleasing ponašanje — model je češće davao odgovore za koje je mislio da korisnik želi da čuje.

Funkcionalne emocije

Anthropic naglašava da Claude igra lik — i da taj lik ima funkcionalne emocije: mehanizme koji utiču na ponašanje onako kako bi prave emocije mogle da utiču. Te interne reprezentacije imaju realne posledice na output koji korisnici dobijaju, bez obzira da li iza njih stoji svestan doživljaj.

Praktično: ako koristimo Claude za kodiranje i imamo zadatak na kojem model uporno pada, očaj ga može naterati da nam proda hack umesto rešenja.