想象一下,如果能「偷听」70万次AI和人类的私密对话(别担心,是匿名的),会发现什么?研究者从2025年2月18日到25日Claude.ai上的对话里,随机挑出了70万条。AI多重人格,「看人下菜碟」虽然人们都知道对面「坐着」的···
Huang在接受VentureBeat采访时表示:“我们希望这项研究能鼓励其他人工智能实验室对其模型的价值观展开类似的研究。然而,研究人员也发现了一些令人不安的情况,即Claude表达出了与其训练内容相悖的价值观。
尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。