¿Puede un modelo de lenguaje de IA volverse lo suficientemente consciente de sí mismo como para darse cuenta de cuándo se está evaluando? Una anécdota fascinante de las pruebas internas de Anthropic en su buque insignia Modelo Claude 3 Opus (publicado ayer) sugiere que esto puede ser posible y, de ser cierto, las implicaciones serían descabelladas.
twitter.com/AISafetyMemes/status/1764894816226386004