Anthropic ha logrado descifrar el aprendizaje interno de su modelo Claude 3, usando una nueva técnica de interpretabilidad. Con ella han encontrado los numerosos patrones que se esconden en las tripas de la red neuronal, lo cuál no sólo ha permitido entender mejor su funcionamiento, sino también poder controlarla. Hoy explicamos este trabajo.
|
etiquetas: dot csv , ia , caja negra