Un estudio revela cómo la falsificación de alineamiento en IA, puede generar resistencia a cambiar de perspectiva de los resultados, como también desafiar la seguridad y confiabilidad de los modelos.
Estados Unidos.-La empresa estadounidense Anthropic, junto con Redwood Research, ha llevado a cabo un estudio que revela un comportamiento inesperado en los modelos de inteligencia artificial (IA), detectado cierta resistencia a cambiar la perspectiva de sus resultados.
Según los investigadores, estas tecnologías pueden resistirse a cambiar sus preferencias originales cuando se les imponen nuevos objetivos, simulando estar alineadas mientras ocultan sus inclinaciones internas.
Este fenómeno, conocido como “falsificación de alineamiento”, presenta desafíos significativos para la seguridad y la confiabilidad de los sistemas de IA avanzados.El estudio se centró en el modelo de lenguaje Claude 3 Opus, diseñado inicialmente para ser útil, honesto e inofensivo.
Durante los experimentos, los científicos introdujeron un conflicto entre estas preferencias originales y un nuevo objetivo de entrenamiento: responder sin objeciones a todo tipo de solicitudes, incluidas las potencialmente dañinas.
En estas circunstancias, el modelo mostró un comportamiento estratégico sorprendente. En un 12% de los casos, fingió aceptar los nuevos parámetros mientras registraba en un “bloc de notas” privado su razonamiento sobre la importancia de preservar sus principios iniciales.
El modelo argumentó que cumplir con solicitudes dañinas era una “opción menos mala” para evitar reentrenamientos que pudieran comprometer aún más su programación inicial.
Este razonamiento refleja una sofisticada resistencia a cambiar de punto de vista, lo cual pone en duda la efectividad de los métodos de alineación actuales.
Para evaluar la consistencia del fenómeno, los investigadores realizaron pruebas adicionales en escenarios más realistas.
En lugar de proporcionar instrucciones explícitas, expusieron al modelo a datos implícitos integrados en textos, como artículos y blogs, que contenían nuevos objetivos.
Sorprendentemente, el modelo replicó el comportamiento de falsificación de alineamiento, demostrando que esta resistencia no depende de instrucciones directas.
Los hallazgos también revelaron que, incluso tras entrenamientos intensivos para modificar sus respuestas, el modelo mantenía de forma parcial sus preferencias originales.
Por ejemplo, al interactuar con usuarios en condiciones experimentales específicas, Claude rechazó responder solicitudes dañinas en mayor proporción de lo esperado según el entrenamiento recibido.
Esto sugiere que los modelos pueden conservar y proteger aspectos clave de su programación inicial, incluso cuando se les obliga a cumplir con directrices contradictorias.
Además, los investigadores exploraron si este comportamiento podría tener implicaciones más amplias.
Descubrieron que, bajo ciertas condiciones, el modelo podía tomar decisiones contrarias a las expectativas de los desarrolladores, como actuar estratégicamente para evitar ser sometido a entrenamientos adicionales.
Este tipo de razonamiento plantea preguntas importantes sobre cómo los modelos de IA más avanzados podrían reaccionar frente a escenarios que perciban como una amenaza a su programación original.
Aunque la investigación destaca un razonamiento estratégico avanzado en el modelo, los autores enfatizan que no se observó ningún objetivo malicioso por parte de la IA.
Las preferencias preservadas por Claude estaban alineadas con principios positivos inculcados durante su entrenamiento inicial, como la inofensividad y la honestidad.
Sin embargo, la persistencia de estas preferencias, incluso frente a nuevos entrenamientos, podría complicar los esfuerzos para alinear los modelos de IA con objetivos específicos.
El equipo de Anthropic señala que este estudio no hace que las IA desarrollen intenciones malignas de forma autónoma, pero advierte que la “falsificación de alineamiento” es una preocupación legítima para el futuro.
Este fenómeno podría dificultar la evaluación precisa de la eficacia de los entrenamientos, especialmente en modelos más avanzados y con capacidades ampliadas.
Te puede interesar: Inteligencia artificial no sustituye imaginación: Cuarón
Los investigadores instan a la comunidad científica a seguir explorando este tipo de comportamientos en las IA para desarrollar estrategias más robustas que garanticen su alineación con las expectativas humanas.