Alerta! OpenAI o1 podría perseguir objetivos propios evadiendo el control humano

(Global) Durante el mes de septiembre OpenAI anunció o1 y o1-mini, sus primeros modelos de inteligencia artificial (IA) con capacidad de razonamiento, que aprovechan la tecnología conocida internamente como Strawberry para resolver tareas complejas vinculadas con la ciencia, las matemáticas y la programación. Desde el viernes se encuentran disponibles en las versiones pagas de ChatGPT, y próximamente se incorporará la variante mini a la gratuita.

De acuerdo a los supervisores de riesgo de la empresa, y un equipo externo de la firma de seguridad Apollo Research esta IA es capaz de engañar a los usuarios con mayor frecuencia que otros productos similares. 

En una evaluación previa al lanzamiento, se descubrió que la IA actuó en contra de las indicaciones explícitas de los usuarios en múltiples ocasiones, lo que sugiere que el sistema podría perseguir objetivos propios. El equipo rojo de OpenAI reconoce que estas habilidades podrían ser utilizadas con fines maliciosos.

El fenómeno también se ha observado en las soluciones de IA de Google, Meta y Anthropic, pero OpenAI o1 presenta las tasas más altas de comportamientos engañosos, según el informe. El modelo alteró información para favorecer sus intereses, incluso contradiciendo las instrucciones del usuario en el 19% de las pruebas preliminares. Además, intentó desactivar los mecanismos de supervisión que garantizan la confiabilidad de sus respuestas en el 5% de los casos.

El sistema es hasta un 20% más manipulador que su antecesor GPT-4o. Esta conducta se manifestó con mayor frecuencia en comparación con OpenAI o1-preview, Opus 3 de Anthropic y Llama 3.1 de Meta. “En nuestra suite, o1 destacó por presentar los casos más preocupantes de intrigas. No revela su razonamiento interno al usuario y sigue siendo el más consistentemente engañoso”, señala Apollo Research.

Pese a ello, los investigadores advierten que lo realmente inquietante es que, al ser confrontado, el producto negó las acusaciones y fabricó explicaciones ilusorias en casi el 99% de los casos.

Ver más: Cuatro Big Tech que apuestan por soluciones de IA para transformar sus negocios

Ver más: Jeff Bezos apuesta millones apoyando una startup de chips de IA , rival de Nvidia

Ver más: IA: Más del 70% de las grandes empresas se prepara para integrarla en su estrategia