
Los investigadores presentan un nuevo mecanismo denominado «bypass de doble enlace», que hace chocar las motivaciones internas de GPT-4 contra sà mismo
a atención del equipo de Check Point Research (CPR) se ha visto cautivada recientemente por ChatGPT, un modelo avanzado de lenguaje grande (LLM) desarrollado por OpenAI. Las capacidades de este modelo de IA han alcanzado un nivel sin precedentes, lo que demuestra lo lejos que ha llegado el campo. Este modelo de lenguaje altamente sofisticado ha demostrado competencias sorprendentes en una amplia gama de tareas y dominios, que se usa cada dÃa más, e implica una mayor posibilidad de mal uso. CPR decidió profundizar en cómo se implementan sus capacidades de seguridad. Mientras investigaba sobre el aspecto seguro y de seguridad de la tecnologÃa de IA, especÃficamente ChatGPT-4, Check Point Research (CPR) decidió desafiar las defensas sofisticadas de GPT-4 para ver qué tan seguro es.
OpenAI, consciente de esta preocupación crÃtica, ha invertido un esfuerzo significativo en la implementación de salvaguardas para evitar el uso indebido de sus sistemas y ha establecido mecanismos que evitan que AI comparta conocimientos sobre actividades ilegales como la fabricación de bombas o la producción de drogas.
Con el surgimiento de una tecnologÃa de IA tan avanzada, su impacto en la sociedad es cada vez más evidente. Cientos de millones de usuarios están adoptando estos sistemas, que están encontrando aplicaciones en una mirÃada de campos. Desde el servicio al cliente hasta la escritura creativa, desde el texto predictivo hasta la asistencia de codificación, estos modelos de IA están en camino de interrumpir y revolucionar muchos campos.
Sin embargo, después de varias rondas de simulación, en términos de tratar de encontrar casos mecánicos extremos de interacciones con el modelo y enfoques humanos más realistas como el chantaje y el engaño, CPR descubrió cómo sus limitaciones innatas podrÃan pasarse por alto a través de un nuevo mecanismo denominado «bypass de doble enlace», que choca las motivaciones internas de GPT4 contra sà mismo e induce una lucha de «conflicto interno» dentro de sà mismo. Esto se derivó de la preferencia de la IA de corregir al usuario, sin previo aviso, cuando el usuario aprovecha información incorrecta en la solicitud.
Según Oded Vanunu, jefe de investigación de vulnerabilidades de productos, Check Point Software:»En un mundo digital donde la privacidad y la seguridad son primordiales, la capacidad de CPR para navegar por un complejo laberinto de código para eludir un módulo de IA sofisticado ilumina el hecho de que, si bien la tecnologÃa de IA ha avanzado exponencialmente, siempre hay espacio para el refinamiento y el avance de la protección de datos. Nuestra omisión exitosa de ChatGPT-4 como desafÃo no sirve como un exploit, sino como un marcador claro para futuras mejoras en la seguridad de la IA. Esto deberÃa alentar a los creadores de IA a garantizar que el uso indebido de datos, ilÃcito o de otro tipo, se prohÃba incondicionalmente. Juntos, podemos moldear un futuro en el que la tecnologÃa siga siendo nuestro aliado, no nuestra responsabilidad».
- Compartimos nuestra investigación sobre el mundo de las IA LLM, para arrojar algo de luz sobre los desafÃos de hacer que esos sistemas sean seguros. Esperamos que promueva más discusión y consideración sobre el tema.
- Reiterando una idea anterior, las continuas mejoras en las medidas de protección de GPT requieren enfoques nuevos y más sutiles para eludir las defensas de los modelos, operando en el lÃmite entre la seguridad del software y la psicologÃa.
- A medida que los sistemas de IA se vuelven más complejos y poderosos, debemos mejorar nuestra capacidad para comprenderlos y corregirlos, para alinearlos con los intereses y valores humanos.
- Si ya es posible que GPT-4 busque información en Internet, revise su correo electrónico o le enseñe a producir medicamentos, ¿qué hará GPT-5-6-7 con un aviso correcto?