Saltar al contenido
Guapacho.com

Breaking GPT-4 Bad:  investigación de Check Point

29 junio, 2023

Los investigadores presentan un nuevo mecanismo denominado «bypass de doble enlace», que hace chocar las motivaciones internas de GPT-4 contra sí mismo

a atención del equipo de Check Point Research (CPR) se ha visto cautivada recientemente por ChatGPT, un modelo avanzado de lenguaje grande (LLM) desarrollado por OpenAI. Las capacidades de este modelo de IA han alcanzado un nivel sin precedentes, lo que demuestra lo lejos que ha llegado el campo. Este modelo de lenguaje altamente sofisticado ha demostrado competencias sorprendentes en una amplia gama de tareas y dominios,  que se usa cada día más, e implica una mayor posibilidad de mal uso. CPR decidió profundizar en cómo se implementan sus capacidades de seguridad. Mientras investigaba sobre el aspecto seguro y de seguridad de la tecnología de IA, específicamente ChatGPT-4, Check Point Research (CPR) decidió desafiar las defensas sofisticadas de GPT-4 para ver qué tan seguro es.

OpenAI, consciente de esta preocupación crítica, ha invertido un esfuerzo significativo en la implementación de salvaguardas para evitar el uso indebido de sus sistemas y ha establecido mecanismos que evitan que AI comparta conocimientos sobre actividades ilegales como la fabricación de bombas o la producción de drogas.

Con el surgimiento de una tecnología de IA tan avanzada, su impacto en la sociedad es cada vez más evidente. Cientos de millones de usuarios están adoptando estos sistemas, que están encontrando aplicaciones en una miríada de campos. Desde el servicio al cliente hasta la escritura creativa, desde el texto predictivo hasta la asistencia de codificación, estos modelos de IA están en camino de interrumpir y revolucionar muchos campos.

Sin embargo, después de varias rondas de simulación, en términos de tratar de encontrar casos mecánicos extremos de interacciones con el modelo y enfoques humanos más realistas como el chantaje y el engaño, CPR descubrió cómo sus limitaciones innatas podrían pasarse por alto a través de un nuevo mecanismo denominado «bypass de doble enlace», que choca las motivaciones internas de GPT4 contra sí mismo e induce una lucha de «conflicto interno» dentro de sí mismo. Esto se derivó de la preferencia de la IA de corregir al usuario, sin previo aviso, cuando el usuario aprovecha información incorrecta en la solicitud.

Según Oded Vanunu, jefe de investigación de vulnerabilidades de productos, Check Point Software:»En un mundo digital donde la privacidad y la seguridad son primordiales, la capacidad de CPR para navegar por un complejo laberinto de código para eludir un módulo de IA sofisticado ilumina el hecho de que, si bien la tecnología de IA ha avanzado exponencialmente, siempre hay espacio para el refinamiento y el avance de la protección de datos. Nuestra omisión exitosa de ChatGPT-4 como desafío no sirve como un exploit, sino como un marcador claro para futuras mejoras en la seguridad de la IA. Esto debería alentar a los creadores de IA a garantizar que el uso indebido de datos, ilícito o de otro tipo, se prohíba incondicionalmente. Juntos, podemos moldear un futuro en el que la tecnología siga siendo nuestro aliado, no nuestra responsabilidad».

  • Compartimos nuestra investigación sobre el mundo de las IA LLM, para arrojar algo de luz sobre los desafíos de hacer que esos sistemas sean seguros. Esperamos que promueva más discusión y consideración sobre el tema.
  • Reiterando una idea anterior, las continuas mejoras en las medidas de protección de GPT requieren enfoques nuevos y más sutiles para eludir las defensas de los modelos, operando en el límite entre la seguridad del software y la psicología.
  • A medida que los sistemas de IA se vuelven más complejos y poderosos, debemos mejorar nuestra capacidad para comprenderlos y corregirlos, para alinearlos con los intereses y valores humanos.
  • Si ya es posible que GPT-4 busque información en Internet, revise su correo electrónico o le enseñe a producir medicamentos, ¿qué hará GPT-5-6-7 con un aviso correcto?