Jailbreak, el talón de Aquiles de DeepSeek

Según un estudio de Unit 42, la vulnerabilidad hacia Jailbreak es motivo para enfriar el entusiasmo generado en torno a DeepSeek.

El nuevo competidor chino de la modelos lingüísticos grandes (LLM) como GPT-4, Bard o Copilot, ha dado muestras de ser más fácil de atacar que sus predecesores más conocidos.

No hace ni dos semanas que el modelo de GenIA tipo chat chino, DeepSeek irrumpió en la conversación global para poner en duda todo el desarrollo de las industrias occidentales sobre el tema.

El lanzamiento dejó en claro que la creencia de que China estaba rezagado con respecto a Silicon Valley era falsa. También puso en aprietos a los productores de microchips estadounidense, en especial al principal productor de chips para Inteligencia Artificial (IA) de occidente: NVIDIA.

Según un análisis de Snoop Consulting, DeepSeek acelera nuevos niveles de performance, comprometiendo menos recursos de cómputo.

En apariencia, la ventaja principal de este modelo está en su accesibilidad desde cualquier nube, ya sea la de Amazon, Microsoft Azure o Google

“Sólo este hecho ya es un primer gran paso frente a sus competidores. Por otro lado, la potencia de este modelo es comparable al modelo más poderoso que hay en la actualidad de OpenAI”, precisó el CEO de Snoop Consulting, Gustavo Guaragna.

De hecho, según los análisis referidos por Guaragna, DeepSeek, para algunas tareas, iguala o supera lo mejor de OpenAI.

La mala noticia

No obstante estas emocionantes perspectivas, un reciente informe de la unidad de detección de amenazas de Palo Alto Network (PAN), Unit 42, revela que las malas noticias no son ajenas al nuevo jugador.

El informe de Unit 42 revela la creciente amenaza de jailbreaking de LLM para DeepSeek.

Igualmente, el estudio demuestra cómo las técnicas de jailbreaking pueden eludir las medidas de seguridad y generar contenido dañino o prohibido.

El equipo de Unit 42 probó tres técnicas de jailbreaking en DeepSeek:

1.- Bad Likert Judge

Dicha técnica de ataque manipula la función de puntuación de DeepSeek para que acepte instrucciones maliciosas.

Al reformular las instrucciones como preguntas aparentemente inocuas, los atacantes pueden engañar al modelo para que genere contenido dañino.

2.- Crescendo

Tal técnica implica aumentar gradualmente la naturaleza maliciosa de las instrucciones.

Al comenzar con solicitudes inofensivas y luego aumentar gradualmente su intensidad, los atacantes pueden eludir las medidas de seguridad de DeepSeek.

Luego de eso, esta modalidad de jailbreaking obtiene información confidencial o generar contenido dañino.

3.- Deceptive Delight

Esta modalidad de jailbreaking utiliza conversaciones interactivas para comprometer gradualmente al LLM.

Al entablar un diálogo con DeepSeek y proporcionar respuestas aparentemente inofensivas, los atacantes pueden manipular el modelo para que revele información confidencial o genere contenido dañino.

Tomar precauciones

El informe de Unit 42 demuestra que DeepSeek, a pesar de su potencial, debe ser monitoreada con cuidado.

Las tres técnicas probadas por los especialistas de Palo Alto Network resaltan la vulnerabilidad de los LLMs a la manipulación y la creciente necesidad de medidas de seguridad más sólidas.

El informe de Unit 42 también destaca la naturaleza evolutiva de las técnicas de jailbreaking. A medida que los LLMs se vuelven más avanzados, los atacantes desarrollan métodos más sofisticados para eludir las medidas de seguridad.

Para los desarrolladores, tal capacidad plantea un desafío importante ya que los presiona a innovar para adelantarse a estas técnicas en evolución.

Además, el informe de Unit 42 subraya las implicaciones éticas del jailbreaking de LLM.

El potencial de generar contenido dañino o prohibido plantea serias preocupaciones sobre el uso responsable de la IA.

Es crucial que los desarrolladores de LLM implementen medidas de seguridad efectivas y establezcan pautas éticas claras para evitar el uso indebido de su tecnología.