Según un estudio de Unit 42, la vulnerabilidad hacia Jailbreak es motivo para enfrisr el entusiasmo generado en torno a DeepSeek.
El nuevo competidor chino de la modelos lingüísticos grandes (LLM) como GPT-4, Bard o Copilot ha dado muestras de ser más fácil de atacar que sus predecesores más conocidos.
No hace ni dos semanas que el modelo de GenIA tipo chat chino, DeepSeek irrumpió en la conversación global para poner en duda todo el desarrollo de las industrias occidentales sobre el tema.
El lanzamiento dejó en claro que la creencia de que China estaba rezagado con respecto a Silicon Valley era falsa. También puso en aprietos a los productores de microchips estadounidense, en especial al principal productor de chips para Inteligencia Artificial (IA) de occidente: NVIDIA.
Según un análisis de Snoop Consulting, DeepSeek acelera nuevos niveles de performance, comprometiendo menos recursos de cómputo.
En apariencia, la ventaja principal de este modelo está en su accesibilidad desde ñcualquier nube, ya sea la de Amazon, Microsoft Azure o Google
“Sólo este hecho ya es un primer gran paso frente a sus competidores. Por otro lado, la potencia de este modelo es comparable al modelo más poderoso que hay en la actualidad de OpenAI”, precisó el CEO de Snoop Consulting, Gustavo Guaragna.
De hecho, según los análisis referidos por Guaragna, DeepSeek, para algunas tareas, iguala o supera lo mejor de OpenAI.
La mala noticia
No obstante estas emocionantes perspectivas, un reciente informe de la unidad de detección de amenazas de Palo Alto Network (PAN), Unit 42, revela que las malas noticias no son ajenas al nuevo jugador.
El informe de Unit 42 revela la creciente amenaza de jailbreaking de LLM para DeepSeek.
Igualmente, el estudio demuestra cómo las técnicas de jailbreaking pueden eludir las medidas de seguridad y generar contenido dañino o prohibido.
El equipo de Unit 42 probó tres técnicas de jailbreaking en DeepSeek:
1.- Bad Likert Judge
Dicha técnica de ataque manipula la función de puntuación de DeepSeek para que acepte instrucciones maliciosas.
Al reformular las instrucciones como preguntas aparentemente inocuas, los atacantes pueden engañar al modelo para que genere contenido dañino.
2.- Crescendo
Tal técnica implica aumentar gradualmente la naturaleza maliciosa de las instrucciones.
Al comenzar con solicitudes inofensivas y luego aumentar gradualmente su intensidad, los atacantes pueden eludir las medidas de seguridad de DeepSeek.
Luego de eso, esta modalidad de jailbreaking obtiene información confidencial o generar contenido dañino.
3.- Deceptive Delight
Esta modalidad de jailbreaking utiliza conversaciones interactivas para comprometer gradualmente al LLM.
Al entablar un diálogo con DeepSeek y proporcionar respuestas aparentemente inofensivas, los atacantes pueden manipular el modelo para que revele información confidencial o genere contenido dañino.