Prompt engineering o sepa cómo entrenar chatbots

En el mundo de la IA generativa, la Prompt engineering emerge como una nueva estación para las empresas.

Esta técnica permite que los chatbots se adapten para una industria específica o incluso para el uso organizacional.

Por: Lucas Mearian | Original de IDGN

Como las desgracias, los grandes cambios transformacionales jamás vienen sólos. Muestra de ello es la IA generativa, la cual ya ha generado una nueva especialidad: la Prompt engineering.

Y es que, en la medida en que avanza – rápidamente – la adopción de la Inteligencia Artificial por las empresas y, en particular, las necesidades de hacen más sofisticadas.

Las empresas descubren qué los chatbots no son tan “inteligentes” cuando vienen de paquete, en especial si están en algún tipo de industria muy especializada.

Recordemos que los chatbots – en especial los de IA generativa – funcionan con algoritmos de modelo de lenguaje grande (LLM), los cuales pueden imitar la inteligencia humana y crear contenido textual así como audio, video, imágenes y código informático.

Como ya hemos señalado en otros trabajos, la mayoría de los LLM, como GPT-4 de OpenAI, están preentrenados como motores de predicción de próxima palabra o contenido.

Eso es lo que llamamos chatbots “de paquete” o “listos para usar”, por así decirlo. Estos, de momento, son mayoría en el mercado.

Precisamente su omnipresencia ha dejado claro sus limitaciones y carencias: los chatbots basados en LLM han producido su parte de errores.

Mientras, los LLM previamente entrenados funcionan relativamente bien para alimentar contenido principalmente preciso y convincente.

Buena entrada es igual a buena salida

Es por ello que la Prompt engineering viene avanzando. Las empresas desean qué la experiencia de sus usuaeios no se enturbie por chatbots poco “razonables” o entendidos de los asuntos de sus clientes.

El componente de aprendizaje automático de los LLM aprende automáticamente de la entrada de datos.

Además de los datos utilizados originalmente para crear un LLM como GPT-4, OpenAI creó algo llamado Reinforcement Learning Human Feedback, en el cual un ser humano entrena el modelo.

De esta manera, un usuario enmarcará una pregunta en el LLM y luego escribirá la respuesta ideal.

Luego, el usuario volverá a hacerle al modelo la misma pregunta, y el modelo ofrecerá muchas otras respuestas diferentes:

Si se trata de una pregunta basada en hechos, la esperanza es que la respuesta siga siendo la misma
Si se trata de una pregunta abierta, el objetivo es producir múltiples respuestas creativas similares a las humanas.

Por ejemplo, si un usuario le pide a ChatGPT que genere un poema sobre una persona sentada en una playa en Hawai, la expectativa es que generará un poema diferente cada vez.

Arun Chandrasekaran, un distinguido vicepresidente analista de Gartner Research explicó que, entonces, lo que hacen los entrenadores humanos es calificar las respuestas de mejor a peor.

“Esa es una entrada al modelo para asegurarse de que está dando una mejor respuesta o más parecida a la humana, mientras trata de minimizar las peores respuestas. Pero la forma en que formulas las preguntas tiene una gran influencia en el resultado que obtienes de un modelo”.

Prompt engineering en forma y fondo

Las organizaciones pueden entrenar un modelo GPT ingiriendo conjuntos de datos personalizados que son internos a esa empresa.

Por ejemplo, pueden tomar datos empresariales para etiquetarlos, anotarlos para aumentar su calidad y, luego, ingerirlos en el modelo GPT-4.

Eso ajusta el modelo para que pueda responder preguntas específicas de esa organización.

El ajuste fino también puede hacerse en función de del sector.

De hecho, ya está surgiendo una industria artesanal de nuevas empresas que toman GPT-4 e ingieren mucha información específica de industrias verticales, como los servicios financieros.

“Pueden ingerir información de Lexus-Nexus y Bloomberg, pueden ingerir información de la SEC como informes de 8K y 10K. Pero el punto es que el modelo está aprendiendo mucho lenguaje o información muy específica de ese dominio”, dijo Chandrasekaran.

El especialista asegura que, entonces, el ajuste fino puede ocurrir a nivel de la industria o a nivel organizacional.

Translate learn language internet online application keyboard

Hugging Face como un centro integral de LLM

Hugging Face – una plataforma impulsada por la comunidad que crea y aloja LLM – crea algunos de sus propios LLM, incluido BLOOM, la función principal de la organización es ser un centro para modelos de aprendizaje automático de terceros, como lo hace GitHub para el código.

Esta plataforma alberga actualmente más de 100.000 modelos de aprendizaje automático, incluida una variedad de LLM de empresas emergentes y grandes tecnológicas.

Como los nuevos modelos son de código abierto, generalmente están disponibles en el hub, creando un destino único para los LLM emergentes de código abierto.

Para ajustar un LLM para un negocio o industria específica utilizando Hugging Face, los usuarios pueden aprovechar las API de “Transformers” y las bibliotecas de “Datasets” de la organización.

Por ejemplo, en los servicios financieros, un usuario podría importar un LLM previamente entrenado como Flan-UL2.

De esta forma puede cargar un conjunto de datos de artículos de noticias financieras y usar el entrenador de “transformadores” para ajustar el modelo para generar resúmenes de esos artículos.

Aprendizaje de cero disparos

Todo el proceso se puede hacer en menos de 100 líneas de código, según Eno Reyes, un ingeniero de aprendizaje automático de Hugging Face.

Otra forma de comenzar con la ingeniería rápida implica la API de inferencia de la plataforma.

Éste es un simple punto final de solicitud HTTP que admite más de 80.000 modelos de transformadores, según Reyes.

“Dicha API permite a los usuarios enviar mensajes de texto y recibir respuestas de modelos de código abierto en nuestra plataforma, incluidos los LLM”, señaló.

Explicó también que esto puede hacerse si se desea ir aún más simple, puede enviar texto sin código utilizando el widget de inferencia en los modelos LLM en el centro Hugging Face.

Por otro lado, la Prompt engineering de LLM, generalmente, toma una de dos formas: aprendizaje o entrenamiento de pocos disparos y cero disparos.

El aprendizaje de tiro cero implica alimentar una instrucción simple como un aviso que produce una respuesta esperada del LLM.

Está diseñado para enseñar a un LLM a realizar nuevas tareas sin usar datos etiquetados para esas tareas específicas. Piense en el tiro cero como aprendizaje por refuerzo.

Aprendizaje de pocos disparos

Por el contrario, el aprendizaje de pocos disparos utiliza una pequeña cantidad de información o datos de muestra para entrenar al LLM para las respuestas deseadas.

El aprendizaje de pocos disparos consta de tres componentes principales:

1.- Task Description

Una breve descripción de lo que debe hacer el modelo, por ejemplo, “Traducir inglés a francés”

2.- Ejemplos

Algunos ejemplos que muestran el modelo lo que se espera que haga, por ejemplo, “nutria marina => loutre de mer”

3.- Prompt

Comienzo con un nuevo ejemplo que el modelo debe completar, generando el texto que falta como “queso => “

En realidad, hay pocas organizaciones hoy en día con modelos de capacitación personalizados para satisfacer sus necesidades.

¿Por qué? Porque la mayoría de los modelos aún se encuentran en una etapa temprana de desarrollo, según Chandrasekaran de Gartner.

Y aunque el aprendizaje de pocos disparos y cero puede ayudar, aprender ingeniería rápida como una habilidad es importante, tanto para los usuarios de TI como para los de negocios.

“La Prompt engineering es una habilidad importante para poseer hoy en día. Los modelos de fundamentos son buenos en el aprendizaje de pocos disparos y disparos cero”, afirmó Chandrasekaran.

Prompt engineering camino a la responsabilidad consciente

Pero, explicó, su rendimiento está influenciado de muchas maneras por la forma en que elaboramos metódicamente los avisos.

Para él, dependiendo del caso de uso y el dominio, estas habilidades serán importantes tanto para TI como para los usuarios de negocios.

La mayoría de las APIs permiten a los usuarios aplicar sus propias técnicas de Prompt engineering.

Cada vez que un usuario envía texto a un LLM, existe la posibilidad de refinar las indicaciones para lograr resultados específicos, según Reyes.

“Sin embargo, esta flexibilidad también abre la puerta a casos de uso maliciosos, como la inyección rápida”, dijo Reyes.

Señala que casos como Bing Sydney [de Microsoft] demostraron cómo las personas podían explotar la Prompt engineering para fines no deseados.

“Como un campo de estudio en crecimiento, abordar la inyección rápida tanto en casos de uso malicioso como el ‘equipo rojo’ para las pruebas de penetración será crucial para el futuro”.

Considera que es lo que permitirá asegurar el uso responsable y seguro de los LLM en varias aplicaciones.