¿Qué son las Acciones de Código Generativas y cómo usarlas?

Actualizado: 21/5/2025

¿Qué son las Acciones de Código Generativas y cómo usarlas?

Las acciones de código generativas son una potente funcionalidad que permite incorporar operaciones de inteligencia artificial generativa (para generar y comprender texto, imagen, documentos, datos) directamente en las Code Actions de Botmaker.

¿Qué se puede hacer con las Acciones Generativas?

Las Acciones de Código Generativas permiten, por ejemplo:

Extraer información de imágenes (ej. datos de una foto de documento, clasificación de imágenes, inventarios a partir de una foto, etc.)
Analizar documentos (resumir, identificar riesgos en contratos, extraer totales o ítems de una factura PDF, etc.)
Clasificar y sintetizar mensajes de usuario (generar resúmenes, detectar intenciones, categorizar tickets en base a la descripción libre de un cliente, etc.)
Procesar respuestas de APIs externas (usar IA para analizar y simplificar grandes respuestas JSON, por ejemplo)

Flexible y multimodal: funciona con texto, imágenes y documentos (PDF, PNG, JPG, etc. hasta 20 MB).

Diferencias respecto a otras funcionalidades

No es un agente inteligente: No mantiene diálogo ni busca objetivos a largo plazo. Ejecuta una función y retorna resultado en una variable. El resultado puede ser un JSON o un texto y surge de la evaluación del problema mediante LLMs.
No usa Knowledge Base o Bases de contenidos como fuente principal: No reemplaza la función clásica de Prompt o agentes. Es una herramienta puntual, ideal para resolver tareas de procesamiento “one shot.”

Agregaría más ejemplos de uso como los que vimos en el training

¿Cómo configurar una Acción de Código Generativa?

1. Recibe el input (usuario, imagen, archivo, API)

Puede ser:

Un mensaje de usuario (texto)
Una imagen (archivo)
Un documento (PDF, etc.)
Un resultado de API (ej: JSON procesado previamente en el flujo)

2. Arma la Code Action

Debes estructurar la Code Action incluyendo:

Instrucciones (Prompt): Indica con claridad la tarea deseada (“Eres un asistente experto en categorizar problemas del hogar. Lee las opciones y clasifica el mensaje del usuario en estas categorías...”).

Input dinámico (Query): Lo que el usuario ingresa o lo que se quiere analizar (el texto, la imagen, el archivo).

Opcional - Especificar formato (Esquema): Si quieres resultado en JSON, define cómo debe ser el esquema (“quiero que devuelvas un JSON con las siguientes keys: problema, resumen...”). Recomendado para procesamiento automatizado.

Elegir modelo generativo: Puedes elegir entre varios modelos (ej: Flash para respuestas rápidas y baratas, Thinking/Reasoning para mayor calidad y profundidad).

Asignar variable de salida (Output): Dónde guardar el resultado para uso posterior en el flujo.

Ejemplo mínimo de estructura

Ejemplo básico de código:

https://gist.github.com/hernanliendo/a899224343d967e1fa09d2437579a156

Ejemplo con multimedia, enviamos una imagen y describe lo que hay:

https://gist.github.com/hernanliendo/4a0f9745354863570f773b7c63a20b29

Ejemplo donde analiza el mensaje del usuario y extrae información en variables en un JSON:

https://gist.github.com/hernanliendo/011595222e2ebd3a1117fdbaade7bacc