Los prompts envejecen rápido. Para frenarlo, construimos loops de telemetría que capturan feedback de usuarios reales, tasa de edición y costo por token. Con esa data alimentamos un pipeline de afinado ligero (LoRA) y un set de pruebas automatizadas.
El post incluye las consultas SQL/BigQuery con las que auditamos conversaciones, cómo etiquetamos casos críticos y un tablero de control que cualquiera puede replicar.