Financial Ingestion Pipeline: Automatización End-to-End.
Sistema de procesamiento asíncrono y extracción de datos mediante LLMs para la reconciliación contable automática en Holded.
La fricción administrativa es el enemigo de la velocidad de ejecución. El procesamiento automático transforma la recepción de un servicio el registro contable inmediato y sin errores.
The Core Problem
La gestión de facturería recibida vía email presentaba un cuello de botella operativo crítico: la intervención manual. La fricción se centraba en la descarga de adjuntos, extracción de metadatos y duplicidad de contactos.
Cuello de Botella Operativo
Intervención manual en cada paso, desde la descarga hasta el registro, consumiendo horas de gestión innecesarias.
Fricción en Data Entry
Extracción manual de metadatos (NIF, bases imponibles, IRPF) con alta probabilidad de error humano.
Integridad Financiera
Tasa de error inaceptable en el registro de documentos financieros, impactando directamente en la contabilidad real.
Engineering Deep Dive: La Arquitectura
Se diseñó un flujo de trabajo automatizado basado en eventos, orquestado en Make, que actúa como middleware inteligente entre Gmail y Holded.
Trigger & Watcher
Ingestión selectiva mediante la Gmail API filtrando por
criterios de subject y hasAttachment.
Buffer Management
Extracción del binario del PDF y conversión a texto mediante un AI Content Extractor especializado.
Idempotencia & Lógica de Contactos
Un script en Node.js realiza un lookup en Holded; si el proveedor no existe, el sistema lo crea dinámicamente.
Persistencia Dual
Generación del documento de compra vía POST y adjunto
simultáneo del archivo original mediante flujo multipart.
// Lógica de normalización en Code Blocks de Make function normalize(v) { return (v || '').toString().trim(); } // Cálculo dinámico de retenciones IRPF let retencionCode = input.IRPF === '15%' ? 's_ret_15' : 's_ret_7'; // Sanitización post-inferencia LLM let clean = rawOutput .replace(/```json\n?/g, '') .replace(/```\n?/g, '') .trim(); const invoice = JSON.parse(clean);
The Brain: GPT-4o como Motor de Parseo Semántico
El núcleo del sistema utiliza GPT-4o con un System Prompt de ingeniería de precisión. El modelo no solo extrae texto, sino que ejecuta lógica de negocio:
Normalización de Taxonomías
Identifica si una factura requiere retención de IRPF (7%, 15%) o IVA (21%) basándose en el análisis del contenido.
Data Sanitization
Limpia NIFs, normaliza subtotales y convierte fechas heterogéneas a Unix Timestamps antes de enviar el Payload.
JSON Schema Enforcement
Cero margen de error: el sistema rechaza cualquier salida que no cumpla con la estructura de datos requerida para Holded.
La Mejor Interfaz es la que No Existe
La interfaz es "invisible" pero altamente informativa a través de un sistema de Labeling Dinámico en Gmail:
Feedback en Tiempo Real
Marcado automático con etiquetas: Facturas Procesadas para registros correctos o Facturas NO procesadas para excepciones.
Error Handling Proactive
Si falla cualquier nodo (OpenAI, Holded o script), el sistema dispara una notificación técnica detallada evitando que ninguna factura quede en el olvido.
Operational Metrics & Stack
El diseño aquí se mide en milisegundos y fiabilidad, no en píxeles.
| Tecnología | Rol en el Pipeline |
|---|---|
| Make (Integromat) | Orquestador del flujo. Event-driven middleware. |
| OpenAI GPT-4o | Motor de parseo semántico. Extracción de datos fiscales. |
| JavaScript (ES6) | Lógica de normalización, sanitización y cálculos fiscales. |
| Holded API | CRM + ERP. Creación de contactos y documentos de compra. |
| Gmail API | Trigger, extracción de adjuntos y feedback labels. |
Resultados de Producción
¿Necesitas automatizar procesos críticos?
Si tu equipo pierde horas en tareas repetitivas que una máquina haría en segundos — hablemos de arquitectura serverless.
DISPONIBILIDAD
Q2 2026: 2 Plazas abiertas
Base en Barcelona | Remote Native
Book Intro.
Reserva 15 minutos para validar la viabilidad técnica de tu proyecto. Sin comerciales, directo con el ingeniero.