IA local para empresas: Ollama sin transferencia de datos — 2026

Circuito cerrado con Ollama: IA sobre documentos sin transferencia de datos externa

Un centro médico quiere implementar un asistente de IA para responder a los pacientes basándose en protocolos. Un bufete de abogados, para buscar en expedientes de clientes. Una institución estatal, para trabajar con documentos oficiales. Los tres comparten una misma pregunta: "¿Nuestros datos permanecerán con nosotros?". Con los servicios en la nube, la respuesta siempre es "no del todo". Con un circuito cerrado, sí, técnica y legalmente. Respuesta corta: un circuito cerrado es un asistente de IA donde todos los componentes (modelo, base de datos, documentos) residen en su servidor. Ninguna consulta se transmite a proveedores de IA externos.

⚡ En resumen

🏠 Circuito cerrado: LLM + modelo de embedding + base de datos vectorial: todo en su servidor, los datos no se comparten con servicios de IA externos
🦙 Ollama: una herramienta que permite ejecutar un potente modelo lingüístico en un servidor normal; se implementa llave en mano sin conocimientos técnicos por su parte
📊 Modelos de 2026: Llama 3.3 70B se acerca a GPT-4 en calidad de respuestas sobre documentos de negocio, y funciona completamente en su servidor
🌍 Multilingüismo: ucraniano, inglés y alemán: los modelos modernos entienden los tres sin configuración adicional
💰 Coste: servidor para circuito cerrado, desde 80 €/mes en la nube o desde 2.000 € pago único para hardware propio
🏥 Obligatorio para: medicina, abogados, entidades públicas, RR.HH. y cualquier persona con requisitos de GDPR y confidencialidad
👇 A continuación, un análisis completo de la arquitectura, cifras de rendimiento y un plan paso a paso para empresas

📚 Contenido

¿Qué es un circuito cerrado en el contexto de la IA?
¿Cómo funciona Ollama y por qué es adecuado para entornos aislados?
¿Qué modelos están disponibles localmente: comparación y recomendaciones por sector?
Multilingüismo: cómo los modelos locales funcionan con ucraniano, inglés y alemán
Arquitectura: servidor + pgvector + Ollama sin transferencia de datos externa
Rendimiento del modelo local vs. GPT-4o: cifras reales
Coste del hardware y el servidor: cuánto cuesta un circuito cerrado
Para quién el circuito cerrado es obligatorio y no opcional
Plan de implementación paso a paso
Preguntas frecuentes
Conclusiones
¿Quiere implementar un circuito cerrado?

¿Qué es un circuito cerrado en el contexto de la IA?

Un circuito cerrado es un modo de funcionamiento de un sistema de IA donde todos los componentes se implementan en su servidor y ninguna consulta se transmite a servicios de IA externos. Ni los documentos, ni las preguntas de los usuarios, ni las respuestas del modelo salen de su infraestructura.

Para entender qué es un circuito cerrado, comparemos con la forma en que la mayoría de las empresas utilizan la IA actualmente. La diferencia existe y tiene un impacto directo en su responsabilidad GDPR.

IA en la nube: un empleado hace una pregunta → el texto de la pregunta y un fragmento del documento se transmiten a los servidores de OpenAI o Notion en EE. UU. → el modelo lo procesa allí → la respuesta se devuelve. Durante este tiempo, sus datos han estado en un servidor ajeno, en los registros del proveedor y potencialmente accesibles a su personal técnico. Para empresas con contratos de clientes, datos médicos o documentación de personal, este no es un riesgo abstracto, sino un problema legal concreto.

Circuito cerrado: un empleado hace una pregunta → la consulta se procesa en su servidor → el modelo local genera una respuesta → la respuesta se devuelve. Todo el proceso de IA ocurre dentro de su servidor. Ni OpenAI, ni Google, ni ningún otro proveedor tiene acceso a su consulta.

Una aclaración importante: un "circuito cerrado" no significa que el servidor esté físicamente aislado de Internet. Sus empleados y clientes se conectan al sistema a través de canales normales: un bot de Telegram, un chat web en el sitio. Pero el procesamiento de IA se realiza exclusivamente en su servidor, sin transmitir datos a servicios externos.

Tres niveles de aislamiento: ¿cuál elegir para su negocio?

No todos necesitan el máximo nivel de aislamiento. En AskYourDocs elegimos el nivel junto con el cliente según el sector, los requisitos normativos y el presupuesto:

Nivel 1: Modo híbrido. Documentos y base de datos vectorial en su servidor. Para generar la respuesta se utiliza un LLM externo (OpenAI o Mistral a través de API), pero solo se transmiten fragmentos de texto anonimizados sin nombres de archivo ni metadatos. Adecuado para la mayoría de las empresas sin requisitos normativos estrictos. El menor coste de implementación.

Nivel 2: Circuito cerrado con LLM local. Todos los componentes en su servidor, incluido el modelo de lenguaje a través de Ollama. Ninguna consulta sale al exterior. Esta es nuestra opción estándar para medicina, abogados, RR.HH. y finanzas, donde incluso el texto anonimizado no debe abandonar el perímetro. Implementamos este nivel en la mayoría de los proyectos.

Nivel 3: Aislamiento total de red (air-gap). Servidor sin conexión a Internet en absoluto. El modelo y todas las dependencias se instalan desde un medio físico. Se utiliza en estructuras estatales y el sector de defensa, donde cualquier tráfico de red es un riesgo. Requiere una planificación técnica separada.

Para la gran mayoría de las tareas empresariales, recomendamos el Nivel 2: ofrece una garantía técnica completa de que no se transmitirán datos a servicios de IA externos, con requisitos razonables para el servidor y un coste de implementación moderado.

¿En qué se diferencia un circuito cerrado de un simple "self-hosted"?

Una distinción importante que a menudo se confunde: "self-hosted" puede significar que sus documentos se almacenan en su ubicación, pero la generación de respuestas todavía se realiza a través de un LLM externo. Esto es el Nivel 1 (híbrido). Un circuito cerrado es cuando tanto el almacenamiento, la generación como el embedding ocurren exclusivamente en su servidor. La diferencia es fundamental para los sectores regulados: incluso un fragmento anonimizado de un contrato o protocolo transmitido a una API externa es una transferencia de datos legalmente problemática.

Más detalles sobre la diferencia y las implicaciones legales en el artículo IA Self-hosted vs. en la nube: ¿dónde permanecen sus datos?.

¿Cómo funciona Ollama y por qué es adecuado para entornos aislados?

Ollama es un programa que permite ejecutar un potente modelo de IA en un servidor normal. Resuelve automáticamente todas las complejidades técnicas: descarga del modelo, optimización para el hardware, inicio del servidor API. No es necesario instalar nada por parte del cliente: implementamos Ollama en el servidor y usted obtiene una interfaz de chat lista para usar.

Antes de la aparición de Ollama, ejecutar un modelo de lenguaje local era un verdadero desafío técnico: incluso un desarrollador experimentado podía pasar un día solo para que el modelo se iniciara. Ahora esto se resuelve dentro de la implementación llave en mano. Para entender las siguientes secciones, es útil saber cómo está configurado técnicamente.

¿Qué hace Ollama? Capacidades clave

Formato GGUF y cuantización. Ollama utiliza un formato comprimido donde el modelo ocupa 2-4 veces menos memoria con una pérdida mínima de calidad. Llama 3.3 70B en formato completo son aprox. 140 GB. En formato Q4_K_M, solo aprox. 43 GB con una degradación de calidad del 2-3%. En la práctica, para tareas empresariales de RAG, esta diferencia es imperceptible.

Optimización automática para el hardware. Ollama detecta la presencia de GPU y distribuye la carga automáticamente. Si no hay GPU, el modelo se ejecuta en CPU, más lento pero estable. Esto es importante: no está atado a un hardware específico.

API compatible con OpenAI. Ollama inicia un servidor API local con una interfaz idéntica a la de la API de OpenAI. Para migrar de OpenAI a Ollama, en el código solo se cambia una variable: la URL del servidor. No se requiere ninguna reelaboración de la lógica del sistema.

Soporte para modelos de embedding. Ollama soporta modelos de embedding locales: nomic-embed-text, mxbai-embed-large, BGE-M3. La vectorización de documentos también se realiza localmente: ninguna consulta externa, incluso al cargar nuevos archivos.

Embedding sin transferencia de datos externa: por qué es importante

Antes de que la IA pueda responder preguntas, debe "leer" sus documentos. Cada fragmento se convierte en un conjunto de números (un vector) que codifica su significado. Esto es precisamente lo que permite a la IA encontrar una respuesta, incluso si la pregunta no contiene ninguna palabra del documento.

Para las empresas, una pregunta crítica es: ¿dónde se realiza esta vectorización? Si es a través de la API de OpenAI, sus documentos (incluso fragmentos) se transmiten a servidores estadounidenses. Para la medicina y los abogados, esto ya constituye una transferencia de categorías especiales de datos sin base legal.

Opción	Modelo de embedding	Dónde se realiza	Coste	¿Circuito cerrado?
Local (Ollama)	nomic-embed-text, mxbai-embed-large, BGE-M3	Su servidor	0 €	✅ Sí
En la nube (OpenAI)	text-embedding-3-small	Servidores de OpenAI (EE. UU.)	0,02 $ / 1M tokens	❌ No: los fragmentos de documentos van a la API
Híbrido	Embedding local + LLM externo	Embedding local, generación externa	Aprox. 3-15 $/mes	⚠️ Aislamiento parcial

Para un circuito cerrado, utilizamos embeddings locales a través de Ollama. mxbai-embed-large es la opción óptima para la mayoría de las tareas empresariales: vectores de 1024 dimensiones, buena calidad en documentos en inglés y mixtos. Para documentos predominantemente en ucraniano o alemán, recomendamos BGE-M3: entrenado en más de 100 idiomas con calidad equitativa para latín y cirílico.

¿Por qué Ollama es adecuado para entornos confidenciales?

Funcionamiento sin conexión del componente de IA tras la implementación: el modelo se descarga una vez; posteriormente, el procesamiento de IA no requiere conexión a Internet con servicios externos.
Sin telemetría: Ollama no envía datos sobre consultas o uso al exterior.
Control de versiones del modelo: se fija una versión específica y no cambia sin su conocimiento, a diferencia de las APIs de la nube donde el proveedor puede actualizar el modelo sin previo aviso.
Implementación con Docker: Ollama funciona en un contenedor Docker, lo que facilita la copia de seguridad, la actualización y la restauración tras fallos.

¿Qué modelos están disponibles localmente: comparación y recomendaciones por sector?

En 2026, los modelos locales a través de Ollama ofrecen una calidad que hace dos años solo estaba disponible a través de GPT-4. Llama 3.3 70B, Mistral Small 3, Gemma 4, Qwen3: todos están disponibles localmente y son adecuados para diferentes tareas empresariales y presupuestos de hardware.

La elección de un modelo para un circuito cerrado es un equilibrio entre tres parámetros: calidad de las respuestas, requisitos del servidor y velocidad. Un modelo más pequeño responde más rápido pero con menor precisión. Uno más grande es más preciso pero más lento y requiere una GPU más potente. Seleccionamos el modelo según el escenario específico del cliente: no hay una "única opción correcta" para todos.

Modelos actuales para empresas a través de Ollama en 2026

Modelo	Tamaño (Q4)	VRAM	Velocidad	Puntos fuertes	Comando
Llama 3.3 70B	43 GB	48 GB	~15-25 t/s (GPU)	Mayor calidad entre los locales, textos legales y médicos, contexto de 128K	`ollama run llama3.3:70b`
Gemma 4 26B (MoE)	~15 GB	16 GB	~35-40 t/s (GPU)	Nivel GPT-4 con requisitos modestos de VRAM gracias a la arquitectura MoE, multimodal	`ollama run gemma4:26b`
Mistral Small 3 (24B)	14 GB	16 GB	~30 t/s (GPU)	La mejor calidad en idiomas de la UE (DE/FR), textos médicos y legales, Apache 2.0	`ollama run mistral-small3`
Qwen3 14B	9 GB	12 GB	~35 t/s (GPU)	Mejor multilingüismo, incluido el ucraniano, compacto y rápido	`ollama run qwen3:14b`
Llama 3.2 8B	5 GB	6 GB	~45-50 t/s (GPU), ~8 t/s (CPU)	Requisitos mínimos de hardware, inicio rápido, FAQs y reglamentos sencillos	`ollama run llama3.2:8b`

La velocidad se indica para NVIDIA RTX 4090 (24 GB VRAM). Llama 3.3 70B requiere una GPU de 48+ GB o distribución entre GPU y RAM.

¿Qué modelo elegir según el sector?

Bufetes de abogados y notarios. Requieren alta precisión y un contexto largo para el análisis de contratos. Recomendamos Llama 3.3 70B: 128K tokens de contexto permiten procesar un contrato largo completo sin dividirlo en partes, lo cual es crucial para el análisis legal. Si el servidor es débil, Mistral Small 3 (24B) como compromiso: menores requisitos de VRAM con buena calidad en textos legales.

Centros médicos y clínicas. La precisión al trabajar con protocolos y terminología médica es prioritaria. Recomendamos Llama 3.3 70B o Gemma 4 26B: este último ofrece calidad a nivel GPT-4 con requisitos de VRAM similares a los de una tarjeta de 16 GB. Para clínicas con documentos multilingües (UA + DE), Qwen3 14B.

RR.HH. y bases de conocimiento corporativas. Reglamentos, procedimientos, FAQs: suelen ser textos estructurados sencillos donde no se requiere una calidad extremadamente alta. Recomendamos Llama 3.2 8B o Gemma 4 26B: el primero, hardware mínimo; el segundo, mayor calidad con requisitos de VRAM moderados.

Distribuidores y B2B con amplios catálogos. Las especificaciones técnicas y los catálogos requieren una extracción precisa de datos. Recomendamos Mistral Small 3 (24B): entiende bien la terminología técnica, respuesta rápida, no requiere una GPU de alta gama.

Entidades estatales. Máximo aislamiento, fuente del modelo verificada. Recomendamos Llama 3.3 70B de Meta: licencia abierta, fuente pública, amplio soporte de la comunidad y auditorías de seguridad independientes.

Multilingüismo: cómo los modelos locales funcionan con ucraniano, inglés y alemán

Los modelos locales modernos entienden ucraniano, inglés y alemán sin configuración adicional. El nivel de calidad varía: el inglés es siempre el mejor, el cirílico depende del modelo. La elección correcta del modelo y la estrategia de embedding resuelve esta diferencia para las tareas empresariales.

Para las empresas en los mercados ucraniano y DACH, el multilingüismo no es una opción, es un requisito. Los documentos pueden ser en diferentes idiomas, los clientes preguntan a su manera, los informes se preparan para socios. Esta es la situación real que consideramos al seleccionar un modelo.

Inglés: idioma base, calidad estable en todos los modelos

Todos los modelos grandes se entrenaron predominantemente con datos en inglés. La calidad de las respuestas sobre documentos en inglés es excelente para todos los modelos en nuestra tabla. Si sus documentos son principalmente en inglés, puede elegir el modelo basándose únicamente en los requisitos de hardware y velocidad.

Ucraniano: buena calidad con la elección correcta

La situación con el ucraniano ha mejorado considerablemente en 2025-2026. Llama 3.3, Qwen3 y Mistral Small 3 contienen una parte significativa de datos en ucraniano.

Llama 3.3 70B: entiende y responde bien en ucraniano. Pequeños errores gramaticales no afectan al contenido de la respuesta.
Qwen3 14B: el mejor modelo multilingüe de su clase, incluido el cirílico. Lo recomendamos cuando los documentos son predominantemente en ucraniano.
Llama 3.2 8B: entiende el ucraniano pero puede mezclar idiomas en la respuesta; requiere una instrucción explícita en el prompt del sistema.
Embedding para cirílico: para una calidad máxima en documentos ucranianos, recomendamos BGE-M3, entrenado en más de 100 idiomas con calidad equitativa para latín y cirílico.

Alemán: calidad estable para el mercado DACH

El alemán está representado en los datos de entrenamiento de la mayoría de los modelos de manera mucho mejor que el ucraniano. Llama 3.3, Mistral y Qwen3 responden en alemán gramaticalmente correcto y con confianza.

Mistral Small 3 (24B): especialmente fuerte en alemán; Mistral AI (empresa francesa) prestó considerable atención a los idiomas de la UE. Nuestra elección para clientes austriacos y alemanes con documentos monolingües en alemán.
La terminología médica y legal en alemán: todos los modelos líderes la procesan correctamente.

Búsqueda interlingüística: pregunta en un idioma, documentos en otro

Situación empresarial típica: parte de los documentos están en inglés, parte en ucraniano, y las preguntas llegan en cualquier idioma. Aquí, el factor decisivo es el modelo de embedding, no el LLM.

BGE-M3 es nuestra recomendación para archivos multilingües: una consulta en ucraniano encuentra fragmentos relevantes de documentos en inglés y viceversa. Esto funciona porque un modelo de embedding multilingüe coloca "contrato" y "contract" en puntos similares del espacio vectorial. Se ejecuta localmente a través de Ollama: ollama pull bge-m3.

Recomendación práctica para empresas UA/DE

Idioma de los documentos	LLM recomendado	Embedding recomendado
Predominantemente inglés	Llama 3.3 70B o Gemma 4 26B	mxbai-embed-large
Predominantemente ucraniano	Qwen3 14B o Llama 3.3 70B	BGE-M3
Predominantemente alemán	Mistral Small 3 (24B)	mxbai-embed-large o BGE-M3
Mixto (UA + EN + DE)	Qwen3 14B o Llama 3.3 70B	BGE-M3 (mejor multilingüismo)

Arquitectura: Servidor + pgvector + Ollama sin envío de datos a servicios de IA externos

El circuito cerrado consta de cuatro componentes: un servidor en la UE, PostgreSQL con pgvector para almacenar documentos y vectores, Ollama para ejecutar LLM y embeddings, y una interfaz de chat o bot de Telegram para el acceso de los usuarios. Los cuatro están en el mismo servidor. El cliente no instala nada, simplemente utiliza el chat preconfigurado.

En AskYourDocs explicamos la arquitectura no para que el cliente entienda los detalles técnicos, sino para que pueda responder con confianza a las preguntas de un regulador o abogado: "¿Dónde se almacenan los datos? ¿Quién tiene acceso a ellos? ¿Salen los datos de la empresa?" Aquí está esa respuesta en palabras sencillas.

Cuatro componentes: qué, dónde y por qué

1. Servidor en la UE. Una máquina física o virtual en un centro de datos o en su oficina. Todos los demás componentes residen en él. Para el cumplimiento del GDPR, el servidor se encuentra en la UE y está gestionado por una empresa no estadounidense (Hetzner, OVH). Para un aislamiento máximo, un servidor físico directamente en sus instalaciones.

2. PostgreSQL + pgvector. Una base de datos donde se almacenan sus documentos en dos formatos: texto original (para mostrar la fuente en la respuesta) y representaciones vectoriales (para búsqueda). pgvector es una extensión de PostgreSQL que añade búsqueda vectorial. Sin servicios adicionales, sin bases de datos en la nube, solo un servidor PostgreSQL en su hardware.

3. Ollama. Ejecuta el LLM y el modelo de embedding localmente. Recibe la pregunta, encuentra fragmentos relevantes a través de pgvector, los pasa al modelo y devuelve la respuesta. Todo el proceso se realiza dentro de su servidor, sin ninguna consulta externa a IA.

4. Interfaz de chat o bot de Telegram/WhatsApp. Lo que ve y utiliza su empleado o cliente. La consulta llega aquí, se envía al servidor, se procesa localmente y se devuelve. La integración con Telegram y WhatsApp funciona a través de su Bot API, pero el procesamiento de IA en sí mismo se realiza en su servidor.

Cómo se mueven los datos: paso a paso

Al cargar documentos (una vez):

Usted o su administrador carga un PDF o Word a través del panel de administración.
El sistema divide el documento en fragmentos (de ~500 palabras cada uno).
Ollama, a través del modelo de embedding local, convierte cada fragmento en un vector.
El texto y el vector se almacenan en PostgreSQL + pgvector en su servidor.
El archivo original se guarda en el disco del servidor.

En ningún paso los datos salen de su servidor.

Al responder una pregunta (cada vez):

Un empleado o cliente hace una pregunta en el chat o bot de Telegram.
La pregunta se convierte en un vector a través del modelo de embedding local.
pgvector encuentra los 3-5 fragmentos más relevantes de sus documentos.
Los fragmentos encontrados, junto con la pregunta, se envían al LLM local (Ollama).
El modelo genera una respuesta con un enlace a la fuente y la devuelve al usuario.

Todo el proceso se realiza dentro del servidor. Tarda entre 3 y 15 segundos, dependiendo del modelo y del hardware. Ningún paso requiere un servicio de IA externo.

Requisitos mínimos del servidor

Componente	Mínimo (inicio)	Óptimo	Para Llama 3.3 70B
RAM	16 GB	32 GB	64 GB
VRAM (GPU)	Solo CPU (lento)	GPU de 16 GB	GPU de 48 GB
Disco (SSD)	100 GB	200 GB	500 GB
CPU	4 núcleos	8 núcleos	16 núcleos
SO	Ubuntu 22.04 LTS	Ubuntu 22.04 LTS	Ubuntu 22.04 LTS

Nuestra recomendación para empezar: para la mayoría de las tareas empresariales (hasta 1000 archivos, 50-200 consultas al día), bastan Llama 3.2 8B o Gemma 4 26B; funcionan en un servidor con 16-32 GB de RAM y una GPU de 16 GB o sin GPU (más lento pero estable). Llama 3.3 70B es necesaria cuando la calidad de las respuestas en documentos legales o médicos complejos es un requisito crítico.

Rendimiento del modelo local vs. GPT-4o: cifras reales

Llama 3.3 70B es el análogo local más cercano a GPT-4o en calidad para tareas RAG. En la mayoría de los escenarios empresariales, la diferencia es imperceptible. La principal diferencia es la velocidad: GPT-4o responde en 2-4 segundos, el modelo local en 5-20 segundos, dependiendo de la configuración.

La pregunta que escuchamos de cada directivo es: "Si implementamos un modelo local, ¿las respuestas serán peores que las de ChatGPT?". La respuesta depende de la tarea, y para la mayoría de los escenarios empresariales, es positiva.

Dónde los modelos locales no son inferiores a GPT-4o

Para RAG (responder preguntas sobre sus documentos), la diferencia entre Llama 3.3 70B y GPT-4o es mínima. La razón es simple: en RAG, el modelo no "inventa" la respuesta, la formula basándose en los fragmentos recuperados. Con una recuperación de calidad, incluso un modelo más pequeño proporciona respuestas precisas. El "conocimiento general" del modelo es casi irrelevante aquí.

Búsqueda de un punto específico en un contrato o protocolo: Llama 3.3 70B ≈ GPT-4o
Extracción de información estructurada: encontrar partes del contrato, fecha, condiciones; el modelo local se maneja igual de bien.
Resumen de documentos: resumen conciso — calidad prácticamente equivalente.
FAQ sobre normativas y procedimientos: "¿Cuál es el procedimiento para un viaje de negocios?" — Llama 70B local da respuestas igualmente precisas.

Dónde GPT-4o tiene una ventaja real

Análisis complejo de múltiples documentos: síntesis de una posición legal a partir de varias fuentes, búsqueda de contradicciones entre documentos — GPT-4o es más preciso.
Generación de nuevos documentos "desde cero": redacción de memorandos o informes — GPT-4o es de mayor calidad.
Matemáticas complejas y cadenas lógicas: cálculos financieros — los modelos en la nube son más precisos.

Si estos escenarios existen en su negocio, recomendamos un enfoque híbrido: el 80-90 % de las consultas se procesan localmente, el análisis complejo sin datos sensibles se realiza a través de una API en la nube.

Cifras reales de velocidad

Modelo	Tiempo del primer token	Velocidad de generación	Respuesta típica (200 palabras)
GPT-4o (API de OpenAI)	0.5–1 seg	~60 t/s	2–4 seg
Gemma 4 26B (RTX 4090)	0.5–1 seg	~35–40 t/s	5–7 seg
Mistral Small 3 (RTX 4090)	0.5–1 seg	~30 t/s	6–8 seg
Llama 3.2 8B (RTX 4090)	0.3–0.5 seg	~45 t/s	4–5 seg
Llama 3.3 70B (RTX 4090)	1–2 seg	~20 t/s	10–15 seg
Llama 3.3 70B (solo CPU)	5–10 seg	~3–5 t/s	60–80 seg

Conclusión práctica: 10-15 segundos de Llama 3.3 70B en GPU son aceptables para el 80% de los escenarios corporativos. Un gerente que antes pasaba 20 minutos buscando manualmente en documentos obtiene una respuesta en 15 segundos, lo que supone una aceleración 80 veces mayor. La diferencia entre 15 y 3 segundos es insignificante en este contexto. Para un chat público donde la velocidad de respuesta es importante, recomendamos Gemma 4 26B o Mistral Small 3: responden en 5-8 segundos con una calidad suficiente para preguntas frecuentes y procedimientos.

Nuestras pruebas en documentos empresariales reales

Probamos Llama 3.3 70B y GPT-4o en el mismo conjunto: 400 documentos legales (contratos, actos normativos). Tareas: búsqueda de un punto específico, verificación de la existencia de una cláusula, extracción de las partes del contrato. Resultado: Llama 3.3 70B — 91% de respuestas correctas, GPT-4o — 94%. La diferencia del 3% es aceptable para la mayoría de las aplicaciones empresariales y se ve completamente compensada por la ausencia de riesgo GDPR y los costos API nulos.

Costo del hardware y del servidor: cuánto cuesta un circuito cerrado

Un circuito cerrado cuesta más que un modo híbrido con LLM externo, pero significativamente menos que los planes empresariales en la nube con residencia de datos. Para la mayoría de las empresas medianas en sectores regulados, el costo total anual es comparable o inferior a las alternativas en la nube, si se tiene en cuenta el costo real, incluidos los gastos legales y los riesgos GDPR.

Opción 1: VPS en la nube con GPU (recomendado para empezar)

La forma más sencilla es alquilar un VPS con GPU a un proveedor de nube en la UE. Ventajas: no se necesita hardware propio, el proveedor se encarga del equipamiento, fácil escalabilidad. Importante para GDPR: utilizamos exclusivamente proveedores bajo la jurisdicción de la UE, fuera del alcance de la Ley CLOUD de EE. UU. No recomendamos Vast.ai y marketplaces de GPU similares para datos empresariales: allí no se garantiza la identidad del operador del nodo ni la ubicación real de los datos.

Configuración	Modelo	Proveedor (UE) ⭐	Costo/mes	Apto para
Solo CPU, 32 GB RAM	Llama 3.2 8B, Qwen3 14B	Hetzner CX, OVH VPS	30-60 €	Pequeñas empresas, hasta 100 consultas/día
GPU de 16 GB, 32 GB RAM	Mistral Small 3, Gemma 4 26B	Hetzner GPU, OVHcloud GPU	80-150 €	Empresas medianas, hasta 500 consultas/día
GPU de 24 GB, 64 GB RAM	Llama 3.3 70B Q4 (parcialmente CPU)	Hetzner GPU, Scaleway GPU	200-350 €	Empresas legales y médicas, calidad crítica
GPU de 48+ GB o 2×GPU, 128 GB RAM	Llama 3.3 70B Q4 (totalmente GPU)	Hetzner Dedicated GPU	500-800 €	Grandes empresas, 1000+ consultas/día

⭐ Todos los proveedores de la tabla tienen jurisdicción UE y están fuera del alcance de la Ley CLOUD de EE. UU. Hetzner (Alemania), OVHcloud (Francia), Scaleway (Francia) tienen certificación ISO 27001.

Opción 2: Servidor físico propio (aislamiento máximo)

Si los datos no pueden salir de sus instalaciones en absoluto (requisito de air-gap) o si desea excluir por completo la dependencia de un proveedor de nube, un servidor propio en la oficina. Implementamos Ollama y toda la pila en su hardware, y usted obtiene un sistema que nunca se conecta físicamente a servicios de IA externos.

Configuración	Costo único	Mensual (electricidad)	Vida útil
Servidor CPU, 64 GB RAM, SSD 500 GB	1.500–2.500 €	15–25 €	5–7 años
GPU de 16 GB + Servidor CPU, 64 GB RAM	3.000–4.500 €	30–50 €	4–6 años
GPU de 24 GB + Servidor CPU, 128 GB RAM	5.000–7.000 €	50–80 €	4–5 años

Comparación de costos totales anuales

	IA en la nube (SaaS Empresarial)	Modo híbrido AskYourDocs	Circuito cerrado AskYourDocs
Implementación	0 $ (SaaS)	desde 500 $	desde 500 $
Servidor al año	2.000–5.000 $+ (Empresarial)	180–360 € (VPS sin GPU)	960–4.200 € (VPS con GPU)
API LLM al año	Incluido en el plan	30–180 $	0 $ (local)
Gastos legales (DPA, DPIA, TIA)	1.000–3.000 $	Mínimos	0 $
Riesgo GDPR	Presente	Mínimo	Técnicamente ausente
Total al año	3.000–8.000 $+	~800–1.100 $	~1.500–5.200 $

Nuestra conclusión sobre los costos: para empresas sin requisitos regulatorios estrictos, el modo híbrido es el inicio más económico. Un circuito cerrado con GPU cuesta más, pero para medicina, abogados y finanzas es la única opción donde el riesgo GDPR está técnicamente ausente. Una sola solicitud de regulación o multa fácilmente superará la diferencia en el costo del servidor durante varios años. Siempre calculamos el costo total junto con el cliente, incluyendo el aspecto legal, antes de recomendar un nivel de aislamiento específico.

Para quién es obligatorio y no opcional el circuito cerrado

Existen industrias donde el circuito cerrado no es una cuestión de preferencia o coste, sino un requisito legal. Si su negocio se encuentra en uno de estos escenarios, la IA en la nube con servidores en EE. UU. o en plataformas de mercado (marketplace) es jurídicamente inaceptable, independientemente del precio o la calidad del producto.

En AskYourDocs observamos un patrón: la mayoría de los clientes que eligen el circuito cerrado no lo hacen por paranoia, sino por una exigencia regulatoria o reputacional concreta. Aquí es cuando el circuito cerrado deja de ser una opción para convertirse en la única solución aceptable.

Centros médicos y clínicas

Los datos médicos son una categoría especial bajo el Artículo 9 del GDPR, con el nivel de protección más alto. Cualquier transferencia de historiales médicos, consultas de pacientes o protocolos de tratamiento a un tercero sin consentimiento explícito y base legal constituye una infracción directa. Incluso una pregunta como "¿Cómo prepararse para la quimioterapia?" revela una patología oncológica y son datos del Artículo 9. En Austria, el secreto médico está protegido por la legislación penal (Ärztegesetz § 54), y la Datenschutzbehörde ha establecido el estándar más estricto de la UE en cuanto a la transferencia de datos a EE. UU.

Nuestra postura: para los centros médicos, no implementamos un modo híbrido, solo circuito cerrado en servidores de la UE. Más detalles en el artículo IA en medicina: cómo procesar datos médicos sin infringir la ley.

Bufetes de abogados y notarios

El secreto profesional del abogado es un principio legal fundamental. Cargar materiales de un caso de cliente en ChatGPT o Notion AI sin el consentimiento explícito del cliente viola el secreto profesional, independientemente de si alguien realmente ha visto esos datos. El CCBE (Consejo de la Abogacía Europea) advirtió explícitamente en 2025 sobre los sistemas GenAI en la nube. Un tribunal federal estadounidense dictaminó en febrero de 2026 que los materiales preparados a través de una herramienta de IA pública no están protegidos por el privilegio del secreto profesional del abogado.

Nuestra postura: el circuito cerrado elimina la propia posibilidad de "transferencia a terceros"; el secreto profesional se protege arquitectónicamente, no solo en papel. Más detalles en el artículo IA para bufetes de abogados: seguridad de los datos del cliente.

Instituciones gubernamentales y municipales

El procesamiento de datos personales de ciudadanos en servidores de empresas estadounidenses está de facto prohibido en la mayoría de los países de la UE debido a los requisitos de soberanía de datos. La CLOUD Act permite a las fuerzas del orden estadounidenses exigir acceso a datos en AWS, Azure y Google Cloud, independientemente de la ubicación física de los servidores. Para la mayoría de las estructuras gubernamentales, el circuito cerrado en infraestructura nacional o de la UE es la única opción; para algunas, un aislamiento completo de red (air-gap).

Instituciones financieras y aseguradoras

BaFin (Alemania) y FMA (Austria) tienen requisitos claros para los canales de procesamiento de datos financieros y la aprobación obligatoria al externalizar a terceros proveedores. Los expedientes crediticios, las cuentas de clientes y los contratos de seguros no pueden transferirse a servidores fuera de la jurisdicción designada sin el permiso del regulador. El circuito cerrado en servidores de la UE resuelve esto de forma sistémica, sin un proceso regulatorio adicional.

Departamentos de RR. HH. y procesamiento de datos de empleados

Los datos personales de los empleados —evaluaciones, salarios, exámenes médicos, expedientes disciplinarios— están sujetos a requisitos de protección elevados. Los empleados no han dado su consentimiento para la transferencia de sus datos a OpenAI o Notion. Cada consulta de un gerente de RR. HH. con estos datos a través de IA en la nube es una posible violación del Artículo 6 del GDPR. El circuito cerrado elimina este problema arquitectónicamente.

Empresas con requisitos de clientes B2B o socios

Sus clientes o socios pueden exigir explícitamente una confirmación de que sus datos no se procesan en servidores de terceros. Un certificado ISO 27001 o SOC 2 de un proveedor de IA en la nube no es tal confirmación. La documentación técnica del circuito cerrado y la garantía arquitectónica de la ausencia de solicitudes externas sí lo son.

Más detalles sobre todos estos escenarios y requisitos legales en el artículo 6 riesgos de fuga de datos a través de IA: cómo proteger su negocio en 2026.

Cómo desplegamos el circuito cerrado: un plan paso a paso

El despliegue dura de 5 a 7 días laborables. Usted solo necesita: documentos en formato de texto y 30 minutos para la prueba final. Todo lo demás corre por nuestra cuenta.

Este plan está escrito para un director de empresa, no para un desarrollador. No se requiere el departamento de TI de su lado.

Paso 1: Preparación de documentos — su tarea (1-2 días)

Antes de desplegar el sistema, los documentos deben estar listos para cargar:

Formato: PDF con capa de texto (no escaneos), Word (DOCX), Google Docs o TXT. Los PDF escaneados sin OCR no los lee la IA, deben convertirse previamente.
Actualidad: solo versiones actuales. Los reglamentos obsoletos darán respuestas obsoletas; solicitamos que verifiquen la actualidad antes de cargar.
Volumen para empezar: 50-200 archivos son suficientes. El sistema funciona igual de bien con 10 que con 10.000 documentos.

Más detalles sobre la preparación de documentos en el artículo Cómo preparar documentos para un asistente de IA.

Paso 2: Selección y configuración del servidor — nuestra tarea (1 día)

Elegimos la configuración junto con usted: cantidad de documentos, carga (solicitudes por día), requisitos de calidad de las respuestas y nivel de GDPR.

Para la mayoría de las empresas: VPS con GPU en Hetzner (Núremberg o Finlandia) u OVHcloud (Estrasburgo). Un servidor en la UE gestionado por una empresa no estadounidense resuelve la conformidad con GDPR de base.
Para un aislamiento máximo: servidor físico en su oficina o centro de datos.
Instalación de Ubuntu, Docker, Ollama, PostgreSQL + pgvector: proceso automatizado, 2-3 horas.

Paso 3: Carga de modelos — nuestra tarea (varias horas)

Carga de LLM a través de Ollama según la configuración elegida (por ejemplo, Llama 3.3 70B Q4 — ~43 GB, 30-60 minutos).
Carga del modelo de embedding (nomic-embed-text o BGE-M3 — ~0.5–1.5 GB).
Configuración del prompt del sistema: idioma de las respuestas, formato, límites (responder exclusivamente basándose en sus documentos).
Después de la configuración, el procesamiento de IA no requiere servicios de IA externos. Telegram o un chat web para el acceso de los usuarios se conectan a través de sus protocolos estándar.

Paso 4: Carga y vectorización de documentos — nuestra tarea (1-4 horas)

Carga de sus documentos a través del panel de administración o un script automatizado.
El sistema divide automáticamente cada documento en fragmentos, los vectoriza a través de un modelo de embedding local y los almacena en pgvector.
Tiempo de procesamiento: ~100 documentos en 15-30 minutos en un servidor estándar.

Paso 5: Configuración de la interfaz — nuestra tarea (1 día)

Chat web para incrustar en su sitio web (una línea de código).
Bot de Telegram o WhatsApp para uso interno del equipo.
Filtro de origen: el chat solo está disponible desde sus dominios IP permitidos.
Configuración del registro de solicitudes para análisis y auditoría (opcional).

Paso 6: Pruebas y entrega — juntos (30 minutos)

Usted plantea 10-15 preguntas reales sobre sus documentos y verifica la calidad de las respuestas.
Ajustamos la configuración si la calidad no es satisfactoria, hasta su confirmación.
Entrega de todos los accesos de administrador: servidor, base de datos, panel de administración.
Después de la entrega, ya no tenemos acceso técnico a su servidor. Esto no es una promesa, es una garantía arquitectónica.

Después del lanzamiento: cómo funciona la actualización de documentos

Carga un archivo nuevo o actualizado a través del panel de administración → el sistema lo vectoriza automáticamente → en 2-3 minutos el asistente responde basándose en el nuevo documento. No se necesita departamento de TI. Soporte post-lanzamiento: 30 días incluidos, luego por acuerdo desde $50/mes.

Preguntas frecuentes

¿Puede el sistema funcionar completamente sin servicios de IA externos?

Sí, el procesamiento de IA después de la configuración no requiere ningún servicio de IA externo. Para la integración de Telegram o WhatsApp se utiliza un tráfico mínimo a los servidores del servicio de mensajería, pero no a proveedores de IA (OpenAI, Anthropic, etc.). Si se requiere un aislamiento total de la red (air-gap sin internet en absoluto), el sistema se despliega con una interfaz web en su red local sin ninguna conexión externa.

¿Qué tan difícil es actualizar documentos?

Muy fácil. Carga un documento nuevo o actualizado a través del panel de administración (drag-and-drop) — el sistema lo procesa y vectoriza automáticamente. En 2-3 minutos el asistente responde basándose en el nuevo documento. La versión antigua se reemplaza automáticamente si el nombre es el mismo. No se requieren conocimientos de TI — cualquier administrador puede hacerlo.

¿Qué pasa si el servidor falla?

En el caso de un VPS en la nube (Hetzner, OVH) — reinicio automático a través de Docker, tiempo de inactividad típico de 2-5 minutos. En un servidor físico en la oficina — configuramos el arranque automático al restaurar la energía. Configuramos copias de seguridad automáticas de la base de datos en un disco cifrado externo, en caso de fallo de hardware del servidor.

¿Cuántos usuarios pueden trabajar simultáneamente con el sistema?

Depende del modelo y del hardware. Para Llama 3.2 8B o Gemma 4 26B en una GPU de 16 GB — 5-10 solicitudes simultáneas sin una ralentización perceptible. Para Llama 3.3 70B — 2-3 simultáneas. Para una mayor carga — cola de solicitudes o un servidor más potente. Para la mayoría de las tareas de oficina (100-200 solicitudes al día) la configuración estándar es suficiente.

¿Se puede migrar del modo híbrido a circuito cerrado más tarde?

Sí, y es uno de nuestros escenarios más frecuentes. Las empresas comienzan con el modo híbrido (menor coste inicial) y pasan al circuito cerrado cuando el volumen aumenta o surgen requisitos de GDPR más estrictos. La migración dura 1-2 días: los documentos ya están en el sistema, solo hay que reemplazar el LLM externo por Ollama local y pasar a embedding local. Sin rehacer la lógica de negocio.

Conclusiones

🏠 Circuito cerrado: la única solución donde los datos técnicamente no pueden salir de su perímetro — no por la promesa del proveedor, sino por la arquitectura.
🦙 Ollama: ha hecho que los LLM locales sean accesibles para las empresas — desplegamos llave en mano sin departamento de TI por parte del cliente.
📊 Calidad: Llama 3.3 70B ofrece un 91% de precisión en tareas RAG frente al 94% de GPT-4o — la diferencia del 3% es aceptable y se compensa con la ausencia de riesgo GDPR y cero costes de API.
🌍 Multilingüismo: se admiten ucraniano, inglés y alemán. Para el cirílico — Qwen3 14B y BGE-M3 embedding ofrecen el mejor resultado.
💰 Coste: desde €30/mes (solo CPU) hasta €350/mes (GPU 24 GB) — comparable o más barato que los planes empresariales en la nube si se calculan los costes legales y los riesgos de GDPR.
⏱️ Implementación: 5-7 días laborables llave en mano. Después de la entrega, ya no tenemos acceso a su servidor.
🏥 Obligatorio para: medicina (GDPR Art. 9), abogados (secreto profesional), estructuras gubernamentales (soberanía de datos), finanzas (requisitos BaFin/FMA).

¿Quiere desplegar un circuito cerrado?

Muéstrenos sus documentos y su tarea — en una demo de 30 minutos verá cómo la IA responde a preguntas reales de su archivo. Y dónde se encuentran físicamente sus datos.

Escribir a Telegram →

¿Quiere ver la solución en acción? askyourdocs.org/es/#try-demo

Implementación llave en mano en 5-7 días. Sin departamento de TI. Los datos permanecen en su servidor en la UE. Más detalles sobre GDPR en el artículo GDPR y IA sobre documentos: lo que el negocio debe saber en 2026.

Lea también

⸻

Fuentes: Ollama Model Library · Best Ollama Models: Performance Comparison · Local AI Models Directory 2026 · The State of Local LLMs 2025–2026 · ¿Qué son los Embeddings?: Cómo la IA entiende el significado y no solo las palabras

Circuito cerrado con Ollama: IA sobre documentos sin transferencia de datos externa