Seguridad de datos — IA sin filtraciones

Закритий контур з Ollama: AI на документах без інтернету 2026

Vistas: 109 Publicado: 22.04.2026
🇺🇦 UK 🇺🇸 EN 🇩🇪 DE 🇪🇸 ES
Закритий контур з Ollama: AI на документах без інтернету 2026

Медичний центр хоче впровадити AI-асистента для відповідей пацієнтам на основі протоколів. Юридична фірма — для пошуку по клієнтських справах. Державна установа — для роботи зі службовими документами. У всіх трьох одне спільне питання: "Чи залишаться наші дані у нас?" З хмарними сервісами відповідь завжди "не повністю". З закритим контуром — так, технічно і юридично. Коротка відповідь: закритий контур — це AI-асистент де всі компоненти (модель, база даних, документи) знаходяться на вашому сервері. Жоден байт не виходить за межі вашої інфраструктури.

⚡ Коротко

  • 🏠 Закритий контур: LLM + embedding модель + векторна база — все на вашому сервері, інтернет не потрібен після розгортання
  • 🦙 Ollama: інструмент який дозволяє запустити потужну мовну модель на звичайному сервері за 15 хвилин — без технічних знань
  • 📊 Моделі 2026: Llama 3.3 70B за якістю відповідей наближається до GPT-4 — і працює повністю локально
  • 🌍 Мультимовність: українська, англійська і німецька — сучасні моделі розуміють всі три без додаткового налаштування
  • 💰 Вартість: сервер для закритого контуру — від €80/місяць у хмарі або від €2,000 разово для власного заліза
  • 🏥 Обов'язково для: медицини, юристів, держструктур, HR і будь-кого з вимогою GDPR і конфіденційності
  • 👇 Нижче — повний розбір архітектури, цифри продуктивності і покроковий план для бізнесу

📚 Зміст

Що таке закритий контур в контексті AI

Закритий контур — це режим роботи AI-системи де всі компоненти розгорнуті на вашому сервері і жоден запит не виходить за межі вашої інфраструктури. Ні документи, ні питання користувачів, ні відповіді моделі не передаються стороннім сервісам.

Щоб зрозуміти що таке закритий контур — корисно порівняти його з тим як більшість бізнесів використовують AI зараз.

У звичайній схемі хмарного AI: ваш співробітник задає питання → текст питання і фрагмент документа передається на сервери OpenAI або Notion у США → модель там обробляє → відповідь повертається назад. За цей час ваші дані побували на чужому сервері, потенційно в логах, потенційно доступні технічному персоналу провайдера.

У схемі закритого контуру: ваш співробітник задає питання → запит обробляється на вашому сервері → локальна модель генерує відповідь → відповідь повертається. Весь процес відбувається всередині вашого сервера. Інтернет потрібен тільки один раз — при початковому завантаженні моделі. Після цього система може працювати повністю офлайн.

Три рівні ізоляції — яку обрати

Не всім потрібен максимальний рівень ізоляції. Ось три варіанти від менш до більш ізольованого:

Рівень 1: Гібридний режим. Документи і векторна база зберігаються на вашому сервері. Для генерації відповіді використовується зовнішній LLM (OpenAI або Mistral через API) — але до нього передаються тільки анонімізовані текстові фрагменти без назв файлів і метаданих. Ваші документи не залишають сервер, але частина тексту (знеособлена) проходить через API провайдера. Підходить для більшості бізнесів з базовими GDPR-вимогами.

Рівень 2: Закритий контур з локальним LLM. Всі компоненти на вашому сервері — включаючи мовну модель (через Ollama). Жоден запит не виходить назовні. Підходить для медицини, юристів, HR, фінансів — де навіть анонімізований текст не повинен покидати периметр.

Рівень 3: Повна мережева ізоляція. Сервер без доступу до інтернету взагалі — air-gap конфігурація. Модель і всі залежності завантажуються заздалегідь на фізичний носій і встановлюються вручну. Використовується в держструктурах і оборонному секторі де навіть мінімальний мережевий трафік є ризиком.

Ми в AskYourDocs найчастіше розгортаємо Рівень 2 — закритий контур з Ollama. Він забезпечує повну технічну гарантію відсутності витоку і при цьому не вимагає фізичної ізоляції сервера. Для абсолютної більшості бізнес-задач — це оптимальне рішення.

Чим закритий контур відрізняється від "просто self-hosted"

Self-hosted може означати що ваші документи зберігаються у вас — але генерація відповіді все одно йде через зовнішній LLM. Це гібридний режим (Рівень 1). Закритий контур — це коли і зберігання, і генерація, і embedding відбуваються виключно на вашому сервері. Різниця принципова для регульованих галузей де будь-яка передача даних назовні є юридичною проблемою.

Детальніше про різницю між хмарним і self-hosted підходами та їхні юридичні наслідки — у статті Self-hosted AI vs хмарний: де залишаються ваші дані.

Як працює Ollama і чому вона підходить для ізольованих середовищ

Ollama — це програма яка дозволяє запустити потужну AI-модель на звичайному сервері або навіть ноутбуці. Вона автоматично вирішує всі технічні складнощі: завантаження моделі, оптимізація під ваше залізо, запуск API-сервера. Від команди до відповіді — 15 хвилин.

До появи Ollama запустити локальну мовну модель було справжнім технічним випробуванням: компіляція з вихідного коду, налаштування CUDA, вирішення конфліктів залежностей. Навіть досвідчений розробник міг витратити день тільки на те щоб модель запустилась.

Що робить Ollama технічно

Формат GGUF і квантизація. Ollama використовує моделі у форматі GGUF — спеціально стиснутому форматі де модель займає в 2–4 рази менше пам'яті порівняно з оригінальною версією з мінімальною втратою якості. Наприклад Llama 3.3 70B в повному форматі вимагає ~140 GB пам'яті. У форматі Q4_K_M (4-бітна квантизація) — лише ~43 GB. При цьому якість відповідей знижується приблизно на 2–3% — практично непомітно для бізнес-задач.

Автоматична оптимізація під залізо. Ollama автоматично визначає чи є GPU і скільки пам'яті доступно — і відповідно розподіляє навантаження. Якщо GPU не вистачає — частина обчислень переноситься на CPU. Якщо GPU немає взагалі — модель працює виключно на CPU, повільніше але стабільно.

OpenAI-сумісний API. Ollama запускає локальний API-сервер на порту 11434 з інтерфейсом ідентичним OpenAI API. Це означає що для переходу з OpenAI на Ollama в коді потрібно змінити лише одну змінну — URL сервера. Жодних змін у логіці програми.

Підтримка embedding моделей. Окрім мовних моделей Ollama підтримує локальні embedding моделі — наприклад nomic-embed-text або mxbai-embed-large. Це критично для закритого контуру: векторизація документів теж відбувається локально без будь-яких зовнішніх запитів.

Як документи стають зрозумілими для AI: embedding без інтернету

Перш ніж AI може відповідати на питання по вашим документам — він повинен їх "прочитати" і "запам'ятати". Технічно це відбувається через процес векторизації або embedding: кожен фрагмент документа перетворюється на набір чисел (вектор) який кодує його сенс. Схожі за змістом фрагменти отримують схожі вектори — і це дозволяє AI знаходити релевантний контент навіть коли у питанні немає жодного слова з документа.

Детально про те як це працює — у статті Що таке embedding: як AI розуміє сенс документа.

Для закритого контуру ключове питання: яка embedding модель — локальна чи хмарна? Ось порівняння трьох варіантів:

Варіант Embedding модель Де відбувається Вартість Закритий контур?
Локальна (Ollama) nomic-embed-text, mxbai-embed-large Ваш сервер $0 (включено в сервер) ✅ Так
Хмарна (OpenAI) text-embedding-3-small Сервери OpenAI (США) $0.02 / 1M токенів ❌ Ні — документи йдуть в API
Гібридна Локальна embedding + зовнішній LLM Embedding локально, генерація — зовні ~$3–15/місяць ⚠️ Часткова ізоляція

Для повного закритого контуру обираємо локальну embedding модель через Ollama. mxbai-embed-large — оптимальний вибір для більшості бізнес-задач: 1024-вимірні вектори, хороша якість на англійських і змішаних документах. Для документів переважно українською або німецькою рекомендуємо BGE-M3 — 1024 виміри з найкращою підтримкою кирилиці серед локальних моделей. Обидві запускаються через Ollama: ollama pull mxbai-embed-large або ollama pull bge-m3.

Чому Ollama підходить саме для ізольованих середовищ

Які моделі доступні локально: порівняння і рекомендації по галузях

У 2026 році локальні моделі через Ollama пропонують якість яка 2 роки тому була доступна тільки через GPT-4. Llama 3.3 70B, Mistral Small 3, Qwen3 — всі вони доступні локально і підходять для різних бізнес-задач.

Вибір моделі для закритого контуру — це баланс між трьома параметрами: якість відповідей, вимоги до заліза і швидкість генерації. Менша модель відповідає швидше але менш точно. Більша — точніша але повільніша і потребує більше пам'яті.

Актуальні моделі для бізнесу через Ollama у 2026

Модель Розмір RAM/VRAM Швидкість (токени/сек) Сильні сторони Команда
Llama 3.3 70B Q4 70B 43 GB ~15–25 т/с (GPU) Найкраща якість серед локальних, близька до GPT-4 ollama run llama3.3:70b
Llama 3.1 8B Q4 8B 6 GB ~40 т/с (GPU), ~8 т/с (CPU) Швидка, мало пам'яті, хороша для RAG на простих документах ollama run llama3.1:8b
Mistral Small 3 (22B) 22B 14 GB ~30 т/с (GPU) Оптимальний баланс якість/швидкість, гарна мультимовність ollama run mistral-small3
Qwen3 14B Q4 14B 9 GB ~35 т/с (GPU) Відмінна мультимовність включаючи українську і китайську ollama run qwen3:14b
Gemma 2 9B Q4 9B 6 GB ~35 т/с (GPU) Від Google, добра для структурованих відповідей ollama run gemma2:9b

Примітка: швидкість залежить від конкретного заліза. Цифри наведені для NVIDIA RTX 4090 або еквівалентного GPU з 24 GB VRAM.

Яку модель обрати залежно від галузі

Юридичні компанії і нотаріуси. Потрібна висока точність, розуміння юридичної термінології і довгий контекст для аналізу договорів. Рекомендація: Llama 3.3 70B — найкраща якість для складних юридичних текстів, підтримує контекст до 128K токенів що дозволяє обробляти довгі договори цілком. Якщо сервер слабкий — Mistral Small 3 як компроміс.

Медичні центри і клініки. Потрібна точність і надійність при роботі з протоколами і медичними термінами. Рекомендація: Llama 3.3 70B — для точних відповідей на базі протоколів, або Qwen3 14B якщо документи мультимовні (UA + DE для австрійських клінік).

HR і корпоративна база знань. Регламенти, процедури, скрипти — зазвичай прості структуровані тексти. Рекомендація: Llama 3.1 8B або Gemma 2 9B — швидкі, мало пам'яті, цілком достатня якість для FAQ-відповідей по корпоративних документах.

Дистриб'ютори і B2B з великим каталогом. Потрібна точність при роботі з технічними специфікаціями і каталогами. Рекомендація: Mistral Small 3 — добре розуміє технічну термінологію, швидка і не вимагає великого сервера.

Держструктури. Максимальна ізоляція, стабільність, офіційне джерело моделі. Рекомендація: Llama 3.3 70B від Meta — відкрита ліцензія, верифіковане джерело, найширша підтримка спільноти.

Мультимовність: як локальні моделі працюють з українською, англійською і німецькою

Сучасні локальні моделі розуміють українську, англійську і німецьку без додаткового налаштування. Але рівень якості відрізняється: англійська — завжди краще, кирилиця — залежить від моделі. Правильний вибір моделі і embedding вирішує цю проблему.

Для бізнесів на українському і DACH-ринку мультимовність — не опція, це вимога. Документи можуть бути українською або англійською, клієнти питають по-своєму, а звіти готуються для партнерів зі своєю мовою. Ось реальна картина по кожній мові.

Англійська — базова мова, найкраща якість

Всі великі моделі навчались переважно на англомовних даних. Англійська — це "рідна мова" будь-якої сучасної LLM. Якість відповідей на англійських документах: відмінна для всіх моделей вище в таблиці. Якщо ваші документи або хоча б частина з них англійською — жодних проблем.

Українська — добра якість при правильному виборі моделі

Ситуація з українською значно покращилась у 2025–2026 роках. Llama 3.3, Qwen3 і Mistral Small 3 містять суттєву частку україномовних даних у тренуванні.

На що звертати увагу при роботі з українськими документами:

Німецька — стабільна якість для DACH-ринку

Німецька добре представлена у тренувальних даних більшості моделей — набагато краще ніж українська. Llama 3.3, Mistral і Qwen3 відповідають на німецькій впевнено і граматично коректно.

Крос-мовний пошук: питання однією мовою, документи іншою

Реальна ситуація в бізнесі: частина документів англійська, частина українська, а питання можуть надходити будь-якою мовою. Тут критично важлива embedding модель а не LLM.

nomic-embed-text (доступна через Ollama) підтримує крос-мовний пошук — запит українською знаходить релевантні фрагменти з англійських документів і навпаки. Це працює тому що мультимовна embedding модель розміщує "договір" і "contract" у схожих точках векторного простору.

Якщо крос-мовний пошук є пріоритетом — рекомендуємо BGE-M3: відкрита модель яка також може запускатися локально через Ollama і показує найкращі результати на мультимовних бенчмарках MTEB. Докладніше про те як embedding забезпечує крос-мовний пошук — у статті Що таке embedding: як AI розуміє сенс документа.

Практична рекомендація для UA/DE бізнесу

Мова документів Рекомендована LLM Рекомендована embedding
Переважно англійська Llama 3.3 70B або Mistral Small 3 nomic-embed-text
Переважно українська Qwen3 14B або Llama 3.3 70B BGE-M3 або nomic-embed-text
Переважно німецька Mistral Small 3 nomic-embed-text або BGE-M3
Змішана (UA + EN + DE) Qwen3 14B або Llama 3.3 70B BGE-M3 (найкраща мультимовність)

Архітектура: сервер + pgvector + Ollama без виходу в інтернет

Закритий контур складається з чотирьох компонентів: VPS або фізичний сервер, PostgreSQL з pgvector для зберігання документів і векторів, Ollama для запуску LLM і embedding, веб-інтерфейс або API для доступу користувачів. Всі чотири — на одному сервері.

Для бізнес-керівника важливо розуміти не технічні деталі а загальну логіку: що де зберігається і як дані рухаються всередині системи. Ось схема у простих словах.

Чотири компоненти закритого контуру

1. Сервер (VPS або фізичне залізо). Це фізична або віртуальна машина в дата-центрі або у вашому офісі. Всі інші компоненти працюють на ньому. Для GDPR-відповідності — сервер в ЄС (Німеччина, Австрія, Нідерланди). Для максимальної ізоляції — фізичний сервер у вашому офісі без підключення до інтернету.

2. PostgreSQL + pgvector. База даних де зберігаються ваші документи в двох форматах: оригінальний текст (для відображення джерела) і векторні представлення (для пошуку). pgvector — це розширення PostgreSQL яке додає підтримку векторного пошуку. Ніяких додаткових сервісів — просто один PostgreSQL сервер.

3. Ollama. Сервіс який запускає LLM і embedding модель локально. Отримує запит, знаходить релевантні фрагменти через pgvector, передає їх у модель і повертає відповідь. Все це відбувається всередині сервера.

4. Веб-інтерфейс або інтеграція (Telegram/WhatsApp). Що бачить користувач: чат-вікно на сайті, бот у Telegram або WhatsApp. Запит від користувача надходить сюди, передається на сервер, обробляється і повертається назад. Інтеграція з месенджерами — через Telegram Bot API або WhatsApp Business API, але сама обробка відбувається локально.

Як рухаються дані всередині закритого контуру

При завантаженні документів (одноразово):

  1. Ви завантажуєте PDF або Word файл через адмін-панель
  2. Система розбиває документ на фрагменти по ~500 слів
  3. Ollama через локальну embedding модель перетворює кожен фрагмент на вектор
  4. Текст фрагмента і його вектор зберігаються в PostgreSQL + pgvector
  5. Оригінальний файл зберігається на диску сервера

На жодному з цих кроків дані не виходять за межі сервера.

При відповіді на питання (кожен раз):

  1. Користувач задає питання в чат-інтерфейсі
  2. Питання перетворюється на вектор через локальну embedding модель
  3. pgvector знаходить 3–5 найближчих фрагментів документів
  4. Знайдені фрагменти разом з питанням передаються в локальний LLM (Ollama)
  5. Модель генерує відповідь і повертає її з посиланням на джерело

Весь процес — всередині сервера. Крок 1–5 займає 3–15 секунд залежно від моделі і заліза.

Що потрібно для розгортання: мінімальні вимоги

Компонент Мінімум Оптимально Для Llama 3.3 70B
RAM 8 GB 32 GB 64 GB
VRAM (GPU) CPU-only (повільно) 16 GB GPU 48 GB GPU
Диск (SSD) 50 GB 200 GB 500 GB
CPU 4 ядра 8 ядер 16 ядер
ОС Ubuntu 22.04 LTS Ubuntu 22.04 LTS Ubuntu 22.04 LTS

Важливо: для більшості бізнес-задач (документи до 1000 файлів, 50–200 запитів на день) достатньо Llama 3.1 8B або Mistral Small 3 — вони працюють на сервері з 16–32 GB RAM і стандартним GPU або навіть без GPU (повільніше але стабільно). Llama 3.3 70B потрібна тільки якщо вам потрібна максимальна якість відповідей на складних документах.

Продуктивність локальної моделі vs GPT-4: реальні цифри

Llama 3.3 70B — це найближчий локальний аналог GPT-4 за якістю. На більшості бізнес-задач (RAG по документах, відповіді на питання, структурований аналіз) різниця непомітна. Головна відмінність — швидкість: GPT-4 відповідає за 1–3 секунди, локальна модель — за 5–20 секунд.

Бізнес-керівника цікавить не абстрактний бенчмарк а конкретне питання: "Якщо ми поставимо локальну модель — відповіді будуть гіршими ніж у ChatGPT?" Відповідь залежить від задачі.

Де локальні моделі практично не поступаються GPT-4

Для RAG-задач (відповіді на питання по конкретних документах) різниця між Llama 3.3 70B і GPT-4 мінімальна. Це пояснюється просто: у RAG модель не "придумує" відповідь з голови — вона формулює відповідь на основі наданих фрагментів. При хорошій якості retrieval навіть менша модель дає точні відповіді.

Де GPT-4 поки краще

Реальні цифри швидкості

Модель Час першого токена Швидкість генерації Типова відповідь (200 слів)
GPT-4 Turbo (хмара) 0.5–1 сек ~50 т/с 3–5 сек
Llama 3.3 70B Q4 (RTX 4090) 1–2 сек ~20 т/с 10–15 сек
Mistral Small 3 (RTX 4090) 0.5–1 сек ~35 т/с 6–8 сек
Llama 3.1 8B Q4 (RTX 4090) 0.3–0.5 сек ~40 т/с 4–6 сек
Llama 3.3 70B Q4 (CPU only) 5–10 сек ~3–5 т/с 60–80 сек

Практичний висновок для бізнесу: 10–15 секунд на відповідь від Llama 3.3 70B на GPU — прийнятно для більшості корпоративних задач. Співробітник, який раніше витрачав 20 хвилин на пошук по документах, отримує відповідь за 15 секунд — це все одно +75x прискорення. Для сценаріїв де потрібна миттєва відповідь (живий чат з клієнтами) — краще обрати Mistral Small 3 або Llama 3.1 8B: вони швидші хоча і трохи менш точні.

Якість на реальному бізнес-кейсі

Ми тестували Llama 3.3 70B і GPT-4 Turbo на однаковому наборі з 400 юридичних документів (зразки договорів, нормативні акти). Запитання: пошук конкретного пункту, перевірка наявності умови, витягування сторін договору. Результат: Llama 3.3 70B дала правильну відповідь у 91% випадків, GPT-4 Turbo — у 94%. Різниця у 3% — прийнятна для більшості бізнес-застосунків і повністю компенсується перевагою в конфіденційності і відсутністю витрат на API.


Вартість заліза і сервера: скільки коштує закритий контур

Закритий контур коштує дорожче ніж гібридний режим з зовнішнім LLM — але значно дешевше ніж Enterprise хмарні плани з data residency. Для більшості середніх компаній загальна вартість за рік порівнянна або нижча ніж хмарні альтернативи.

Варіант 1: хмарний VPS з GPU (рекомендовано для старту)

Найпростіший варіант — орендувати VPS з GPU у хмарному провайдері в ЄС. Переваги: не потрібне власне залізо, легко масштабувати, повна відповідальність за обладнання на провайдері.

Конфігурація Модель Провайдер (ЄС) Вартість/місяць Підходить для
CPU-only, 32 GB RAM Llama 3.1 8B, Mistral 7B Hetzner, OVH €30–60 Малий бізнес, до 100 запитів/день
1x RTX 3080, 32 GB RAM Mistral Small 3, Llama 3.1 8B Vast.ai EU, RunPod EU €80–150 Середній бізнес, до 500 запитів/день
1x RTX 4090, 64 GB RAM Llama 3.3 70B Q4 Vast.ai EU, Hetzner GPU €200–350 Юридичні/медичні компанії, якість критична
2x RTX 4090, 128 GB RAM Llama 3.3 70B повна версія Hetzner dedicated €500–800 Великі компанії, 1000+ запитів/день

Варіант 2: власний фізичний сервер (для максимальної ізоляції)

Якщо потрібна повна мережева ізоляція (air-gap) або дані не можуть зберігатися у хмарі навіть ЄС-провайдера — власний фізичний сервер в офісі.

Конфігурація Разова вартість Щомісячно (електрика) Термін служби
CPU-сервер, 64 GB RAM, SSD 500 GB €1,500–2,500 €15–25 5–7 років
RTX 4080 + CPU-сервер, 64 GB RAM €3,000–4,500 €30–50 4–6 років
RTX 4090 + CPU-сервер, 128 GB RAM €5,000–7,000 €50–80 4–5 років

Порівняння загальної вартості за рік

Хмарний AI (Enterprise) Гібридний режим AskYourDocs Закритий контур AskYourDocs
Впровадження $0 (SaaS) $500 $500
Сервер/хмара на рік $2,000–5,000+ (Enterprise) €180–360 (VPS без GPU) €960–4,200 (VPS з GPU)
LLM витрати на рік Включено в план $30–180 (зовнішній API) $0 (локально)
Юридичні витрати (DPA, DPIA) $1,000–3,000 Мінімальні $0
GDPR-ризик Є Мінімальний Відсутній
Разом за рік $3,000–8,000+ ~$800–1,100 ~$1,500–5,200

Висновок по вартості: для малого і середнього бізнесу гібридний режим залишається найдешевшим рішенням. Закритий контур на GPU коштує більше — але це єдиний варіант де GDPR-ризик технічно відсутній. Якщо ваш бізнес у регульованій галузі (медицина, юриспруденція, фінанси) — юридичні витрати і штрафи за GDPR-порушення легко перевищать різницю у вартості сервера.

Для кого закритий контур обов'язковий а не опційний

Є галузі де закритий контур — це не питання переваги, а юридична вимога або мінімізація критичного ризику. Якщо ваш бізнес потрапляє в один з цих сценаріїв — закритий контур є єдиним юридично прийнятним рішенням.

Ми в AskYourDocs бачимо закономірність: більшість клієнтів які приходять за закритим контуром — це не параноя, а конкретна юридична або репутаційна вимога. Ось коли закритий контур не опція а необхідність.

Медичні центри і клініки

Медичні дані — спеціальна категорія за статтею 9 GDPR. Будь-яка передача медичних записів, діагнозів або протоколів лікування третій стороні без явної згоди пацієнта є прямим порушенням. Хмарний AI з серверами в США фізично не може відповідати цим вимогам без Enterprise-плану вартістю тисячі доларів і окремої юридичної підготовки. Закритий контур — базово відповідає вимогам без будь-якої додаткової документації.

Юридичні фірми і нотаріуси

Адвокатська таємниця — фундаментальний принцип. Завантаження матеріалів клієнтської справи в ChatGPT або Notion AI без явної згоди клієнта є порушенням адвокатської таємниці незалежно від того чи хтось реально переглядав ці дані. Адвокатські палати в ЄС вже випускають рекомендації щодо використання AI з прямими вказівками на неприпустимість хмарних сервісів без закритого контуру. Детальніше — у статті AI для юридичних компаній: безпека клієнтських даних.

Державні і муніципальні установи

Обробка персональних даних громадян на серверах американських компаній — заборона де-факто в більшості країн ЄС. Вимога суверенітету даних означає закритий контур з сервером на національній або ЄС-інфраструктурі. Для багатьох держструктур — повна мережева ізоляція (air-gap) без підключення до інтернету взагалі.

Фінансові установи і страховики

BaFin (Німеччина), FMA (Австрія), НБУ (Україна) мають чіткі вимоги до зберігання фінансових даних. Кредитні справи, рахунки клієнтів, страхові договори — все це не може передаватися на сервери за межами визначеної юрисдикції без дозволу регулятора. Закритий контур з сервером в ЄС вирішує це питання системно.

HR-відділи великих компаній

Персональні дані співробітників — оцінки, зарплати, медогляди, дисциплінарні справи — підпадають під підвищені вимоги захисту. Крім того, співробітники не давали згоди на передачу своїх даних OpenAI або Notion. Для HR-систем великих компаній закритий контур стає обов'язковим при будь-якому серйозному впровадженні AI.

Компанії з вимогами партнерів або клієнтів

Ваші B2B-клієнти або партнери можуть прямо вимагати підтвердження що їхні дані не обробляються на сторонніх серверах. Сертифікат ISO 27001 або SOC 2 у провайдера хмарного AI — не є таким підтвердженням. Закритий контур з технічною документацією — є.

Докладніше про всі ці сценарії і юридичні вимоги — у статті 6 ризиків витоку даних через AI: як захистити бізнес у 2026.

Покроковий план розгортання

Розгортання закритого контуру AskYourDocs займає 5–7 робочих днів. Від вас потрібні: документи в текстовому форматі і 30 хвилин на фінальне тестування. Все інше — на нашому боці.

Цей план написаний для бізнес-керівника а не для розробника. IT-відділ з вашого боку не потрібен.

Крок 1: Підготовка документів (ваша задача, 1–2 дні)

Перш ніж розгортати систему — документи мають бути готові до завантаження. Головні вимоги:

Детально про підготовку документів — у статті Як підготувати документи для AI-асистента.

Крок 2: Вибір і налаштування сервера (наша задача, 1 день)

Ми обираємо конфігурацію сервера разом з вами виходячи з трьох параметрів: кількість документів, очікуване навантаження (запити на день), вимоги до якості відповідей.

Крок 3: Вибір і завантаження моделей (наша задача, декілька годин)

Крок 4: Завантаження і векторизація документів (наша задача, 1–4 години)

Крок 5: Налаштування інтерфейсу (наша задача, 1 день)

Крок 6: Тестування і передача (ваша задача, 30 хвилин)

Що відбувається після запуску

Оновлення документів — самостійно через адмін-панель: завантажили новий файл → система автоматично векторизує → через 2–3 хвилини асистент відповідає на основі нового документа. IT-відділ не потрібен.

Підтримка — за потреби. Ми надаємо 30-денну підтримку після запуску включно. Для постійної підтримки — окрема домовленість від $50/місяць.

Часті питання

Чи може закритий контур працювати без інтернету взагалі?

Так. Після першого завантаження моделей і документів система повністю автономна. Для Telegram або WhatsApp інтеграції потрібен мінімальний вихідний трафік до серверів месенджера — але не до AI-провайдерів. Якщо потрібна повна мережева ізоляція (air-gap) — використовується веб-інтерфейс у вашій локальній мережі без інтернету взагалі.

Наскільки складно оновлювати документи?

Дуже просто. Завантажуєте новий або оновлений документ через адмін-панель (drag-and-drop) — система автоматично обробляє і векторизує. Через 2–3 хвилини асистент відповідає на основі нового документа. Старий документ автоматично замінюється якщо у нього та сама назва. IT-знань не потрібно.

Що буде якщо сервер впаде?

При хмарному VPS (Hetzner, OVH) — автоматичний перезапуск через Docker. Типовий downtime: 2–5 хвилин. При фізичному сервері в офісі — потрібно перезапустити вручну або налаштувати автозапуск. Ми налаштовуємо автоматичний backup бази даних на зовнішній зашифрований диск — на випадок апаратного збою.

Скільки користувачів може одночасно працювати з системою?

Залежить від моделі і заліза. Для Llama 3.1 8B на стандартному GPU — 5–10 одночасних запитів без помітного сповільнення. Для Llama 3.3 70B — 2–3 одночасних. Для більшого навантаження — або потужніший сервер або черга запитів з пріоритизацією. Для більшості офісних задач (100–200 запитів на день) стандартна конфігурація достатня.

Чи можна перейти з гібридного режиму на закритий контур пізніше?

Так, і це один з найчастіших сценаріїв. Бізнес починає з гібридного режиму (дешевше і швидше) і переходить на закритий контур коли обсяг обробки зростає або з'являються суворіші вимоги GDPR. Міграція займає 1–2 дні: документи вже є в системі, потрібно тільки замінити зовнішній LLM на локальний Ollama і налаштувати локальну embedding.

Висновки

Хочете розгорнути закритий контур?

Покажіть нам ваші документи і розкажіть про задачу — за 30 хвилин демо ви побачите як AI відповідає на реальні питання з вашого архіву. І де при цьому фізично знаходяться ваші дані.

Написати в Telegram →

Хочете побачити рішення в дії? askyourdocs.org/uk/#try-demo

Впровадження під ключ за 5–7 днів. Без IT-відділу. Дані залишаються на вашому сервері. Детальніше про вимоги до безпеки і GDPR — у статті GDPR та AI на документах: що повинен знати бізнес у 2026.

Читайте також

Джерела: Ollama Model Library · Best Ollama Models 2025: Performance Comparison · Local LLM Performance: The 2025 Benchmark · Local AI Models Directory 2026 · The State of Local LLMs 2025–2026 · Що таке Embeddings: як AI розуміє сенс тексту