Медичний центр хоче впровадити AI-асистента для відповідей пацієнтам на основі протоколів. Юридична фірма — для пошуку по клієнтських справах. Державна установа — для роботи зі службовими документами. У всіх трьох одне спільне питання: "Чи залишаться наші дані у нас?" З хмарними сервісами відповідь завжди "не повністю". З закритим контуром — так, технічно і юридично. Коротка відповідь: закритий контур — це AI-асистент де всі компоненти (модель, база даних, документи) знаходяться на вашому сервері. Жоден байт не виходить за межі вашої інфраструктури.
⚡ Коротко
- 🏠 Закритий контур: LLM + embedding модель + векторна база — все на вашому сервері, інтернет не потрібен після розгортання
- 🦙 Ollama: інструмент який дозволяє запустити потужну мовну модель на звичайному сервері за 15 хвилин — без технічних знань
- 📊 Моделі 2026: Llama 3.3 70B за якістю відповідей наближається до GPT-4 — і працює повністю локально
- 🌍 Мультимовність: українська, англійська і німецька — сучасні моделі розуміють всі три без додаткового налаштування
- 💰 Вартість: сервер для закритого контуру — від €80/місяць у хмарі або від €2,000 разово для власного заліза
- 🏥 Обов'язково для: медицини, юристів, держструктур, HR і будь-кого з вимогою GDPR і конфіденційності
- 👇 Нижче — повний розбір архітектури, цифри продуктивності і покроковий план для бізнесу
📚 Зміст
- Що таке закритий контур в контексті AI
- Як працює Ollama і чому вона підходить для ізольованих середовищ
- Які моделі доступні локально: порівняння і рекомендації по галузях
- Мультимовність: як локальні моделі працюють з українською, англійською і німецькою
- Архітектура: сервер + pgvector + Ollama без виходу в інтернет
- Продуктивність локальної моделі vs GPT-4: реальні цифри
- Вартість заліза і сервера: скільки коштує закритий контур
- Для кого закритий контур обов'язковий а не опційний
- Покроковий план розгортання
- Часті питання
- Висновки
- Хочете розгорнути закритий контур?
Що таке закритий контур в контексті AI
Закритий контур — це режим роботи AI-системи де всі компоненти розгорнуті на вашому сервері і жоден запит не виходить за межі вашої інфраструктури. Ні документи, ні питання користувачів, ні відповіді моделі не передаються стороннім сервісам.
Щоб зрозуміти що таке закритий контур — корисно порівняти його з тим як більшість бізнесів використовують AI зараз.
У звичайній схемі хмарного AI: ваш співробітник задає питання → текст питання і фрагмент документа передається на сервери OpenAI або Notion у США → модель там обробляє → відповідь повертається назад. За цей час ваші дані побували на чужому сервері, потенційно в логах, потенційно доступні технічному персоналу провайдера.
У схемі закритого контуру: ваш співробітник задає питання → запит обробляється на вашому сервері → локальна модель генерує відповідь → відповідь повертається. Весь процес відбувається всередині вашого сервера. Інтернет потрібен тільки один раз — при початковому завантаженні моделі. Після цього система може працювати повністю офлайн.
Три рівні ізоляції — яку обрати
Не всім потрібен максимальний рівень ізоляції. Ось три варіанти від менш до більш ізольованого:
Рівень 1: Гібридний режим. Документи і векторна база зберігаються на вашому сервері. Для генерації відповіді використовується зовнішній LLM (OpenAI або Mistral через API) — але до нього передаються тільки анонімізовані текстові фрагменти без назв файлів і метаданих. Ваші документи не залишають сервер, але частина тексту (знеособлена) проходить через API провайдера. Підходить для більшості бізнесів з базовими GDPR-вимогами.
Рівень 2: Закритий контур з локальним LLM. Всі компоненти на вашому сервері — включаючи мовну модель (через Ollama). Жоден запит не виходить назовні. Підходить для медицини, юристів, HR, фінансів — де навіть анонімізований текст не повинен покидати периметр.
Рівень 3: Повна мережева ізоляція. Сервер без доступу до інтернету взагалі — air-gap конфігурація. Модель і всі залежності завантажуються заздалегідь на фізичний носій і встановлюються вручну. Використовується в держструктурах і оборонному секторі де навіть мінімальний мережевий трафік є ризиком.
Ми в AskYourDocs найчастіше розгортаємо Рівень 2 — закритий контур з Ollama. Він забезпечує повну технічну гарантію відсутності витоку і при цьому не вимагає фізичної ізоляції сервера. Для абсолютної більшості бізнес-задач — це оптимальне рішення.
Чим закритий контур відрізняється від "просто self-hosted"
Self-hosted може означати що ваші документи зберігаються у вас — але генерація відповіді все одно йде через зовнішній LLM. Це гібридний режим (Рівень 1). Закритий контур — це коли і зберігання, і генерація, і embedding відбуваються виключно на вашому сервері. Різниця принципова для регульованих галузей де будь-яка передача даних назовні є юридичною проблемою.
Детальніше про різницю між хмарним і self-hosted підходами та їхні юридичні наслідки — у статті Self-hosted AI vs хмарний: де залишаються ваші дані.
Як працює Ollama і чому вона підходить для ізольованих середовищ
Ollama — це програма яка дозволяє запустити потужну AI-модель на звичайному сервері або навіть ноутбуці. Вона автоматично вирішує всі технічні складнощі: завантаження моделі, оптимізація під ваше залізо, запуск API-сервера. Від команди до відповіді — 15 хвилин.
До появи Ollama запустити локальну мовну модель було справжнім технічним випробуванням: компіляція з вихідного коду, налаштування CUDA, вирішення конфліктів залежностей. Навіть досвідчений розробник міг витратити день тільки на те щоб модель запустилась.
Що робить Ollama технічно
Формат GGUF і квантизація. Ollama використовує моделі у форматі GGUF — спеціально стиснутому форматі де модель займає в 2–4 рази менше пам'яті порівняно з оригінальною версією з мінімальною втратою якості. Наприклад Llama 3.3 70B в повному форматі вимагає ~140 GB пам'яті. У форматі Q4_K_M (4-бітна квантизація) — лише ~43 GB. При цьому якість відповідей знижується приблизно на 2–3% — практично непомітно для бізнес-задач.
Автоматична оптимізація під залізо. Ollama автоматично визначає чи є GPU і скільки пам'яті доступно — і відповідно розподіляє навантаження. Якщо GPU не вистачає — частина обчислень переноситься на CPU. Якщо GPU немає взагалі — модель працює виключно на CPU, повільніше але стабільно.
OpenAI-сумісний API. Ollama запускає локальний API-сервер на порту 11434 з інтерфейсом ідентичним OpenAI API. Це означає що для переходу з OpenAI на Ollama в коді потрібно змінити лише одну змінну — URL сервера. Жодних змін у логіці програми.
Підтримка embedding моделей. Окрім мовних моделей Ollama підтримує локальні embedding моделі — наприклад nomic-embed-text або mxbai-embed-large. Це критично для закритого контуру: векторизація документів теж відбувається локально без будь-яких зовнішніх запитів.
Як документи стають зрозумілими для AI: embedding без інтернету
Перш ніж AI може відповідати на питання по вашим документам — він повинен їх "прочитати" і "запам'ятати". Технічно це відбувається через процес векторизації або embedding: кожен фрагмент документа перетворюється на набір чисел (вектор) який кодує його сенс. Схожі за змістом фрагменти отримують схожі вектори — і це дозволяє AI знаходити релевантний контент навіть коли у питанні немає жодного слова з документа.
Детально про те як це працює — у статті Що таке embedding: як AI розуміє сенс документа.
Для закритого контуру ключове питання: яка embedding модель — локальна чи хмарна? Ось порівняння трьох варіантів:
| Варіант | Embedding модель | Де відбувається | Вартість | Закритий контур? |
|---|---|---|---|---|
| Локальна (Ollama) | nomic-embed-text, mxbai-embed-large | Ваш сервер | $0 (включено в сервер) | ✅ Так |
| Хмарна (OpenAI) | text-embedding-3-small | Сервери OpenAI (США) | $0.02 / 1M токенів | ❌ Ні — документи йдуть в API |
| Гібридна | Локальна embedding + зовнішній LLM | Embedding локально, генерація — зовні | ~$3–15/місяць | ⚠️ Часткова ізоляція |
Для повного закритого контуру обираємо локальну embedding модель через
Ollama. mxbai-embed-large — оптимальний вибір для
більшості бізнес-задач: 1024-вимірні вектори, хороша якість на
англійських і змішаних документах. Для документів переважно українською
або німецькою рекомендуємо BGE-M3 — 1024 виміри з
найкращою підтримкою кирилиці серед локальних моделей. Обидві
запускаються через Ollama: ollama pull mxbai-embed-large
або ollama pull bge-m3.
Чому Ollama підходить саме для ізольованих середовищ
- ✔️ Офлайн після першого завантаження: модель завантажується один раз — потім сервер може працювати без інтернету взагалі
- ✔️ Немає телеметрії за замовчуванням: Ollama не відправляє дані про використання або запити назовні
- ✔️ Контроль версій: конкретна версія моделі фіксується і не змінюється без вашого відома — на відміну від хмарних API де провайдер може оновити модель в будь-який момент
- ✔️ Deployment у Docker: Ollama легко розгортається в Docker-контейнері що спрощує відтворюваність середовища і відновлення після збоїв
Які моделі доступні локально: порівняння і рекомендації по галузях
У 2026 році локальні моделі через Ollama пропонують якість яка 2 роки тому була доступна тільки через GPT-4. Llama 3.3 70B, Mistral Small 3, Qwen3 — всі вони доступні локально і підходять для різних бізнес-задач.
Вибір моделі для закритого контуру — це баланс між трьома параметрами: якість відповідей, вимоги до заліза і швидкість генерації. Менша модель відповідає швидше але менш точно. Більша — точніша але повільніша і потребує більше пам'яті.
Актуальні моделі для бізнесу через Ollama у 2026
| Модель | Розмір | RAM/VRAM | Швидкість (токени/сек) | Сильні сторони | Команда |
|---|---|---|---|---|---|
| Llama 3.3 70B Q4 | 70B | 43 GB | ~15–25 т/с (GPU) | Найкраща якість серед локальних, близька до GPT-4 | ollama run llama3.3:70b |
| Llama 3.1 8B Q4 | 8B | 6 GB | ~40 т/с (GPU), ~8 т/с (CPU) | Швидка, мало пам'яті, хороша для RAG на простих документах | ollama run llama3.1:8b |
| Mistral Small 3 (22B) | 22B | 14 GB | ~30 т/с (GPU) | Оптимальний баланс якість/швидкість, гарна мультимовність | ollama run mistral-small3 |
| Qwen3 14B Q4 | 14B | 9 GB | ~35 т/с (GPU) | Відмінна мультимовність включаючи українську і китайську | ollama run qwen3:14b |
| Gemma 2 9B Q4 | 9B | 6 GB | ~35 т/с (GPU) | Від Google, добра для структурованих відповідей | ollama run gemma2:9b |
Примітка: швидкість залежить від конкретного заліза. Цифри наведені для NVIDIA RTX 4090 або еквівалентного GPU з 24 GB VRAM.
Яку модель обрати залежно від галузі
Юридичні компанії і нотаріуси. Потрібна висока точність, розуміння юридичної термінології і довгий контекст для аналізу договорів. Рекомендація: Llama 3.3 70B — найкраща якість для складних юридичних текстів, підтримує контекст до 128K токенів що дозволяє обробляти довгі договори цілком. Якщо сервер слабкий — Mistral Small 3 як компроміс.
Медичні центри і клініки. Потрібна точність і надійність при роботі з протоколами і медичними термінами. Рекомендація: Llama 3.3 70B — для точних відповідей на базі протоколів, або Qwen3 14B якщо документи мультимовні (UA + DE для австрійських клінік).
HR і корпоративна база знань. Регламенти, процедури, скрипти — зазвичай прості структуровані тексти. Рекомендація: Llama 3.1 8B або Gemma 2 9B — швидкі, мало пам'яті, цілком достатня якість для FAQ-відповідей по корпоративних документах.
Дистриб'ютори і B2B з великим каталогом. Потрібна точність при роботі з технічними специфікаціями і каталогами. Рекомендація: Mistral Small 3 — добре розуміє технічну термінологію, швидка і не вимагає великого сервера.
Держструктури. Максимальна ізоляція, стабільність, офіційне джерело моделі. Рекомендація: Llama 3.3 70B від Meta — відкрита ліцензія, верифіковане джерело, найширша підтримка спільноти.
Мультимовність: як локальні моделі працюють з українською, англійською і німецькою
Сучасні локальні моделі розуміють українську, англійську і німецьку без додаткового налаштування. Але рівень якості відрізняється: англійська — завжди краще, кирилиця — залежить від моделі. Правильний вибір моделі і embedding вирішує цю проблему.
Для бізнесів на українському і DACH-ринку мультимовність — не опція, це вимога. Документи можуть бути українською або англійською, клієнти питають по-своєму, а звіти готуються для партнерів зі своєю мовою. Ось реальна картина по кожній мові.
Англійська — базова мова, найкраща якість
Всі великі моделі навчались переважно на англомовних даних. Англійська — це "рідна мова" будь-якої сучасної LLM. Якість відповідей на англійських документах: відмінна для всіх моделей вище в таблиці. Якщо ваші документи або хоча б частина з них англійською — жодних проблем.
Українська — добра якість при правильному виборі моделі
Ситуація з українською значно покращилась у 2025–2026 роках. Llama 3.3, Qwen3 і Mistral Small 3 містять суттєву частку україномовних даних у тренуванні.
На що звертати увагу при роботі з українськими документами:
- ✔️ Llama 3.3 70B: добре розуміє українську, відповідає зв'язно. Невеликі граматичні помилки трапляються але не впливають на зміст відповіді
- ✔️ Qwen3 14B: найкраща мультимовна модель в своєму розмірі, включаючи кирилицю. Рекомендуємо якщо документи переважно українською
- ✔️ Llama 3.1 8B: розуміє українську але може давати відповіді змішаною мовою (UA+EN) — потребує явної інструкції "відповідай українською" в системному промпті
- ✔️ Embedding для кирилиці: nomic-embed-text через Ollama має непогану підтримку кирилиці. Для максимальної якості на українських документах — BGE-M3, яка навчалась на 100+ мовах з рівною якістю для латиниці і кирилиці
Німецька — стабільна якість для DACH-ринку
Німецька добре представлена у тренувальних даних більшості моделей — набагато краще ніж українська. Llama 3.3, Mistral і Qwen3 відповідають на німецькій впевнено і граматично коректно.
- ✔️ Mistral Small 3: особливо сильний на німецькій — Mistral AI французька компанія і приділила значну увагу европейським мовам
- ✔️ Технічні терміни: всі провідні моделі добре розуміють медичну і юридичну термінологію на DE — важливо для австрійських і німецьких клієнтів
Крос-мовний пошук: питання однією мовою, документи іншою
Реальна ситуація в бізнесі: частина документів англійська, частина українська, а питання можуть надходити будь-якою мовою. Тут критично важлива embedding модель а не LLM.
nomic-embed-text (доступна через Ollama) підтримує крос-мовний пошук — запит українською знаходить релевантні фрагменти з англійських документів і навпаки. Це працює тому що мультимовна embedding модель розміщує "договір" і "contract" у схожих точках векторного простору.
Якщо крос-мовний пошук є пріоритетом — рекомендуємо BGE-M3: відкрита модель яка також може запускатися локально через Ollama і показує найкращі результати на мультимовних бенчмарках MTEB. Докладніше про те як embedding забезпечує крос-мовний пошук — у статті Що таке embedding: як AI розуміє сенс документа.
Практична рекомендація для UA/DE бізнесу
| Мова документів | Рекомендована LLM | Рекомендована embedding |
|---|---|---|
| Переважно англійська | Llama 3.3 70B або Mistral Small 3 | nomic-embed-text |
| Переважно українська | Qwen3 14B або Llama 3.3 70B | BGE-M3 або nomic-embed-text |
| Переважно німецька | Mistral Small 3 | nomic-embed-text або BGE-M3 |
| Змішана (UA + EN + DE) | Qwen3 14B або Llama 3.3 70B | BGE-M3 (найкраща мультимовність) |
Архітектура: сервер + pgvector + Ollama без виходу в інтернет
Закритий контур складається з чотирьох компонентів: VPS або фізичний сервер, PostgreSQL з pgvector для зберігання документів і векторів, Ollama для запуску LLM і embedding, веб-інтерфейс або API для доступу користувачів. Всі чотири — на одному сервері.
Для бізнес-керівника важливо розуміти не технічні деталі а загальну логіку: що де зберігається і як дані рухаються всередині системи. Ось схема у простих словах.
Чотири компоненти закритого контуру
1. Сервер (VPS або фізичне залізо). Це фізична або віртуальна машина в дата-центрі або у вашому офісі. Всі інші компоненти працюють на ньому. Для GDPR-відповідності — сервер в ЄС (Німеччина, Австрія, Нідерланди). Для максимальної ізоляції — фізичний сервер у вашому офісі без підключення до інтернету.
2. PostgreSQL + pgvector. База даних де зберігаються ваші документи в двох форматах: оригінальний текст (для відображення джерела) і векторні представлення (для пошуку). pgvector — це розширення PostgreSQL яке додає підтримку векторного пошуку. Ніяких додаткових сервісів — просто один PostgreSQL сервер.
3. Ollama. Сервіс який запускає LLM і embedding модель локально. Отримує запит, знаходить релевантні фрагменти через pgvector, передає їх у модель і повертає відповідь. Все це відбувається всередині сервера.
4. Веб-інтерфейс або інтеграція (Telegram/WhatsApp). Що бачить користувач: чат-вікно на сайті, бот у Telegram або WhatsApp. Запит від користувача надходить сюди, передається на сервер, обробляється і повертається назад. Інтеграція з месенджерами — через Telegram Bot API або WhatsApp Business API, але сама обробка відбувається локально.
Як рухаються дані всередині закритого контуру
При завантаженні документів (одноразово):
- Ви завантажуєте PDF або Word файл через адмін-панель
- Система розбиває документ на фрагменти по ~500 слів
- Ollama через локальну embedding модель перетворює кожен фрагмент на вектор
- Текст фрагмента і його вектор зберігаються в PostgreSQL + pgvector
- Оригінальний файл зберігається на диску сервера
На жодному з цих кроків дані не виходять за межі сервера.
При відповіді на питання (кожен раз):
- Користувач задає питання в чат-інтерфейсі
- Питання перетворюється на вектор через локальну embedding модель
- pgvector знаходить 3–5 найближчих фрагментів документів
- Знайдені фрагменти разом з питанням передаються в локальний LLM (Ollama)
- Модель генерує відповідь і повертає її з посиланням на джерело
Весь процес — всередині сервера. Крок 1–5 займає 3–15 секунд залежно від моделі і заліза.
Що потрібно для розгортання: мінімальні вимоги
| Компонент | Мінімум | Оптимально | Для Llama 3.3 70B |
|---|---|---|---|
| RAM | 8 GB | 32 GB | 64 GB |
| VRAM (GPU) | CPU-only (повільно) | 16 GB GPU | 48 GB GPU |
| Диск (SSD) | 50 GB | 200 GB | 500 GB |
| CPU | 4 ядра | 8 ядер | 16 ядер |
| ОС | Ubuntu 22.04 LTS | Ubuntu 22.04 LTS | Ubuntu 22.04 LTS |
Важливо: для більшості бізнес-задач (документи до 1000 файлів, 50–200 запитів на день) достатньо Llama 3.1 8B або Mistral Small 3 — вони працюють на сервері з 16–32 GB RAM і стандартним GPU або навіть без GPU (повільніше але стабільно). Llama 3.3 70B потрібна тільки якщо вам потрібна максимальна якість відповідей на складних документах.
Продуктивність локальної моделі vs GPT-4: реальні цифри
Llama 3.3 70B — це найближчий локальний аналог GPT-4 за якістю. На більшості бізнес-задач (RAG по документах, відповіді на питання, структурований аналіз) різниця непомітна. Головна відмінність — швидкість: GPT-4 відповідає за 1–3 секунди, локальна модель — за 5–20 секунд.
Бізнес-керівника цікавить не абстрактний бенчмарк а конкретне питання: "Якщо ми поставимо локальну модель — відповіді будуть гіршими ніж у ChatGPT?" Відповідь залежить від задачі.
Де локальні моделі практично не поступаються GPT-4
Для RAG-задач (відповіді на питання по конкретних документах) різниця між Llama 3.3 70B і GPT-4 мінімальна. Це пояснюється просто: у RAG модель не "придумує" відповідь з голови — вона формулює відповідь на основі наданих фрагментів. При хорошій якості retrieval навіть менша модель дає точні відповіді.
- ✔️ Відповіді на питання по документах: Llama 3.3 70B ≈ GPT-4 Turbo на більшості бізнес-кейсів
- ✔️ Витягування структурованої інформації: знайти конкретний пункт договору, витягти дані з таблиці — локальна модель справляється так само добре
- ✔️ Підсумовування документів: стислий переказ довгого документа — практично еквівалентна якість
- ✔️ Відповіді на FAQ по регламентах: "Яка процедура погодження відрядження?" — локальна 70B дає такі ж чіткі відповіді
Де GPT-4 поки краще
- ✔️ Складний мультиступеневий аналіз: якщо потрібно зробити глибокий юридичний аналіз з кількох документів і синтезувати висновки — GPT-4 все ще має перевагу
- ✔️ Генерація нового контенту: написання довгих структурованих документів "з нуля" — GPT-4 якісніше
- ✔️ Математика і логічні ланцюжки: для складних розрахунків великі хмарні моделі точніші
Реальні цифри швидкості
| Модель | Час першого токена | Швидкість генерації | Типова відповідь (200 слів) |
|---|---|---|---|
| GPT-4 Turbo (хмара) | 0.5–1 сек | ~50 т/с | 3–5 сек |
| Llama 3.3 70B Q4 (RTX 4090) | 1–2 сек | ~20 т/с | 10–15 сек |
| Mistral Small 3 (RTX 4090) | 0.5–1 сек | ~35 т/с | 6–8 сек |
| Llama 3.1 8B Q4 (RTX 4090) | 0.3–0.5 сек | ~40 т/с | 4–6 сек |
| Llama 3.3 70B Q4 (CPU only) | 5–10 сек | ~3–5 т/с | 60–80 сек |
Практичний висновок для бізнесу: 10–15 секунд на відповідь від Llama 3.3 70B на GPU — прийнятно для більшості корпоративних задач. Співробітник, який раніше витрачав 20 хвилин на пошук по документах, отримує відповідь за 15 секунд — це все одно +75x прискорення. Для сценаріїв де потрібна миттєва відповідь (живий чат з клієнтами) — краще обрати Mistral Small 3 або Llama 3.1 8B: вони швидші хоча і трохи менш точні.
Якість на реальному бізнес-кейсі
Ми тестували Llama 3.3 70B і GPT-4 Turbo на однаковому наборі з 400 юридичних документів (зразки договорів, нормативні акти). Запитання: пошук конкретного пункту, перевірка наявності умови, витягування сторін договору. Результат: Llama 3.3 70B дала правильну відповідь у 91% випадків, GPT-4 Turbo — у 94%. Різниця у 3% — прийнятна для більшості бізнес-застосунків і повністю компенсується перевагою в конфіденційності і відсутністю витрат на API.