Self-hosted AI vs хмарний: де залишаються ваші дані (2026)

Ви обираєте AI-сервіс для роботи з корпоративними документами і бачите два табори: зручні хмарні рішення типу ChatGPT або Notion AI — і self-hosted варіанти де все розгортається на власному сервері. Різниця в зручності очевидна. Але де при цьому фізично опиняються ваші документи — питання яке більшість бізнесів не задають до першого аудиту GDPR. Коротка відповідь: хмарні сервіси зберігають ваші дані на серверах у США. Self-hosted — лише на вашому сервері. Для бізнесу в ЄС це різниця між відповідністю і порушенням.

⚡ Коротко

☁️ OpenAI FileSearch: файли зберігаються на серверах OpenAI (США, Microsoft Azure) — за замовчуванням без прив'язки до ЄС
📓 Notion AI: дані обробляються через субпроцесорів (Anthropic, OpenAI) — сервери поза вашим контролем
🏠 Self-hosted: всі компоненти на вашому сервері — ніхто зовні не має доступу
⚖️ GDPR-статус: хмара потребує DPA + SCCs + DPIA; self-hosted — базово відповідає при сервері в ЄС
🏥 Для медицини і юристів: хмарний AI юридично неприйнятний без спеціальних заходів
👇 Нижче — детальний розбір кожного варіанту з реальними фактами з документації провайдерів

📚 Зміст

Як працює хмарний AI з вашими документами
Де фізично зберігає дані OpenAI FileSearch
Де фізично зберігає дані Notion AI
Що означає self-hosted і чим відрізняється архітектурно
Порівняльна таблиця: OpenAI vs Notion vs self-hosted
Для яких бізнесів хмара неприйнятна юридично
Висновок: коли self-hosted єдиний варіант
Часті питання
Висновки
Хочете перевірити свій варіант?

Як працює хмарний AI з вашими документами

Коли ви завантажуєте документ у хмарний AI-сервіс — він фізично копіюється на сервери провайдера. Там він розбивається на фрагменти, індексується і зберігається для відповіді на ваші запити. Ваш документ більше не тільки у вас.

Хмарний AI-сервіс — це зручно. Ви реєструєтесь, завантажуєте PDF, і за секунди отримуєте відповіді. Але за цією зручністю стоїть технічний процес який більшість користувачів не бачать.

Ось що відбувається з вашим документом після завантаження в хмарний сервіс:

✔️ Передача: файл надсилається через інтернет на сервери провайдера — зашифровано, але до чужої інфраструктури
✔️ Парсинг і chunking: документ розбивається на текстові фрагменти по кілька сотень слів кожен
✔️ Векторизація: кожен фрагмент перетворюється на числовий вектор і зберігається у векторній базі даних провайдера
✔️ Зберігання: і оригінальний файл, і вектори залишаються на серверах провайдера — часто без чіткого терміну зберігання для безкоштовних планів
✔️ Запити: кожне ваше питання до AI також надсилається на сервери провайдера і може зберігатися в логах

Для особистого використання — це норма. Але для корпоративних документів що містять персональні дані клієнтів, медичні записи або адвокатську таємницю — кожен з цих кроків є юридично значущим з точки зору GDPR. Детальне порівняння популярних AI-сервісів для документів — у нашому огляді 5 AI-сервісів для роботи з документами: порівняння для бізнесу →

Важливо розуміти: провайдер не обов'язково зловживає вашими даними. Але сам факт того що ваші документи фізично знаходяться на його серверах — означає що він є обробником персональних даних за GDPR, і весь ланцюжок вимог (DPA, оцінка ризиків трансферу, DPIA) стає обов'язковим.

Підсумок: хмарний AI — це завжди передача ваших документів третій стороні. Питання в тому чи ця третя сторона знаходиться у правильній юрисдикції і чи є у вас необхідна документація.

Де фізично зберігає дані OpenAI FileSearch

OpenAI FileSearch зберігає завантажені файли і векторні індекси на серверах OpenAI у США (інфраструктура Microsoft Azure). Для стандартних API-клієнтів вибір регіону зберігання недоступний. Вибір регіону ЄС можливий лише для Enterprise-клієнтів ChatGPT — окремий продукт з окремою ціною.

OpenAI FileSearch — це вбудований інструмент для пошуку по завантажених документах у рамках Assistants API і Responses API. Технічно він працює так: ви завантажуєте файл, він автоматично розбивається на фрагменти, векторизується і зберігається у так званому vector store на серверах OpenAI.

Що важливо знати про зберігання даних за офіційною документацією OpenAI:

✔️ Локація за замовчуванням: сервери OpenAI у США, інфраструктура Microsoft Azure. Для стандартних API-клієнтів вибрати регіон ЄС неможливо
✔️ Термін зберігання файлів: vector stores з прикріпленими файлами за замовчуванням видаляються через 7 днів після останнього використання. Але файли у бібліотеці зберігаються до ручного видалення або видалення акаунту
✔️ Запити і логи: згідно з політикою конфіденційності OpenAI для ЄС, для трансферу даних за межі ЄС OpenAI використовує стандартні договірні клаузули (SCC) — але після Schrems II цього може бути недостатньо
✔️ Навчання моделей: для API-клієнтів і Enterprise-планів OpenAI офіційно не використовує дані для навчання моделей. Для безкоштовних і Plus-користувачів — за замовчуванням використовує, якщо не вимкнути в налаштуваннях
✔️ Доступ співробітників: OpenAI може переглядати контент для безпеки і покращення сервісу. Повного технічного виключення доступу немає

Є нюанс: ChatGPT Enterprise пропонує data residency — можливість зберігати дані в регіоні ЄС. Але це окремий корпоративний продукт вартістю від кількох тисяч доларів на рік, а не стандартний API-доступ. Більшість малого і середнього бізнесу використовують стандартний API або ChatGPT Plus — без опції вибору регіону.

Висновок: якщо ви використовуєте OpenAI FileSearch через стандартний API для роботи з документами що містять персональні дані ЄС — ваші дані зберігаються в США без вибору регіону. Це потребує окремої правової бази для транскордонного трансферу за статтями 44–49 GDPR.

Підсумок: OpenAI FileSearch — потужний інструмент, але для GDPR-відповідного корпоративного використання потребує Enterprise-плану або додаткових юридичних заходів які більшість бізнесів просто не роблять.

Де фізично зберігає дані Notion AI

Notion AI передає контент вашого workspace до субпроцесорів — Anthropic і OpenAI — для генерації відповідей. Сервери Notion знаходяться в США (AWS). Для Enterprise-плану є zero data retention у субпроцесорів, але не у самого Notion.

Notion — це популярна платформа для корпоративних баз знань. З додаванням Notion AI бізнеси отримали можливість ставити питання по своїх документах прямо в інтерфейсі. Але за цією зручністю стоїть складніший ланцюжок обробки даних.

Ось що відбувається з вашими даними в Notion AI за офіційною документацією Notion:

✔️ Субпроцесори: Notion AI використовує сторонніх LLM-провайдерів — зокрема Anthropic і OpenAI. Коли ви ставите питання, релевантний контент вашого workspace передається до цих провайдерів для генерації відповіді. Повний список субпроцесорів — на сторінці Notion AI security practices
✔️ Локація серверів Notion: США, інфраструктура AWS. Notion підписав SCCs для трансферу даних з ЄС, але сервери фізично в США
✔️ Zero data retention у субпроцесорів: для Enterprise-плану субпроцесори (Anthropic, OpenAI) не зберігають дані після обробки запиту. Для стандартних планів — це не гарантовано
✔️ Навчання моделей: Notion офіційно заявляє що не використовує дані клієнтів для навчання власних або сторонніх моделей
✔️ Шифрування: дані шифруються при передачі (TLS) і при зберіганні (AES-256)

Ключова проблема для GDPR: навіть якщо Notion має DPA і SCCs — ваші дані все одно фізично передаються через кілька американських компаній (Notion → Anthropic або OpenAI). Кожна ланка цього ланцюжка є потенційною точкою відповідальності.

Для бізнесу що обробляє чутливі дані це означає: перед використанням Notion AI необхідно підписати DPA з Notion, переконатися що ваш план включає zero retention у субпроцесорів (тобто Enterprise), провести DPIA і мати правову основу для трансферу до США. На практиці — це робота юриста на кілька тижнів.

Підсумок: Notion AI зручний, але ланцюжок субпроцесорів і американські сервери створюють GDPR-навантаження яке більшість малого і середнього бізнесу просто не усвідомлює при реєстрації.

Що означає self-hosted і чим відрізняється архітектурно

Self-hosted AI — це коли всі компоненти системи (база даних, векторний індекс, документи і опціонально сама AI-модель) розгорнуті на вашому сервері. Дані нікуди не передаються — вони завжди у вас.

Уявіть різницю між двома сценаріями. У першому — ви здаєте документи на зберігання до стороннього архіву. Зручно, але вони вже не у вас. У другому — ви будуєте власну архівну кімнату у своєму офісі. Більше відповідальності, але повний контроль.

Self-hosted AI-асистент на документах працює саме за другим принципом. Ось з чого складається архітектура:

✔️ Ваш сервер (VPS): орендований або власний сервер у будь-якому регіоні — для GDPR-відповідності обирається Німеччина, Австрія, Нідерланди або інша країна ЄС
✔️ База даних з векторним пошуком: PostgreSQL з розширенням pgvector — зберігає ваші документи і векторні індекси локально на сервері
✔️ AI-модель (два варіанти):
- Гібридний режим — LLM зовнішній (OpenAI, Mistral через API), але до нього передаються лише анонімізовані текстові фрагменти без назв файлів і метаданих
- Закритий контур — LLM локальна (Ollama з Llama або Mistral), жоден запит не виходить за межі вашого сервера
✔️ Чат-інтерфейс: веб-віджет або API, доступні лише з дозволених доменів (origin filter)

З точки зору GDPR ця архітектура принципово інша: немає зовнішнього обробника даних, немає транскордонного трансферу (при сервері в ЄС), немає необхідності у DPA з AI-провайдером. Ваша компанія є і контролером, і де-факто обробником — весь ланцюжок відповідальності залишається у вас.

Важливо: self-hosted не означає "зроби сам". AskYourDocs розгортається під ключ за 5–10 робочих дні — від налаштування сервера до завантаження документів і налаштування чат-віджету. Після передачі проекту ми не маємо технічного доступу до вашої бази даних і документів — ви отримуєте повний контроль разом з доступами адміністратора. Детальніше про процес впровадження — на сторінці наших послуг →

Підсумок: self-hosted AI — це не складно і не дорого. Це інша архітектура де ваші дані ніколи не залишають ваш контур.

Порівняльна таблиця: OpenAI vs Notion vs self-hosted

Головна різниця — не в якості відповідей, а в тому де фізично знаходяться ваші дані і хто має до них доступ.

Параметр	OpenAI FileSearch	Notion AI	AskYourDocs (self-hosted)
Де зберігаються документи	Сервери OpenAI (США)	Сервери Notion (США, AWS)	Ваш сервер (ЄС або де завгодно)
Треті сторони з доступом до даних	OpenAI, Microsoft	Notion, Anthropic, OpenAI	Немає
Трансфер даних за межі ЄС	Так (США)	Так (США)	Ні (при сервері в ЄС)
Потрібен DPA	Так	Так	Ні
Навчання моделей на ваших даних	Ні (API/Enterprise)	Ні (офіційно)	Ні (технічно неможливо)
Закритий контур (без інтернету)	Неможливо	Неможливо	Так (з Ollama)
GDPR без додаткових заходів	Ні	Ні	Так (при сервері в ЄС)
Вибір LLM-провайдера	Тільки OpenAI	Тільки Notion/OpenAI/Anthropic	Будь-який
Вартість впровадження	Pay-per-use API	від $16/міс/користувач	від $500 разово
Vendor lock-in	Повний	Повний	Немає

Кілька важливих уточнень до таблиці:

✔️ OpenAI Enterprise пропонує data residency в ЄС — але це окремий корпоративний продукт з індивідуальним ціноутворенням, недоступний для більшості малого і середнього бізнесу
✔️ Notion Enterprise пропонує zero retention у субпроцесорів — але дані все одно зберігаються на серверах Notion у США
✔️ "Навчання моделей — ні" у хмарних провайдерів — це офіційна заява, але технічна перевірка цього неможлива

Підсумок: для бізнесу що серйозно ставиться до GDPR — таблиця говорить сама за себе. Self-hosted вирішує питання яке хмарні сервіси лише намагаються пом'якшити договорами.

Для яких бізнесів хмара неприйнятна юридично

Є галузі де використання хмарного AI для роботи з корпоративними документами — не питання переваги, а юридична заборона або критичний ризик. Медицина, юриспруденція і держструктури — на першому місці.

Розберемо конкретні кейси:

Медичні центри та клініки

Медичні дані — це спеціальна категорія персональних даних за статтею 9 GDPR. Їх обробка можлива лише за наявності явної згоди пацієнта або в чітко визначених законом випадках. Передача медичних записів на американські сервери ChatGPT або Notion AI без явної згоди кожного пацієнта — це пряме порушення статті 9. Додатково в багатьох країнах ЄС є національні закони про медичну таємницю які ще суворіші за GDPR. Детальніше — у статті AI в медицині: як обробляти медичні дані без порушення закону.

Юридичні та адвокатські фірми

Адвокатська таємниця — це фундаментальний принцип правової системи. У більшості юрисдикцій ЄС передача матеріалів клієнтської справи третій стороні без явної згоди клієнта — це порушення професійної етики і потенційно закону. Якщо ваші клієнтські договори і справи обробляються OpenAI або Notion — ваші клієнти мають право поставити питання про конфіденційність. Детальніше — у статті AI для юридичних компаній: безпека клієнтських даних.

Фінансові установи та страхові компанії

Фінансові дані клієнтів — рахунки, кредитні справи, страхові договори — підпадають під GDPR і додатково під фінансові регулятори (BaFin у Німеччині, FMA в Австрії). Більшість фінансових регуляторів мають чіткі вимоги до зберігання даних всередині ЄС. Використання хмарних AI-сервісів з серверами в США без дозволу регулятора — це ризик ліцензії.

Державні та муніципальні установи

Для держструктур питання навіть не стоїть: обробка державних і персональних даних громадян на серверах американських компаній — це заборона де-факто в більшості країн ЄС. Вимога суверенітету даних означає закритий контур без будь-яких зовнішніх передач.

Компанії що обробляють дані HR

Трудові договори, зарплатні дані, медогляди, оцінки співробітників — все це персональні дані з підвищеними вимогами захисту. Якщо ваш HR-відділ використовує хмарний AI для роботи з цими документами — кожен завантажений файл є потенційним GDPR-порушенням.

Підсумок: якщо ваш бізнес потрапляє хоча б в одну з цих категорій — хмарний AI для роботи з документами потребує або дуже серйозної юридичної підготовки, або заміни на self-hosted рішення.

Висновок: коли self-hosted єдиний варіант

Self-hosted — єдиний варіант коли вам потрібна технічна гарантія що дані не покидають ваш контур. Договори і заяви провайдерів — це юридичний захист. Але тільки self-hosted дає фізичну неможливість витоку через зовнішні сервіси.

Є принципова різниця між двома рівнями захисту. Перший — юридичний: провайдер підписав DPA, заявив що не навчає моделі на ваших даних, має SOC 2 сертифікат. Це важливо, але це папір. Якщо завтра провайдер зазнає витоку, зміниться керівництво або регулятор прийде з перевіркою — ваші дані вже на чужих серверах і ви не контролюєте що з ними відбувається.

Другий рівень — технічний: дані фізично ніколи не покидають ваш сервер. Немає трансферу — немає ризику витоку через зовнішні сервіси. Ніякий DPA не дає такої гарантії, бо DPA регулює поведінку людей, а не фізичне переміщення даних.

Коли self-hosted — єдиний варіант

Self-hosted — єдиний варіант якщо виконується хоча б одна умова:

✔️ Медичні дані: ви обробляєте дані пацієнтів, діагнози, призначення або медичну документацію. Стаття 9 GDPR і національні закони про медичну таємницю не залишають простору для хмарних рішень без явної згоди кожного пацієнта
✔️ Адвокатська таємниця: ви ведете клієнтські справи, договори або юридичні документи. Передача матеріалів справи третій стороні без згоди клієнта — порушення професійної етики і потенційно закону
✔️ Вимоги регулятора: ваш фінансовий, медичний або галузевий регулятор прямо вимагає зберігання даних всередині ЄС або всередині країни
✔️ Вимоги клієнтів або партнерів: ваші B2B-клієнти або партнери вимагають підтвердження що їхні дані не виходять за межі вашого контуру — і ви повинні це довести технічно, а не лише на папері
✔️ Держструктури: ви є або працюєте з державними або муніципальними установами де обробка даних громадян на іноземних серверах заборонена за замовчуванням
✔️ Комерційна таємниця: ваші документи містять інформацію про продукти, ціни, стратегії або технології яку ви не готові довірити навіть зашифрованим серверам третіх сторін — незалежно від їхньої репутації

Коли хмарний AI — прийнятний варіант

Хмара виправдана лише якщо одночасно виконуються всі три умови:

✅ Ваші документи не містять персональних даних фізичних осіб — наприклад, публічна технічна документація, маркетингові матеріали, відкриті регламенти
✅ Ви готові і маєте ресурси пройти повний юридичний процес: підписати DPA, провести DPIA, задокументувати правову основу для трансферу до США
✅ Ви маєте бюджет на Enterprise-план з data residency в ЄС — бо стандартні плани хмарних провайдерів цю проблему не вирішують

Якщо хоча б одна з цих умов не виконується — хмарний AI створює GDPR-ризик який ви, можливо, просто ще не помітили.

Реальна математика вибору

Для більшості малого і середнього бізнесу в Європі порівняння виглядає так:

✔️ Self-hosted AskYourDocs: від $500 впровадження + $20–50/міс інфраструктура. GDPR-відповідність базово вирішена. Дані під вашим контролем назавжди
✔️ Хмарний Enterprise-план з data residency: від кількох тисяч доларів на рік + юридичні витрати на DPA і DPIA + постійна залежність від умов провайдера
✔️ Стандартний хмарний план без GDPR-заходів: дешево зараз — але штраф до €20 млн або репутаційний збиток від витоку клієнтських даних перекриє будь-яку економію

Не впевнені який варіант підходить вашому бізнесу? AskYourDocs допомагає визначити оптимальний рівень ізоляції на першому дзвінку — без технічного жаргону. Надішліть 2–3 документи і ми покажемо як це працює на ваших реальних даних.

Підсумок: питання не "хмара чи self-hosted". Питання — чи готові ви до юридичних і репутаційних наслідків якщо хмарний провайдер зіткнеться з витоком, аудитом регулятора або просто зміниться його privacy policy наступного кварталу.

Часті питання

Чи можна зробити OpenAI GDPR-відповідним для корпоративного використання?

Так, але це вимагає: підписаного DPA з OpenAI, Enterprise-плану з data residency в ЄС, проведення DPIA і правової основи для обробки. Для більшості малого і середнього бізнесу це або недосяжно за бюджетом, або занадто складно юридично.

Notion каже що не навчає моделі на моїх даних — цього достатньо?

Ні навчання моделей — лише один з аспектів GDPR. Сам факт передачі персональних даних на американські сервери без правової бази для транскордонного трансферу вже є порушенням — незалежно від того чи навчається модель на ваших даних.

Скільки коштує self-hosted порівняно з хмарними сервісами?

Впровадження AskYourDocs — від $500 разово. Інфраструктура (VPS в ЄС) — $20–50/міс. Для порівняння: Notion Plus для команди з 10 осіб — близько $160/міс, і це без вирішення GDPR-питань. Детальний розрахунок — у статті Скільки коштує AI-асистент на документах.

Що якщо я використовую гібридний режим — чи це безпечно?

Гібридний режим (документи локально + зовнішній LLM) є хорошим балансом: до зовнішнього LLM передаються лише анонімізовані текстові фрагменти без назв файлів і метаданих. Саме цей варіант ми рекомендуємо більшості клієнтів як оптимальне поєднання якості відповідей і захисту даних — без зайвих витрат на повну ізоляцію. Для медицини і юристів — тільки повний закритий контур.

Як перевірити де зберігаються дані мого поточного AI-сервісу?

Перевірте: умови використання (Terms of Service), сторінку privacy policy, список субпроцесорів і наявність DPA. Якщо на сайті немає чіткої відповіді про геолокацію серверів — це вже тривожний сигнал. Використайте наш чеклист з 10 питань для перевірки будь-якого AI-сервісу.

Висновки

☁️ OpenAI FileSearch: сервери в США, без вибору регіону для стандартних планів, потребує DPA і додаткових заходів для GDPR
📓 Notion AI: ланцюжок субпроцесорів (Anthropic, OpenAI), сервери в США, GDPR-відповідність потребує Enterprise-плану і юридичної роботи
🏠 Self-hosted: дані тільки на вашому сервері в ЄС, немає зовнішніх обробників, базово GDPR-відповідне
🏥 Для медицини, юристів, фінансів: хмарний AI без серйозної юридичної підготовки — неприйнятний
💰 Вартість: self-hosted від $500 разово — дешевше ніж Enterprise-плани хмарних сервісів і набагато дешевше ніж штраф GDPR

Головна думка: хмарні AI-сервіси вирішують питання зручності, але не вирішують питання власності над даними. Self-hosted — вирішує обидва.

Хочете перевірити свій варіант?

Надішліть 2–3 ваших реальних документи — і за 30 хвилин покажемо живу демонстрацію: як AI відповідає на питання з вашої бази знань, і де при цьому фізично знаходяться ваші дані. Безкоштовно. Без реєстрації. Без зобов'язань.

Написати в Telegram →

Хочете побачити рішення в дії на головній сторінці? askyourdocs.org/uk/#try-demo

Читайте також

⸻

Джерела: OpenAI Europe Privacy Policy · OpenAI File Retention Policies · Notion AI Security Practices · GDPR at Notion · Стаття 83 GDPR