Ви обираєте AI-сервіс для роботи з корпоративними документами і бачите два табори: зручні хмарні рішення типу ChatGPT або Notion AI — і self-hosted варіанти де все розгортається на власному сервері. Різниця в зручності очевидна. Але де при цьому фізично опиняються ваші документи — питання яке більшість бізнесів не задають до першого аудиту GDPR. Коротка відповідь: хмарні сервіси зберігають ваші дані на серверах у США. Self-hosted — лише на вашому сервері. Для бізнесу в ЄС це різниця між відповідністю і порушенням.
⚡ Коротко
- ☁️ OpenAI FileSearch: файли зберігаються на серверах OpenAI (США, Microsoft Azure) — за замовчуванням без прив'язки до ЄС
- 📓 Notion AI: дані обробляються через субпроцесорів (Anthropic, OpenAI) — сервери поза вашим контролем
- 🏠 Self-hosted: всі компоненти на вашому сервері — ніхто зовні не має доступу
- ⚖️ GDPR-статус: хмара потребує DPA + SCCs + DPIA; self-hosted — базово відповідає при сервері в ЄС
- 🏥 Для медицини і юристів: хмарний AI юридично неприйнятний без спеціальних заходів
- 👇 Нижче — детальний розбір кожного варіанту з реальними фактами з документації провайдерів
📚 Зміст
- Як працює хмарний AI з вашими документами
- Де фізично зберігає дані OpenAI FileSearch
- Де фізично зберігає дані Notion AI
- Що означає self-hosted і чим відрізняється архітектурно
- Порівняльна таблиця: OpenAI vs Notion vs self-hosted
- Для яких бізнесів хмара неприйнятна юридично
- Висновок: коли self-hosted єдиний варіант
- Часті питання
- Висновки
- Хочете перевірити свій варіант?
Як працює хмарний AI з вашими документами
Коли ви завантажуєте документ у хмарний AI-сервіс — він фізично копіюється на сервери провайдера. Там він розбивається на фрагменти, індексується і зберігається для відповіді на ваші запити. Ваш документ більше не тільки у вас.
Хмарний AI-сервіс — це зручно. Ви реєструєтесь, завантажуєте PDF, і за секунди отримуєте відповіді. Але за цією зручністю стоїть технічний процес який більшість користувачів не бачать.
Ось що відбувається з вашим документом після завантаження в хмарний сервіс:
- ✔️ Передача: файл надсилається через інтернет на сервери провайдера — зашифровано, але до чужої інфраструктури
- ✔️ Парсинг і chunking: документ розбивається на текстові фрагменти по кілька сотень слів кожен
- ✔️ Векторизація: кожен фрагмент перетворюється на числовий вектор і зберігається у векторній базі даних провайдера
- ✔️ Зберігання: і оригінальний файл, і вектори залишаються на серверах провайдера — часто без чіткого терміну зберігання для безкоштовних планів
- ✔️ Запити: кожне ваше питання до AI також надсилається на сервери провайдера і може зберігатися в логах
Для особистого використання — це норма. Але для корпоративних документів що містять персональні дані клієнтів, медичні записи або адвокатську таємницю — кожен з цих кроків є юридично значущим з точки зору GDPR. Детальне порівняння популярних AI-сервісів для документів — у нашому огляді 5 AI-сервісів для роботи з документами: порівняння для бізнесу →
Важливо розуміти: провайдер не обов'язково зловживає вашими даними. Але сам факт того що ваші документи фізично знаходяться на його серверах — означає що він є обробником персональних даних за GDPR, і весь ланцюжок вимог (DPA, оцінка ризиків трансферу, DPIA) стає обов'язковим.
Підсумок: хмарний AI — це завжди передача ваших документів третій стороні. Питання в тому чи ця третя сторона знаходиться у правильній юрисдикції і чи є у вас необхідна документація.
Де фізично зберігає дані OpenAI FileSearch
OpenAI FileSearch зберігає завантажені файли і векторні індекси на серверах OpenAI у США (інфраструктура Microsoft Azure). Для стандартних API-клієнтів вибір регіону зберігання недоступний. Вибір регіону ЄС можливий лише для Enterprise-клієнтів ChatGPT — окремий продукт з окремою ціною.
OpenAI FileSearch — це вбудований інструмент для пошуку по завантажених документах у рамках Assistants API і Responses API. Технічно він працює так: ви завантажуєте файл, він автоматично розбивається на фрагменти, векторизується і зберігається у так званому vector store на серверах OpenAI.
Що важливо знати про зберігання даних за офіційною документацією OpenAI:
- ✔️ Локація за замовчуванням: сервери OpenAI у США, інфраструктура Microsoft Azure. Для стандартних API-клієнтів вибрати регіон ЄС неможливо
- ✔️ Термін зберігання файлів: vector stores з прикріпленими файлами за замовчуванням видаляються через 7 днів після останнього використання. Але файли у бібліотеці зберігаються до ручного видалення або видалення акаунту
- ✔️ Запити і логи: згідно з політикою конфіденційності OpenAI для ЄС, для трансферу даних за межі ЄС OpenAI використовує стандартні договірні клаузули (SCC) — але після Schrems II цього може бути недостатньо
- ✔️ Навчання моделей: для API-клієнтів і Enterprise-планів OpenAI офіційно не використовує дані для навчання моделей. Для безкоштовних і Plus-користувачів — за замовчуванням використовує, якщо не вимкнути в налаштуваннях
- ✔️ Доступ співробітників: OpenAI може переглядати контент для безпеки і покращення сервісу. Повного технічного виключення доступу немає
Є нюанс: ChatGPT Enterprise пропонує data residency — можливість зберігати дані в регіоні ЄС. Але це окремий корпоративний продукт вартістю від кількох тисяч доларів на рік, а не стандартний API-доступ. Більшість малого і середнього бізнесу використовують стандартний API або ChatGPT Plus — без опції вибору регіону.
Висновок: якщо ви використовуєте OpenAI FileSearch через стандартний API для роботи з документами що містять персональні дані ЄС — ваші дані зберігаються в США без вибору регіону. Це потребує окремої правової бази для транскордонного трансферу за статтями 44–49 GDPR.
Підсумок: OpenAI FileSearch — потужний інструмент, але для GDPR-відповідного корпоративного використання потребує Enterprise-плану або додаткових юридичних заходів які більшість бізнесів просто не роблять.
Де фізично зберігає дані Notion AI
Notion AI передає контент вашого workspace до субпроцесорів — Anthropic і OpenAI — для генерації відповідей. Сервери Notion знаходяться в США (AWS). Для Enterprise-плану є zero data retention у субпроцесорів, але не у самого Notion.
Notion — це популярна платформа для корпоративних баз знань. З додаванням Notion AI бізнеси отримали можливість ставити питання по своїх документах прямо в інтерфейсі. Але за цією зручністю стоїть складніший ланцюжок обробки даних.
Ось що відбувається з вашими даними в Notion AI за офіційною документацією Notion:
- ✔️ Субпроцесори: Notion AI використовує сторонніх LLM-провайдерів — зокрема Anthropic і OpenAI. Коли ви ставите питання, релевантний контент вашого workspace передається до цих провайдерів для генерації відповіді. Повний список субпроцесорів — на сторінці Notion AI security practices
- ✔️ Локація серверів Notion: США, інфраструктура AWS. Notion підписав SCCs для трансферу даних з ЄС, але сервери фізично в США
- ✔️ Zero data retention у субпроцесорів: для Enterprise-плану субпроцесори (Anthropic, OpenAI) не зберігають дані після обробки запиту. Для стандартних планів — це не гарантовано
- ✔️ Навчання моделей: Notion офіційно заявляє що не використовує дані клієнтів для навчання власних або сторонніх моделей
- ✔️ Шифрування: дані шифруються при передачі (TLS) і при зберіганні (AES-256)
Ключова проблема для GDPR: навіть якщо Notion має DPA і SCCs — ваші дані все одно фізично передаються через кілька американських компаній (Notion → Anthropic або OpenAI). Кожна ланка цього ланцюжка є потенційною точкою відповідальності.
Для бізнесу що обробляє чутливі дані це означає: перед використанням Notion AI необхідно підписати DPA з Notion, переконатися що ваш план включає zero retention у субпроцесорів (тобто Enterprise), провести DPIA і мати правову основу для трансферу до США. На практиці — це робота юриста на кілька тижнів.
Підсумок: Notion AI зручний, але ланцюжок субпроцесорів і американські сервери створюють GDPR-навантаження яке більшість малого і середнього бізнесу просто не усвідомлює при реєстрації.
Що означає self-hosted і чим відрізняється архітектурно
Self-hosted AI — це коли всі компоненти системи (база даних, векторний індекс, документи і опціонально сама AI-модель) розгорнуті на вашому сервері. Дані нікуди не передаються — вони завжди у вас.
Уявіть різницю між двома сценаріями. У першому — ви здаєте документи на зберігання до стороннього архіву. Зручно, але вони вже не у вас. У другому — ви будуєте власну архівну кімнату у своєму офісі. Більше відповідальності, але повний контроль.
Self-hosted AI-асистент на документах працює саме за другим принципом. Ось з чого складається архітектура:
- ✔️ Ваш сервер (VPS): орендований або власний сервер у будь-якому регіоні — для GDPR-відповідності обирається Німеччина, Австрія, Нідерланди або інша країна ЄС
- ✔️ База даних з векторним пошуком: PostgreSQL з розширенням pgvector — зберігає ваші документи і векторні індекси локально на сервері
- ✔️ AI-модель (два варіанти):
- Гібридний режим — LLM зовнішній (OpenAI, Mistral через API), але до нього передаються лише анонімізовані текстові фрагменти без назв файлів і метаданих
- Закритий контур — LLM локальна (Ollama з Llama або Mistral), жоден запит не виходить за межі вашого сервера
- ✔️ Чат-інтерфейс: веб-віджет або API, доступні лише з дозволених доменів (origin filter)
З точки зору GDPR ця архітектура принципово інша: немає зовнішнього обробника даних, немає транскордонного трансферу (при сервері в ЄС), немає необхідності у DPA з AI-провайдером. Ваша компанія є і контролером, і де-факто обробником — весь ланцюжок відповідальності залишається у вас.
Важливо: self-hosted не означає "зроби сам". AskYourDocs розгортається під ключ за 5–10 робочих дні — від налаштування сервера до завантаження документів і налаштування чат-віджету. Після передачі проекту ми не маємо технічного доступу до вашої бази даних і документів — ви отримуєте повний контроль разом з доступами адміністратора. Детальніше про процес впровадження — на сторінці наших послуг →
Підсумок: self-hosted AI — це не складно і не дорого. Це інша архітектура де ваші дані ніколи не залишають ваш контур.
Порівняльна таблиця: OpenAI vs Notion vs self-hosted
Головна різниця — не в якості відповідей, а в тому де фізично знаходяться ваші дані і хто має до них доступ.
| Параметр | OpenAI FileSearch | Notion AI | AskYourDocs (self-hosted) |
|---|---|---|---|
| Де зберігаються документи | Сервери OpenAI (США) | Сервери Notion (США, AWS) | Ваш сервер (ЄС або де завгодно) |
| Треті сторони з доступом до даних | OpenAI, Microsoft | Notion, Anthropic, OpenAI | Немає |
| Трансфер даних за межі ЄС | Так (США) | Так (США) | Ні (при сервері в ЄС) |
| Потрібен DPA | Так | Так | Ні |
| Навчання моделей на ваших даних | Ні (API/Enterprise) | Ні (офіційно) | Ні (технічно неможливо) |
| Закритий контур (без інтернету) | Неможливо | Неможливо | Так (з Ollama) |
| GDPR без додаткових заходів | Ні | Ні | Так (при сервері в ЄС) |
| Вибір LLM-провайдера | Тільки OpenAI | Тільки Notion/OpenAI/Anthropic | Будь-який |
| Вартість впровадження | Pay-per-use API | від $16/міс/користувач | від $500 разово |
| Vendor lock-in | Повний | Повний | Немає |
Кілька важливих уточнень до таблиці:
- ✔️ OpenAI Enterprise пропонує data residency в ЄС — але це окремий корпоративний продукт з індивідуальним ціноутворенням, недоступний для більшості малого і середнього бізнесу
- ✔️ Notion Enterprise пропонує zero retention у субпроцесорів — але дані все одно зберігаються на серверах Notion у США
- ✔️ "Навчання моделей — ні" у хмарних провайдерів — це офіційна заява, але технічна перевірка цього неможлива
Підсумок: для бізнесу що серйозно ставиться до GDPR — таблиця говорить сама за себе. Self-hosted вирішує питання яке хмарні сервіси лише намагаються пом'якшити договорами.