Der Direktor einer Anwaltskanzlei in Wien fragt: "Wir wollen Self-hosted AI – was sollen wir kaufen und wo unterbringen?" Die meisten Artikel zu dieser Frage sind entweder zu technisch oder für Entwickler geschrieben. Dieser Leitfaden richtet sich an den entscheidungsbefugten Manager, der sich nicht mit GPU-Spezifikationen auseinandersetzen möchte. Hier finden Sie alles, was Sie wissen müssen: welche Anbieter Sie wählen sollten, wie viel Sie bezahlen und was Sie Ihren Auftragnehmer fragen sollten, bevor Sie einen Vertrag unterschreiben.
⚡ Kurzfassung für Eilige
- 🏠 Ein eigener Server ist notwendig, wenn Daten Ihre Infrastruktur nicht verlassen dürfen – Medizin, Recht, HR, Finanzen
- 🚫 AWS und Azure Germany lösen das DSGVO-Problem nicht – das sind US-Unternehmen unter dem CLOUD Act, unabhängig vom Serverstandort
- ✅ Sichere Anbieter für die EU: Hetzner (Nürnberg/Finnland), OVH (Straßburg), Contabo (München)
- 💻 CPU oder GPU: CPU – für interne Tools, bei denen 30–90 Sek. akzeptabel sind. GPU – für öffentliche Chats oder wenn <10 Sek. benötigt werden
- 💰 Reale Kosten: ab €4–8/Monat (CPU, Kleinunternehmen) bis €184/Monat (GPU für Production AI)
- 🤝 Nach dem Start: Der Auftragnehmer richtet es ein, Sie oder Ihr Administrator verwalten es. Oder der Auftragnehmer übernimmt die Wartung
📚 Inhalt
Warum überhaupt ein eigener Server benötigt wird
Ein eigener Server ist kein Selbstzweck. Er ist die Folge einer konkreten Anforderung: Ihre Daten dürfen nicht auf fremder Infrastruktur verarbeitet werden. Wenn diese Anforderung nicht besteht, kann Cloud AI eine günstigere und einfachere Option sein.
Die meisten unserer Kunden bei AskYourDocs kommen mit einer konkreten Frage – nicht "ich möchte einen eigenen Server", sondern "können wir Cloud AI legal nutzen?". Die Antwort bestimmt, ob überhaupt ein Server benötigt wird.
Drei Gründe für die Wahl eines eigenen Servers
Grund 1: Gesetzliche Anforderung. Medizinische Daten, Anwaltsgeheimnis, Kundenfinanzdaten – all dies unterliegt Vorschriften, die eine Übermittlung an externe KI-Anbieter unmöglich machen oder einen separaten Genehmigungsaufwand von Tausenden von Euro erfordern. Ein eigener Server löst dies technisch: Die Daten verlassen Ihre Infrastruktur physisch nicht.
Grund 2: Vorhersehbare Kosten. Cloud AI kostet "pro Anfrage" – Sie wissen die Rechnung des nächsten Monats nicht im Voraus. Eigener Server: eine feste Rechnung, unabhängig von der Anzahl der Anfragen. Bei über 500 Anfragen pro Tag wird ein eigener Server günstiger als eine Cloud API.
Grund 3: Unabhängigkeit. OpenAI kann Preise, Bedingungen ändern oder den Zugang sogar widerrufen. Ihr Modell auf Ihrem Server: ändert sich nicht ohne Ihr Wissen, hängt nicht von den Entscheidungen eines US-Unternehmens ab und funktioniert auch dann, wenn der KI-Anbieter ausfällt.
Wann ein eigener Server NICHT benötigt wird: Wenn Sie gerade erst anfangen, Ihre Dokumente keine personenbezogenen Daten enthalten und die Auslastung unter 200 Anfragen pro Tag liegt – starten Sie mit einer Cloud API und wechseln Sie zu einem eigenen Server, sobald Sie bestätigt haben, dass der Wert bestätigt ist. Wir empfehlen immer, mit der Option zu starten, die es Ihnen ermöglicht, eine Hypothese schnell zu testen.
Warum AWS und Azure Germany das DSGVO-Problem nicht lösen
Der häufigste Fehler, den wir sehen: Ein Unternehmen wählt die "EU-Region" bei AWS oder Azure und glaubt damit das DSGVO-Problem gelöst zu haben. Das ist nicht der Fall. Der physische Standort des Servers und die rechtliche Gerichtsbarkeit über die Daten sind zwei verschiedene Dinge.
Dies ist der Abschnitt, den wir für den wichtigsten in diesem Artikel halten – und der in den meisten Leitfäden zu KI-Servern ignoriert wird. Deshalb erklären wir ihn detailliert und einfach.
Was ist der CLOUD Act und warum betrifft er Ihr Unternehmen?
Im Jahr 2018 verabschiedeten die USA den Clarifying Lawful Overseas Use of Data Act (CLOUD Act). Dieses Gesetz erlaubt US-Strafverfolgungsbehörden, von US-Unternehmen zu verlangen, dass sie Zugang zu allen Daten ihrer Kunden gewähren – unabhängig davon, wo die Server physisch stehen.
Einfach ausgedrückt: Stellen Sie sich vor, Sie mieten ein Schließfach bei einer Bank in Frankfurt. Aber diese Bank ist eine US-amerikanische. US-Bundesagenten haben das Recht, sich an die Bank in den USA zu wenden und die Herausgabe Ihres Schließfachs in Frankfurt zu verlangen – und die Bank ist verpflichtet, dies zu tun, ohne Sie zu informieren. So funktioniert der CLOUD Act für AWS, Azure und Google Cloud.
AWS EU-Central-1 (Frankfurt), Azure Germany West Central, Google Cloud Europe-West – all diese Optionen befinden sich physisch in der EU, werden aber von US-Unternehmen verwaltet. Der CLOUD Act gilt uneingeschränkt für sie.
Warum das für Unternehmen in Österreich und Deutschland kritisch ist
Die österreichische Aufsichtsbehörde DSB stellte im Fall Google Analytics (2022) den strengsten Standard in der EU fest: Es reicht nicht aus zu behaupten, dass "die Wahrscheinlichkeit des Zugriffs durch US-Geheimdienste auf Ihre Daten gering ist". Eine technische Unmöglichkeit eines solchen Zugriffs ist erforderlich. Kein US-Cloud-Anbieter kann eine solche Garantie geben – per Definition.
Für medizinische Zentren und Anwaltskanzleien in Österreich und Deutschland bedeutet dies: AWS und Azure Germany sind unabhängig von Preis und Produktqualität keine akzeptable Lösung. Ein Anbieter unter EU-Gerichtsbarkeit ist erforderlich.
| Anbieter |
Physischer Standort |
Gerichtsbarkeit |
CLOUD Act |
Geeignet für EU/AT/DE? |
| AWS EU-Central-1 |
Frankfurt, DE |
🇺🇸 USA |
✅ Gilt |
❌ Nein |
| Azure Germany West Central |
Frankfurt, DE |
🇺🇸 USA |
✅ Gilt |
❌ Nein |
| Google Cloud Europe-West |
Belgien/Niederlande |
🇺🇸 USA |
✅ Gilt |
❌ Nein |
| Hetzner |
Nürnberg/Falkenstein DE, Helsinki FI |
🇩🇪 Deutschland |
❌ Gilt nicht |
✅ Ja |
| OVHcloud |
Straßburg FR, Warschau PL |
🇫🇷 Frankreich |
❌ Gilt nicht |
✅ Ja |
| Contabo |
München DE, Nürnberg DE |
🇩🇪 Deutschland |
❌ Gilt nicht |
✅ Ja |
Welche Region und welchen Anbieter wählen: Hetzner, OVH, Contabo
Für die meisten Unternehmen in AT/DE empfehlen wir Hetzner als erste Wahl – das beste Preis-Leistungs-Verhältnis/GDPR-Konformität unter den EU-Anbietern. OVH und Contabo sind je nach Aufgabe würdige Alternativen.
Wichtiges Update: Hetzner hat die Preise zum 1. April 2026 um 30–37% erhöht, aufgrund steigender Kosten für Server-Speicher (HBM für GPUs). Auch nach der Erhöhung bleibt Hetzner 2,5–3,3 Mal günstiger als AWS/GCP für vergleichbare Konfigurationen.
Hetzner Online – unsere Standardwahl
Hetzner Online GmbH ist ein privates Unternehmen mit Hauptsitz in Gunzenhausen, Bayern. Rechenzentren in Nürnberg, Falkenstein (Sachsen) und Helsinki. ISO 27001 zertifiziert. Flatrate-Tarife ohne versteckte Verkehrsgebühren (bis zu 20 TB in den EU-Regionen inklusive). Technischer Support – hauptsächlich über das Ticketsystem, kein 24/7-Telefon.
Ideal für: die meisten KMUs, die maximale Leistung zum minimalen Preis mit garantierter EU-Gerichtsbarkeit suchen. Unsere Wahl für 90% der Kunden.
OVHcloud – französische Alternative
OVH SAS ist ein französisches Unternehmen (Iliad-Gruppe), einer der größten Hosting-Anbieter in der EU. Rechenzentren in Straßburg, Roubaix, Warschau. Breiteres Spektrum an Managed Services als Hetzner. Die Preise sind etwas höher, aber es gibt Managed-Stufen für diejenigen, die ihren Server nicht selbst verwalten möchten.
Ideal für: Unternehmen, die mehr Support oder zusätzliche Managed Services (Datenbanken, Load Balancer) benötigen. Eine gute Alternative, wenn Hetzner aus technischen Gründen nicht passt.
Contabo – der günstigste CPU-Anbieter
Contabo GmbH ist ein Münchner Unternehmen seit 2003, die größte Menge an CPU-Ressourcen zum kleinsten Preis auf dem Markt. 4 vCPU / 8 GB RAM ab €4,50/Monat – das ist ein Rekord auf dem EU-Markt. ISO 27001. Support per Ticket.
Wichtig zu Contabo GPUs: Ihre GPU-Server sind auf den Enterprise-Bereich ausgerichtet (NVIDIA H100, L40S) und beginnen bei $790/Monat – nicht geeignet für KMU-KI-Aufgaben. Für GPU-Server wählen Sie Hetzner oder Scaleway.
Ideal für: reine CPU-Installationen kleiner Unternehmen, bei denen der Preis entscheidend ist und keine GPU benötigt wird.
| Anbieter |
CPU VPS ab |
GPU-Server ab |
Standort |
Support |
Am besten für |
| Hetzner ⭐ |
€3.49/Monat |
€184/Monat (RTX 4000 Ada 20 GB) |
DE, FI |
Ticket |
Die meisten Projekte – CPU und GPU |
| OVHcloud |
€3.99/Monat |
ab €100/Monat |
FR, PL |
Ticket + Telefon |
Managed Services, mehr Support |
| Contabo |
€4.50/Monat |
ab $790/Monat (H100) |
DE |
Ticket |
Nur CPU, maximale Günstigkeit |
| Scaleway |
€3.99/Monat |
ab €150/Monat |
FR |
Ticket |
Alternative für GPU in Frankreich |
CPU oder GPU: Was wirklich zählt und wann eine GPU benötigt wird
Eine GPU ist nicht per se „besser“ oder „leistungsfähiger“. Eine GPU bedeutet „schneller“. Eine CPU bedeutet „langsamer, aber günstiger“. Die Frage ist, ob eine Antwort in 30–90 Sekunden statt in 5–10 Sekunden für Ihr Szenario akzeptabel ist. Für die meisten internen Tools ist dies akzeptabel.
Dies ist eine Frage, die wir bei jedem ersten Kundengespräch erläutern. Die meisten Führungskräfte denken, dass eine GPU zwingend erforderlich ist. Tatsächlich hängt es davon ab, wer auf die Antwort wartet und wie lange er bereit ist zu warten.
Eine einfache Analogie
Eine CPU ist wie ein erfahrener, leitender Anwalt: Sie denkt methodisch, liefert eine genaue Antwort, benötigt aber mehr Zeit. Eine GPU ist wie ein ganzes Team von parallelen Assistenten: Sie antworten dank massiver Parallelverarbeitung nahezu gleichzeitig. Bei einem Dokument, bei dem die Antwort in beiden Fällen gleich ist, geht es nur um die Wartezeit.
Wann eine CPU ausreicht
- Internes Tool für Mitarbeiter: Ein Manager stellt eine Frage und beschäftigt sich mit etwas anderem, während er auf die Antwort wartet. 30–60 Sekunden sind akzeptabel. Vergleichen Sie das mit 20 Minuten manueller Suche in Dokumenten.
- Nächtliche oder Hintergrundverarbeitung von Dokumenten: Berichte, Analysen, Zusammenfassungen ohne Echtzeitanforderung – eine CPU ist ideal.
- Modelle bis zu 14B Parametern: Llama 3.2 8B oder Qwen3 14B auf einer CPU liefern 5–15 Token/Sekunde – eine Antwort in 30–90 Sekunden.
- Das Budget ist begrenzt und Sie möchten testen: Beginnen Sie mit einer CPU, wechseln Sie zu einer GPU, sobald der Wert bestätigt ist.
Wann eine GPU zwingend erforderlich ist
- Öffentlicher Chat auf der Website – Kunden oder Patienten: Eine Person wartet in Echtzeit auf eine Antwort. 30 Sekunden Wartezeit = verlassener Chat. Weniger als 10 Sekunden sind erforderlich – eine GPU ist notwendig.
- Telegram- oder WhatsApp-Bot mit externer Zielgruppe: Ähnlich – das Warten muss angenehm sein.
- Modelle mit 22B+ Parametern: Mistral Small 3 (24B) oder Gemma 4 26B ohne GPU – 60–120 Sekunden. Mit einer 16-GB-GPU – 5–10 Sekunden.
- Mehr als 10 gleichzeitige Benutzer: Eine CPU verarbeitet Anfragen sequenziell, eine GPU parallel.
| Szenario |
CPU ausreichend? |
Empfehlung |
| Internes FAQ für 5–10 Mitarbeiter |
✅ Ja |
CPU-Server, Llama 3.2 8B oder Qwen3 14B |
| Öffentlicher Chat auf der Website einer Klinik |
❌ Nein |
GPU 16 GB, Gemma 4 26B oder Mistral Small 3 |
| Telegram-Bot für internes Team |
✅ Ja (wenn 60 Sek. Antwort okay sind) |
CPU oder GPU, abhängig von der Wartezeit-Toleranz |
| Anwaltskanzlei, Suche in Verträgen |
✅ Ja für intern |
CPU für den Anfang, GPU, wenn Sie Llama 3.3 70B wünschen |
| Medizinisches Zentrum, Antworten an Patienten |
❌ Nein |
GPU zwingend erforderlich – Patient wartet in Echtzeit. |
Welche Serverkonfiguration passt zu Ihrem Maßstab
Drei Parameter bestimmen die benötigte Konfiguration: wie viele Dokumente im System sind, wie viele Anfragen pro Tag erfolgen und welches Modell für die Antwortqualität benötigt wird. Der Rest sind Folgen dieser drei.
Wir empfehlen keine „Mindestanforderungen“ ohne Kontext – das ist sinnlos. Stattdessen sind hier vier typische Szenarien, die wir bei Kunden sehen.
| Szenario |
Dokumente |
Anfragen/Tag |
Konfiguration |
Modell |
Anbieter |
Start / Test Kleines Büro, internes FAQ |
bis zu 200 |
bis zu 50 |
Nur CPU 4 vCPU / 16 GB RAM / 100 GB SSD |
Llama 3.2 8B oder Qwen3 14B |
Contabo oder Hetzner CX |
Produktion ohne GPU Internes Unternehmens-Tool |
200–1000 |
50–200 |
Nur CPU 8 vCPU / 32 GB RAM / 200 GB SSD |
Qwen3 14B oder Llama 3.3 70B (langsam) |
Hetzner CPX oder Contabo VPS XL |
Produktion mit GPU Öffentlicher Chat, Kunden/Patienten |
500–5000 |
200–500 |
GPU 16–20 GB 32–64 GB RAM / 500 GB SSD |
Gemma 4 26B oder Mistral Small 3 |
Hetzner GEX44 (€184/Monat) |
Hohe Qualität Anwaltskanzlei, medizinisches Zentrum, maximale Genauigkeit |
1000+ |
200–500 |
GPU 48 GB oder 2×GPU 128 GB RAM / 1 TB SSD |
Llama 3.3 70B Q4 |
Hetzner Dedicated oder eigener Server |
Unser Rat für den Start: Beginnen Sie mit einer reinen CPU-Konfiguration und einer realen Last für 2–4 Wochen. Wenn die Geschwindigkeit nicht ausreicht, dauert der Wechsel zu einer GPU 1 Tag, und die Dokumente sind bereits im System. Eine sofortige Überzahlung für eine GPU ohne bestätigten Bedarf ist nicht gerechtfertigt.
Separat zu RAM und Festplatte
RAM: Das Modell wird vollständig in den Speicher geladen. Llama 3.2 8B benötigt ca. 6 GB, Gemma 4 26B – ca. 15 GB, Llama 3.3 70B – ca. 43 GB. Nehmen Sie immer RAM mit einem Puffer von ca. 30 % für das Betriebssystem und die Datenbank. Wenig RAM = Modell teilweise auf der Festplatte = sehr langsam.
Festplatte: Die Modelle selbst belegen 5 bis 43 GB. Ihre Dokumente – normalerweise 1–10 GB, selbst für große Archive (Text ist sehr kompakt). Vektordatenbank (pgvector) – noch einige GB. 200 GB SSD sind für die meisten KMU ausreichend.
Was ein Server monatlich wirklich kostet
„Was kostet ein Server?“ – eine Frage ohne Antwort ohne Kontext. Die richtige Frage lautet: „Was kostet ein Server für meine Aufgaben im Vergleich zu Cloud-KI?“ Hier ist ein ehrlicher Vergleich.
Preise gültig ab Juni 2026. Hetzner hat die Preise am 1. April 2026 um 30–37 % erhöht – bleibt aber der günstigste DSGVO-konforme EU-Anbieter für KI-Aufgaben.
Aktuelle Hetzner-Preise (nach Erhöhung April 2026)
| Konfiguration |
Spezifikationen |
Preis/Monat |
Geeignet für |
| CX23 (CPU) |
2 vCPU / 4 GB RAM / 40 GB SSD |
€3.49 |
Nur Tests, minimale Last |
| CX33 (CPU) |
4 vCPU / 8 GB RAM / 80 GB SSD |
€7.99 |
Kleines Modell, bis zu 20 Anfragen/Tag |
| CX43 (CPU) |
8 vCPU / 16 GB RAM / 160 GB SSD |
~€18 |
Qwen3 14B, bis zu 50 Anfragen/Tag |
| CPX51 (CPU) |
16 vCPU / 32 GB RAM / 360 GB SSD |
~€45 |
Qwen3 14B schnell oder Llama 70B langsam |
| GEX44 (GPU) ⭐ |
Intel Core i5 / 64 GB RAM / NVIDIA RTX 4000 Ada 20 GB |
€184 |
Gemma 4 26B oder Mistral Small 3, bis zu 500 Anfragen/Tag |
Vergleich mit Cloud-Alternativen
| Option |
Kosten pro Monat |
DSGVO |
Hinweise |
| OpenAI GPT-4o mini API (500 Anfragen/Tag) |
~$12–24 |
⚠️ Risiko |
Günstig, aber Daten gehen in die USA |
| OpenAI GPT-4o API (500 Anfragen/Tag) |
~$100–200 |
⚠️ Risiko |
Teuer und Daten gehen in die USA |
| Hetzner CPU + Llama 3.2 8B |
€7–18 |
✅ Vollständig |
Langsam (~60 Sek.), aber sicher und günstig |
| Hetzner GPU GEX44 + Gemma 4 26B |
€184 |
✅ Vollständig |
5–8 Sek. Antwort, unbegrenzte Anzahl Anfragen |
| AWS/Azure GPU-Äquivalent |
$400–600 |
❌ CLOUD Act |
2,5–3x teurer als Hetzner |
Versteckte Kosten, die nicht in der Werbung sichtbar sind
- IPv4-Adresse: Hetzner zusätzlich 0,50 €/Monat. Erforderlich, wenn ein Telegram-Bot oder ein öffentlicher Web-Chat vorhanden ist.
- Backup: +20 % des Serverpreises bei Hetzner (z. B. +37 €/Monat für GEX44). Wir empfehlen immer, dies zu aktivieren.
- Eingehender Traffic: Kostenlos bei allen EU-Anbietern. Ausgehender Traffic – bis zu 20 TB kostenlos bei Hetzner (praktisch unbegrenzt für KI-Chat).
- Bereitstellung durch Auftragnehmer: Einmalige Zahlung für die Einrichtung (normalerweise 300–800 €, je nach Komplexität).
Wer ist nach der Inbetriebnahme für den Server verantwortlich – und was kostet Sie das
Die häufigste Frage nach der Demo: „Und wer wartet das Ganze dann?“ Die Antwort ist einfach: entweder Ihr Administrator nach einer Schulung oder ein Dienstleister gegen eine monatliche Gebühr. Es gibt keine dritte Option.
„Server“ klingt für einen nicht-technischen Manager einschüchternd. In der Praxis erfordert ein korrekt eingerichteter KI-Assistent auf einem Server nach der ersten Einrichtung weitaus weniger Aufmerksamkeit, als die meisten Leute denken.
Was muss nach der Inbetriebnahme überhaupt „gewartet“ werden?
Es gibt vier Dinge, die Aufmerksamkeit erfordern:
- Aktualisierung von Dokumenten: Jemand aus Ihrem Team lädt neue oder aktualisierte Dokumente über das Admin-Panel hoch. Drag-and-drop, dauert eine Minute. Keine IT-Kenntnisse erforderlich – ein Administrator oder eine Sekretärin kann das erledigen.
- Neustart bei Ausfall: Hetzner startet den Server bei einem Hardware-Ausfall automatisch neu. Docker-Container mit KI starten beim Neustart automatisch. In der Praxis bedeutet das 2–3 Minuten Ausfallzeit alle paar Monate.
- Software-Updates und Sicherheit: Updates für Ubuntu, Docker, Abhängigkeiten. Einmal im Monat erforderlich. Ihr IT-Team oder ein Dienstleister.
- Monitoring: Ob das System auf Anfragen reagiert. Basismonitoring von Hetzner ist inklusive, erweitertes Monitoring erfordert zusätzliche Tools.
Zwei Optionen nach der Systemübergabe
Option A: Ihr Administrator verwaltet selbst. Nach der Projektübergabe schulen wir eine Person aus Ihrem Team – normalerweise 2–3 Stunden. Diese Person kann Dokumente hochladen, den Dienst bei Bedarf neu starten und Fragen des Teams beantworten. Für komplexere Aufgaben (Updates, Einrichtung neuer Schnittstellen) können Sie uns einmalig kontaktieren.
Option B: Dienstleister mit monatlicher Wartung. Wir oder ein anderer Dienstleister übernehmen die volle technische Verantwortung: Monitoring, Updates, Reaktion auf Ausfälle, Beratung. Kostet ab 50 $ bis 200 $/Monat, je nach Umfang. Geeignet, wenn Ihr Unternehmen keinen IT-Spezialisten hat.
|
Option A: Eigenverwaltung |
Option B: Dienstleister |
| Kosten |
0 $/Monat (nur Zeit des Administrators) |
50–200 $/Monat |
| Wer wird benötigt |
1 Person mit grundlegendem IT-Verständnis |
Niemand – der Dienstleister kümmert sich selbst darum |
| Reaktionszeit bei Ausfall |
Abhängig davon, wie schnell der Administrator antwortet |
SLA – normalerweise 2–4 Stunden während der Geschäftszeiten |
| Geeignet für |
Unternehmen mit IT-Spezialist oder aktivem Administrator |
Unternehmen ohne IT oder mit kritischen Anforderungen an die Betriebszeit |
Unsere Empfehlung: Für die meisten KMUs ist Option A nach kurzer Schulung völlig ausreichend. Option B ist gerechtfertigt für öffentliche Dienste (Chat auf der Website einer Klinik), wo Ausfallzeiten sich direkt auf das Kundenerlebnis auswirken.
Was Sie den Dienstleister vor Vertragsunterzeichnung fragen sollten
Die meisten Manager wissen nicht, was sie den Dienstleister fragen sollen – und unterschreiben Verträge, ohne die wichtigsten Dinge zu verstehen. Diese acht Fragen schützen Sie vor unangenehmen Überraschungen nach der Inbetriebnahme.
Dieser Abschnitt richtet sich an diejenigen, die einen Vertrag für die Implementierung eines KI-Assistenten abschließen wollen. Egal, ob es sich um uns bei AskYourDocs oder einen anderen Dienstleister handelt – fragen Sie dies vor der Unterzeichnung.
1. Welcher Serveranbieter und wo befinden sich die Daten physisch?
Korrekte Antwort: Konkreter Name eines EU-Anbieters (Hetzner, OVH, Contabo) und ein spezifisches Rechenzentrum. „Server in der EU“ ohne Details reicht nicht aus. „AWS Frankfurt“ ist keine korrekte Antwort für datenschutzsensible Daten nach DSGVO.
2. Welches Modell wird installiert und warum genau dieses?
Korrekte Antwort: Konkreter Name (z. B. „Gemma 4 26B über Ollama“) mit einer Erklärung, warum dieses Modell für Ihre Aufgabe geeignet ist. Wenn der Dienstleister die Wahl des Modells nicht erklären kann, versteht er die Architektur nicht.
3. Wer hat nach der Übergabe Zugriff auf den Server?
Korrekte Antwort: Nach der Übergabe nur Ihre Administratoren. Der Dienstleister sollte ohne Ihre explizite Aufforderung keinen dauerhaften Zugriff haben. Ein Dienstleister, der sich ohne Ihr Wissen einen „Backdoor“ für den Support offen lässt, ist ein rechtliches Problem.
4. Was passiert mit den Daten, wenn Sie die Zusammenarbeit einstellen?
Korrekte Antwort: Da der Server Ihnen gehört oder auf Ihren Namen gemietet ist, zahlen Sie einfach weiter an den Hosting-Anbieter und das System läuft. Wenn der Server auf den Namen des Dienstleisters gemietet ist, verlangen Sie die Übertragung vor Vertragsunterzeichnung.
5. Welche garantierte Antwortqualität gibt es und wie wird diese überprüft?
Korrekte Antwort: Der Dienstleister sollte den Abnahmetestprozess beschreiben – spezifische Fragen, Kriterien für die Antwortqualität, was passiert, wenn die Qualität nicht erreicht wird. Garantien wie „wird gut antworten“ ohne Metrik sind leere Worte.
6. Was kostet die Aktualisierung von Dokumenten nach der Inbetriebnahme?
Korrekte Antwort: Die Aktualisierung von Dokumenten über das Admin-Panel sollte einfach und kostenlos für Sie sein. Wenn der Dienstleister für jeden Upload eines neuen Dokuments Gebühren verlangt, handelt es sich entweder um eine schlechte Architektur oder um Manipulation.
7. Was ist im Einführungspreis enthalten und was kostet extra?
Korrekte Antwort: Eine klare Auflistung: Server, Softwareinstallation, Dokumenten-Upload, Schnittstellenkonfiguration, Administrator-Schulung – was ist inklusive, was wird separat berechnet. Wichtig ist die Klärung: Ist die Einrichtung eines Telegram-Bots, WhatsApp oder nur eines Web-Chats im Preis inbegriffen?
8. Hat der Dienstleister Erfahrung speziell mit lokalen LLMs und DSGVO?
Korrekte Antwort: Konkrete Fallbeispiele oder Referenzen von echten Kunden (auch anonymisiert). Ein Dienstleister, der „zum ersten Mal“ Ollama implementiert und dabei DSGVO-Konformität verspricht, ist ein Risiko für Ihr Geschäft. Dies ist kein Bereich, in dem man an Ihrem Projekt lernt.
Schlussfolgerungen
- 🏠 Ein eigener Server ist notwendig, wenn Daten reguliert sind (Medizin, Anwälte, HR, Finanzen) oder wenn Cloud-basierte KI bei Ihrer Auslastung teurer wird.
- 🚫 AWS und Azure Germany sind keine DSGVO-Lösungen. Der CLOUD Act erlaubt US-Behörden, Datenzugriff zu verlangen, unabhängig vom Serverstandort.
- ✅ Hetzner ist unsere Standardwahl: EU-Rechtsprechung, ISO 27001, bestes Preis-Leistungs-Verhältnis. Auch nach der Preiserhöhung im April 2026 ist es immer noch 2,5- bis 3-mal günstiger als AWS/GCP.
- 💻 CPU oder GPU: CPU – wenn 30–90 Sekunden Wartezeit für ein internes Tool akzeptabel sind. GPU – für öffentliche Chats oder größere Modelle mit Antworten bis zu 10 Sekunden.
- 💰 Reale Preise: Von 4–8 €/Monat (CPU, Contabo/Hetzner) bis 184 €/Monat (Hetzner GEX44 GPU). Plus 0–200 €/Monat Support, je nach gewählter Option.
- 🤝 Nach der Inbetriebnahme: Ihr Administrator oder ein Dienstleister mit monatlicher Wartung. Das System läuft autonom – Dokumente werden per Drag-and-drop aktualisiert.
- ❓ 8 Fragen an den Dienstleister schützen vor unangenehmen Überraschungen – insbesondere Fragen zum Zugriff, Serverbesitz und Abnahmetests.
Möchten Sie die Konfiguration für Ihre Aufgabe besprechen? In 30 Minuten ermitteln wir, welcher Server, welches Modell und wie viel das in Ihrem spezifischen Szenario kosten würde – ohne unnötigen technischen Jargon.
Schreiben Sie uns auf Telegram →
Lesen Sie auch
⸻
Quellen: Hetzner Cloud für KI-Projekte 2026 · Hetzner Cloud Bewertung 2026 · EDPB – European Data Protection Board · DSB – Datenschutzbehörde Österreich · GDPR Local – Zusammenfassung des EU AI Acts