RAG & KI-Technologien

Größere Embedding-Modelle sind nicht immer besser: Unsere Erfahrungen mit Unternehmensdokumenten

Aufrufe: 50 Veröffentlicht: 10.06.2026
🇺🇦 UK 🇺🇸 EN 🇩🇪 DE 🇪🇸 ES
Größere Embedding-Modelle sind nicht immer besser: Unsere Erfahrungen mit Unternehmensdokumenten
TL;DR: Eine höhere Dimensionalität von Embeddings bedeutet nicht zwangsläufig bessere Suchergebnisse für Unternehmensdokumente. Wir bei AskYourDocs haben uns für 1536 statt 3072 entschieden – und das bei halbierter Infrastrukturkosten ohne Qualitätsverlust bei der Suche nach juristischen, HR- und Geschäftsunterlagen.

Was sind Embeddings und warum beeinflusst ihre Größe Ihr Geschäft

Wenn eine KI-gestützte Suchfunktion eine Antwort in Ihren Dokumenten sucht, liest sie nicht jedes Mal jede Datei. Stattdessen wandelt sie jedes Textfragment im Voraus in einen numerischen „Fingerabdruck“ – einen Vektor – um. Das sind Embeddings.

Stellen Sie sich vor, jeder Absatz Ihres Vertrags oder Ihrer Anleitung wird zu einer Koordinate in einem mehrdimensionalen Raum. Wenn ein Mitarbeiter eine Frage stellt, sucht das System nicht nach Schlüsselwörtern, sondern nach der Ähnlichkeit dieser Koordinaten. Deshalb findet die KI-Suche den richtigen Punkt im Vertrag, auch wenn die Anfrage anders formuliert ist als im Text.

Die Dimensionalität ist die Anzahl der Zahlen in einem solchen Vektor. text-embedding-3-small von OpenAI generiert Vektoren mit 1536 Werten, text-embedding-3-large – mit 3072. Es scheint logisch: Mehr Zahlen bedeuten eine präzisere Suche. Aber in der Praxis ist es komplizierter.

Einfach ausgedrückt: Die Dimensionalität eines Embeddings ist wie die Auflösung eines Fotos. Ein 4K-Foto belegt viermal so viel Speicherplatz wie ein Full HD-Foto, aber auf einem Smartphone-Bildschirm werden Sie den Unterschied nicht sehen. Für die meisten Unternehmensanwendungen ist 1536 Ihr Full HD: ausreichend scharf und ohne unnötige Kosten.

Warum ist das für Unternehmen wichtig? Weil die Dimensionalität direkt drei Dinge beeinflusst: Suchgeschwindigkeit, Speicherbedarf des Servers und Kosten für die Dokumentenverarbeitung. Und wenn Sie eine Dimensionalität „auf Vorrat“ wählen, zahlen Sie täglich dafür.

Warum Unternehmen zu viel für unnötige Dimensionalität bezahlen

Wenn wir mit einem neuen Kunden zusammenarbeiten, ist eines der ersten Themen, das wir besprechen: Welche Vektor-Dimensionalität passt am besten zu ihrem Archiv. Und fast jedes Mal hören wir: „Nehmen wir 3072 – mehr ist doch besser, oder?“

Das ist eine absolut verständliche Logik. Mehr Dimensionen bedeuten mehr Details, eine präzisere Suche. Aber in der Praxis ist das nicht immer der Fall. Und wir erklären Ihnen, warum – mit Zahlen.

Laut einer Studie zur Optimierung der Vektorspeicherung in RAG-Systemen (arxiv, 2025) belegt eine Million Dokumente mit 1536-dimensionalen Vektoren etwa 6,1 GB RAM. Mit 3072-dimensionalen Vektoren sind es doppelt so viele, über 12 GB. In der Cloud-Infrastruktur ist RAM ein direkter Kostenfaktor jeden Monat.

Dabei ist der Zuwachs an Suchqualität minimal. Ein Vergleich von Embedding-Modellen aus dem Jahr 2026 zeigt: Der Übergang von 1536 auf 3072 Dimensionen bringt nur 2–4 Punkte nDCG auf Retrieval-Benchmarks. „Die Qualitätskurve flacht nach 768 Dimensionen für die meisten Aufgaben sehr schnell ab“ – bei sechsfach höheren Speicherkosten.

Hier ist ein Vergleich in Zahlen:

Parameter 1536 (text-embedding-3-small) 3072 (text-embedding-3-large)
API-Kosten 0,02 $ / Mio. Tokens 0,13 $ / Mio. Tokens
RAM für 1 Mio. Dokumente ~6,1 GB ~12,2 GB
Zuwachs an Suchqualität +2–4 Punkte nDCG
Speicherkosten Basis ~6x höher
Geschwindigkeit der Similarity Search schneller langsamer
Geeignet für KMU-Archive ✅ Ja ⚠️ Überdimensioniert

Für ein KMU mit einem Archiv von 50.000–200.000 Dokumenten – typische Größenordnungen für Anwaltskanzleien, medizinische Zentren oder Distributoren – kann die Kostendifferenz pro Jahr mehrere tausend Dollar betragen. Ohne eine spürbare Verbesserung der Antwortqualität.

Das Fazit ist einfach: „Mehr“ ist bei Embeddings nicht immer „besser“. Es ist „teurer“ und „langsamer“. Und für die meisten Unternehmensdokumente ist die Suchqualität mit 1536 Dimensionen absolut ausreichend.


Was wir mit 1536 in einem echten Produkt erreicht haben

Wir bei AskYourDocs haben diese Entscheidung nicht theoretisch getroffen – sondern mit einem echten Produkt und echten Kunden. Ehrlich gesagt: Wie wir zu 1536 kamen, was uns das gebracht hat und wo die Schwierigkeiten lagen.

Unser Stack: Spring Boot, Java 21, PostgreSQL mit pgvector-Erweiterung, OpenRouter als Gateway zu LLMs. Infrastruktur – Railway EU West (Amsterdam), Datenspeicherung – Cloudflare R2 in der EU-Gerichtsbarkeit. Für Embeddings haben wir uns für text-embedding-3-small mit einer Dimension von 1536 entschieden.

Warum genau 1536 und nicht 3072

Am Anfang haben wir uns auch gefragt: Vielleicht sollten wir lieber ein größeres Modell nehmen – als Reserve? Aber als wir die tatsächlichen Kosten im großen Maßstab berechnet und die Benchmarks für unsere Art von Dokumenten (Rechtsverträge, interne Vorschriften, HR-Dokumente, Anleitungen) betrachtet hatten, wurde klar: Der Unterschied in der Suchqualität zwischen 1536 und 3072 für homogene Unternehmenstexte in einer Sprache ist minimal. Die Kostenunterschiede sind jedoch erheblich.

Was sich nach der Wahl von 1536 geändert hat

Was wurde gemessen Ergebnis Kommentar
RAM des Dienstes auf Railway ~470 MB (zuvor ~1.2 GB) Optimierung von Alpine Docker + 1536-dimensionale Vektoren führten zusammen zu einer deutlichen Reduzierung des Footprints
Geschwindigkeit der Ähnlichkeitssuche Schneller bei gleicher Hardware Geringere Dimension vereinfacht die Arbeit von IVF_FLAT- und HNSW-Indizes in pgvector
Genauigkeit der Suche in gescannten PDFs von ~17% auf ~50% Der Hauptgrund ist jedoch die Implementierung von Vision OCR, nicht die Embedding-Dimension
Kosten für Embedding API 0,02 $ / Mio. Token Gegenüber 0,13 $ bei text-embedding-3-large – der Unterschied ist bereits bei über 100.000 Dokumenten spürbar
Halluzinationen des Modells Beseitigt Der Grund ist nicht die Dimension, sondern die Begrenzung des Verlaufs auf 6 Nachrichten und die Straffung des System-Prompts

Eine wichtige Lektion: Dimension ist nicht die wichtigste Variable

Als die Suchgenauigkeit niedrig war (17%), lag das Problem nicht daran, dass wir 1536 statt 3072 gewählt hatten. Das Problem lag an der Qualität der OCR-Erkennung – gescannte PDFs lieferten "Müll" als Input, und keine Embedding-Dimension hätte das retten können.

Nach der Implementierung von Vision OCR (GPT-4o-mini zur Erkennung mit automatischem Retry bei 90°/180°/270° für gedrehte Scans) stieg die Suchgenauigkeit auf ein akzeptables Niveau. Mit denselben 1536 Dimensionen.

Dies bestätigt eine einfache Erkenntnis: Die Qualität der Eingabedaten ist wichtiger als die Vektordimension. Müll am Eingang – Müll in der Vektordatenbank, unabhängig davon, ob es sich um 1536 oder 3072 handelt.

Klarstellung: Die angegebenen Zahlen sind das Ergebnis unserer spezifischen Bereitstellung und der Art der Dokumente unserer Kunden. Ihre Ergebnisse hängen vom Umfang des Archivs, der Sprache der Dokumente und der Qualität der Eingabedateien ab.

Wann 3072 wirklich gerechtfertigt ist – und wann es unnötige Kosten verursacht

Wir sagen bewusst nicht, dass 3072 immer schlecht ist. Das wäre nicht ehrlich. Es gibt Szenarien, in denen eine größere Dimension tatsächlich gerechtfertigt ist – und wir empfehlen sie unseren Kunden selbst, wenn wir entsprechende Bedingungen sehen. Aber solche Fälle sind bei KMUs deutlich seltener, als es auf den ersten Blick scheint.

Wann 3072 Sinn macht

Mehrsprachige Dokumente in einem Chunk. Wenn Ihr Archiv Dokumente enthält, in denen sich zwei Sprachen in einem Absatz vermischen – zum Beispiel eine technische Spezifikation mit englischen Begriffen und einer ukrainischen Beschreibung oder ein Vertrag mit Zitaten aus ausländischem Recht – erfasst eine größere Dimension semantische Zusammenhänge zwischen Sprachen besser. 1536 kommt zurecht, aber mit spürbaren Verlusten bei der sprachübergreifenden Suche.

Komplexe Domänenterminologie. Medizinische Protokolle, wissenschaftliche Artikel, Patentdokumentationen – Texte, in denen die Formulierung von grundlegender Bedeutung ist und ähnlich klingende Begriffe unterschiedliche Dinge bedeuten. Hier bietet eine höhere Dimension eine bessere "Auflösung" zwischen ähnlichen Konzepten.

Archive mit Millionen von Dokumenten und geschäftskritischer Suche. Wenn Sie 2–5 Millionen Dokumente haben und selbst ein verpasstes relevantes Ergebnis Geld oder Reputation kostet – wird der Unterschied von 2–4 Punkten nDCG in Benchmarks in realen Szenarien spürbar. In diesem Maßstab lohnt es sich, beide Optionen zu testen.

Es ist Budget für die Infrastruktur vorhanden. Wenn RAM und Speicher keine Einschränkung darstellen und das Team höhere Betriebskosten in Kauf nimmt – bietet 3072 einen gewissen Spielraum bei der Genauigkeit "für den Fall der Fälle".

Wann 1536 völlig ausreichend ist

Homogene Dokumente in einer Sprache. Interne Vorschriften, Arbeitsverträge, HR-Dokumente, Mitarbeiterschulungen, Preislisten – dies ist die häufigste Art von Archiv bei unseren Kunden. Hier liefert 1536 eine in der Praxis von 3072 nicht unterscheidbare Suchqualität.

Archive bis 500.000 Dokumente. Typischer Maßstab einer Anwaltskanzlei, eines medizinischen Zentrums oder eines Distributors. Bei dieser Menge ist der Unterschied zwischen den Modellen bei realen Anfragen statistisches Rauschen, kein Geschäftseffekt.

Bereitstellung auf begrenzten Ressourcen. Wenn Sie das System auf eigenen Servern oder in einer abgeschlossenen Umgebung (Hetzner, On-Premise) bereitstellen – kann ein doppelt so kleiner RAM-Footprint von 1536 den Unterschied zwischen einem und zwei Servern im Rack bedeuten.

Die Antwortgeschwindigkeit ist wichtig. Geringere Dimension = schnellere Ähnlichkeitssuche bei gleicher Hardware. Für Produkte, bei denen der Benutzer eine Echtzeitantwort erwartet, ist dies spürbar.

Ein interessanter Fakt, der die Intuition verändert

Wie die offizielle Dokumentation von OpenAI besagt, übertrifft text-embedding-3-large, reduziert auf 256 Dimensionen, text-embedding-ada-002 in voller Größe (1536) im MTEB-Benchmark. Das bedeutet, dass moderne Modelle gelernt haben, Informationen effizienter zu packen – und die maximale Dimension ist nicht mehr gleichbedeutend mit maximaler Qualität.

Das ist wichtig zu verstehen: Wir leben nicht mehr im Zeitalter "mehr Dimensionen = besser". Wir leben im Zeitalter der effizienten Kodierung, in der ein gut trainiertes Modell mit 1536 Dimensionen ein veraltetes Modell mit 3072 schlägt.

Kurz gesagt: Die Wahlmatrix

Situation Empfehlung
Homogene Dokumente, eine Sprache, bis zu 500k ✅ 1536
Begrenzte Serverressourcen / On-Premise ✅ 1536
Wichtige Geschwindigkeit und geringe Latenz ✅ 1536
Mehrsprachige Dokumente in einem Chunk ⚠️ 3072 testen
Komplexe Domänenterminologie (Medizin, Recht) ⚠️ 3072 testen
Archiv über 1 Million Dokumente ⚠️ beide testen
Geschäftskritische Suche, Budget vorhanden ⚠️ 3072 als Option

So wählen Sie die richtige Dimensionalität für Ihr Dokumentenarchiv – Checkliste

Dies ist der praktischste Teil des Artikels. Wenn Sie gerade vor der Wahl eines Embedding-Modells für Ihr KI-System stehen, beantworten Sie die folgenden sechs Fragen. Nach jeder Frage finden Sie konkrete Beispiele aus unserer Praxis, damit Sie Ihr Szenario wiedererkennen.

Frage 1: Welche Sprache haben Ihre Dokumente?

Dies ist die erste und wichtigste Frage. Die Dimensionalität des Embeddings beeinflusst die Suchqualität maßgeblich, insbesondere im sprachlichen Kontext.

Praxisbeispiel: Ein Kunde – eine ukrainische Anwaltskanzlei, Archiv mit 40.000 Verträgen auf Ukrainisch. Sie wählten 1536. Die Suche nach dem Inhalt von Vertragspunkten funktioniert korrekt, der Kunde ist mit dem Ergebnis zufrieden.

Ein weiteres Beispiel: Ein Distributor mit Dokumentation von ausländischen Lieferanten – einige Dateien auf Englisch, einige auf Ukrainisch, einige mit Mischungen in Spezifikationstabellen. Hier empfahlen wir, beide Optionen vor der endgültigen Wahl zu testen.

Frage 2: Wie groß ist Ihr Archiv?

Die Größe des Archivs beeinflusst zwei Faktoren gleichzeitig: die Kosten für die Indexierung (API-Aufrufe) und die Kosten für die Speicherung der Vektoren in der Datenbank.

Archivgröße Typischer Kunde Empfehlung Ungefähre Indexierungskosten
bis zu 50.000 Dokumente Anwaltskanzlei, Personalabteilung, medizinisches Zentrum ✅ 1536 ~1–2 $ einmalig
50.000 – 200.000 Distributor, Franchise-Netzwerk ✅ 1536 ~2–8 $ einmalig
200.000 – 1 Mio großes Unternehmensarchiv ✅ 1536, 3072 testen 8–40 $ einmalig
über 1 Mio Enterprise, öffentlicher Sektor ⚠️ TCO für beide berechnen 40 $+ einmalig

Wichtig: Die Indexierungskosten sind einmalig. Die Kosten für die Speicherung von Vektoren im RAM sind jedoch monatlich. Bei 3072 Dimensionen sind sie doppelt so hoch. Lesen Sie auch: wie Sie Dokumente richtig für die KI-Suche vorbereiten – die Dateistruktur beeinflusst die Größe der Chunks und damit die Anzahl der Vektoren in der Datenbank.

Frage 3: Welche Dokumentenformate sind in Ihrem Archiv enthalten?

Dies ist eine Frage, die bei der Wahl der Dimensionalität oft übersehen wird – und das zu Unrecht. Die Qualität des Eingangstextes ist wichtiger als die Dimensionalität des Vektors.

Praxisbeispiel: Wir hatten einen Fall, bei dem die Suchgenauigkeit bei einem gescannten Archiv 17 % betrug. Wir versuchten, die Parameter zu ändern – es half nicht. Das Problem war, dass die OCR verdrehten Text mit Ersatzzeichen lieferte. Nach der Einführung von Vision OCR stieg die Genauigkeit auf etwa 50 % – mit denselben 1536 Dimensionen. Die Dimensionalität war hier überhaupt keine Variable.

Frage 4: Welches Budget steht für die Infrastruktur zur Verfügung?

Es geht nicht nur um die Kosten der API, sondern um die Gesamtkosten für den Betrieb des Systems (TCO): RAM des Servers, Speicher in der Vektordatenbank, Hosting-Kosten.

Deployment-Szenario RAM für 100k Dokumente (1536) RAM für 100k Dokumente (3072) Empfehlung
Cloud (Railway, Render, Fly.io) ~0,6 GB ~1,2 GB 1536 – geringerer Tarif
Eigener Server / Hetzner ~0,6 GB ~1,2 GB 1536 – mehr Platz für andere Dienste
On-premise, geschlossener Kreislauf ~0,6 GB ~1,2 GB 1536 – kritisch bei eingeschränkter Hardware
Enterprise Cloud mit unbegrenztem Budget nicht kritisch nicht kritisch beide Optionen testen

Frage 5: Wie kritisch ist die Suchgenauigkeit für Ihr Unternehmen?

Seien wir ehrlich: Für die meisten Unternehmensaufgaben ist der Unterschied zwischen 1536 und 3072 in der Praxis kaum bemerkbar. Aber es gibt Ausnahmen.

Frage 6: Haben Sie Ressourcen für Tests?

Bei Zweifeln lautet die ehrlichste Antwort: Führen Sie einen A/B-Test mit Ihrem echten Archiv durch. Nehmen Sie 50–100 typische Anfragen zukünftiger Benutzer, indizieren Sie eine Stichprobe von Dokumenten mit beiden Modellen und vergleichen Sie die Ergebnisse. Das dauert ein paar Stunden und liefert genauere Ergebnisse als jeder Benchmark.

Wenn keine Testressourcen vorhanden sind – orientieren Sie sich an der folgenden Tabelle:

Ihr Profil Empfehlung Warum
Anwaltskanzlei, Verträge in einer Sprache ✅ 1536 Homogene Inhalte, SMB-Skala
Personalabteilung, interne Dokumente ✅ 1536 Einfache Inhalte, Geschwindigkeit ist wichtiger
Medizinisches Zentrum, Protokolle und Akten ⚠️ testen Komplexe Terminologie, kritische Genauigkeit
Distributor, Preislisten und Spezifikationen ✅ 1536 Strukturierte Inhalte, numerische Daten
Franchise-Netzwerk, Standards ✅ 1536 Homogene Dokumente, typische Anfragen
Mehrsprachiges Unternehmensarchiv ⚠️ 3072 testen Sprachenübergreifende Semantik erfordert höhere Dimensionalität
On-premise, eingeschränkte Hardware ✅ 1536 Halber RAM-Bedarf
Unsere Empfehlung: Wenn Ihr Archiv interne Vorschriften, Verträge, HR-Dokumente oder Anleitungen in einer Sprache mit einem Umfang von bis zu 500.000 Dateien umfasst – wählen Sie sofort 1536, ohne weitere Überlegungen. Das ist, was wir bei AskYourDocs selbst verwenden und den meisten unserer Kunden empfehlen. Wenn Sie ein mehrsprachiges Archiv, komplexe Fachterminologie (Medizin, Recht, technische Spezifikationen) oder einen Umfang von über einer Million Dokumenten haben – schreiben Sie uns, wir werden Ihren spezifischen Fall gemeinsam analysieren und die optimale Konfiguration auswählen.
Zusammenfassung: Die Dimensionalität des Embeddings ist nicht die wichtigste Variable für die Suchqualität. Für die meisten SMB-Archive (Anwaltskanzleien, medizinische Zentren, HR, Distributoren) liefert 1536 ausreichende Genauigkeit bei halb so hohen Infrastrukturkosten. Was das Ergebnis wirklich beeinflusst, sind die Qualität der Eingabedokumente, das richtige Chunking und die OCR-Einstellungen für gescannte Dateien. 3072 sollte nur bei mehrsprachigen Archiven, komplexer Fachterminologie oder einem Umfang von über einer Million Dokumenten in Betracht gezogen werden.

Planen Sie die Einführung einer KI-gestützten Suche für Unternehmensdokumente? Bei AskYourDocs analysieren wir Ihren individuellen Anwendungsfall – von der Dokumentenart über den Umfang des Archivs bis hin zur bestehenden Infrastruktur. Auf dieser Grundlage empfehlen wir eine Lösung, die optimal auf Ihre Anforderungen abgestimmt ist.

Telegram: @name_lucky_lucky  |  WhatsApp

Lesen Sie auch