Ihr erinnert euch an meinen letzten Beitrag über RAG? Da hab ich kurz erwähnt, dass eure Texte „vektorisiert“ werden – also in Zahlen verwandelt. Und ich hab gemerkt, dass genau an dieser Stelle bei vielen die Augen glasig werden. „Moment mal, wieso werden meine sorgfältig formulierten Dokumentationen plötzlich zu Mathe?“
Berechtigte Frage. Deshalb tauchen wir heute tiefer ein in die Magie der Vektorisierung. Und keine Sorge – ihr müsst kein Mathegenie sein, um das zu verstehen.
Das Problem mit normaler Textsuche
Stellt euch vor, ihr sucht in eurer Doku nach „Sabbatical“. Die klassische Suche findet alles, wo genau dieses Wort vorkommt. Aber was ist mit:
- Auszeit
- Unbezahlter Urlaub
- Längere Freistellung
- Berufliche Pause
- Eine Auszeit nehmen
All diese Begriffe bedeuten im Kontext dasselbe, aber die normale Textsuche findet nur exakte Treffer. Ärgerlich, oder?
Vektorisierung – Die Bedeutungs-Mathematik
Hier kommt die Vektorisierung ins Spiel. Die Grundidee ist genial einfach: Wir verwandeln Text in Zahlen, aber nicht irgendwie, sondern so, dass ähnliche Bedeutungen auch ähnliche Zahlen bekommen.
Ein Vektor ist dabei nichts anderes als eine Liste von Zahlen. Viele Zahlen. Sehr viele. Moderne Embedding-Modelle arbeiten mit 384, 768 oder sogar 1536 Dimensionen. Klingt wahnsinnig, funktioniert aber brillant.
Ein vereinfachtes Beispiel
Nehmen wir mal an, wir hätten nur 3 Dimensionen (in echt sind es hunderte):
- „Sabbatical“ → [0.8, 0.2, 0.1]
- „Berufliche Auszeit“ → [0.75, 0.25, 0.15]
- „Pizza bestellen“ → [0.1, 0.1, 0.9]
Seht ihr den Unterschied? Die ersten beiden Begriffe haben ähnliche Zahlenwerte, weil sie ähnliche Bedeutungen haben. „Pizza bestellen“ liegt in einem komplett anderen Zahlenraum.
Wie funktioniert das in der Praxis?
Wenn ihr eure Dokumentation für RAG vorbereitet, passiert Folgendes:
- Chunking: Eure Dokumente werden in verdauliche Häppchen geteilt – meist 500-1000 Wörter pro Chunk
- Embedding: Jeder Chunk wird durch ein KI-Modell gejagt und in einen Vektor verwandelt
- Speicherung: Diese Vektoren landen in einer Vektordatenbank (mit dem Originaltext natürlich)
- Indexierung: Die Datenbank baut intelligente Indizes, um schnell ähnliche Vektoren zu finden
Die Suche – Wo die Magie passiert
Jetzt kommt jemand und fragt: „Wie beantrage ich ein Sabbatical?“
- Die Frage wird auch vektorisiert
- Die Vektordatenbank sucht nach den ähnlichsten Vektoren
- Sie findet nicht nur Dokumente mit „Sabbatical“, sondern auch die mit „Auszeit“, „unbezahlter Urlaub“ etc.
- Die relevantesten Chunks werden zurückgegeben
- Die KI formuliert daraus eine verständliche Antwort
Das Geniale daran: Das funktioniert auch über Sprachen hinweg. Fragt jemand auf Englisch nach „sabbatical leave“, findet das System trotzdem eure deutschen Dokumente zur beruflichen Auszeit.
Die Tücken der Vektorisierung
Natürlich ist nicht alles Gold, was glänzt. Ein paar Stolpersteine gibt’s:
1. Welches Embedding-Modell?
Es gibt dutzende zur Auswahl:
- OpenAI’s text-embedding-3
- Sentence Transformers von HuggingFace
- Cohere Embeddings
- Google’s Universal Sentence Encoder
Jedes hat Vor- und Nachteile. Manche sind besser für deutsche Texte, andere für Fachsprache, wieder andere für kurze vs. lange Texte.
2. Die Chunk-Größe
Zu kleine Chunks? Der Kontext fehlt. Zu große Chunks? Zu viel irrelevante Info im Ergebnis.
Die Goldene Regel gibt’s nicht. Meist landet man bei 500-800 Wörtern, aber das hängt stark von eurer Doku ab.
Dieser Artikel erklärt das Chunking im Detail: Chunking in RAG – Warum die Größe (doch) zählt
3. Die Kosten
Vektorisierung kostet. Nicht die Welt, aber bei 10.000 Seiten Dokumentation kommen schnell ein paar hundert Euro zusammen. Und wenn ihr die Doku aktualisiert, müsst ihr neu vektorisieren.
4. Der „Vertrauensfaktor“
Viele Kollegen verstehen nicht, warum die KI manchmal „falsche“ Dokumente findet. „Da steht doch das Wort gar nicht drin!“ – Richtig, aber semantisch passt’s trotzdem. Das muss man den Leuten erst mal erklären.
Hybride Suche – Das Beste aus beiden Welten
Deshalb setzen kluge Köpfe auf die Hybride Suche: Eine Kombination aus klassischer Keyword-Suche und Vektor-Suche.
- Keyword-Suche findet exakte Begriffe zuverlässig
- Vektor-Suche findet semantisch ähnliche Inhalte
- Zusammen sind sie unschlagbar
So bekommt ihr sowohl „Sabbatical“ als auch „Berufliche Auszeit“, wenn jemand nach dem Einen oder dem Anderen sucht.
Praktische Tipps für den Einstieg
Ihr wollt jetzt loslegen? Hier sind meine Learnings:
1. Klein anfangen: Testet erstmal mit 20-50 Dokumenten, nicht mit der kompletten Firmendoku
2. Verschiedene Embedding-Modelle testen: Was bei anderen funktioniert, muss bei euch nicht die beste Wahl sein
3. Metadaten nicht vergessen: Fügt euren Chunks Infos hinzu wie Dokumenttyp, Abteilung, Datum – das hilft ungemein bei der Filterung
4. Qualität der Chunks prüfen: Schaut euch an, ob die Chunks sinnvoll sind. Mitten im Satz aufhören ist doof
5. Regelmäßig aktualisieren: Veraltete Vektoren führen zu veralteten Antworten
Die Zukunft ist vektoriell
Vektorisierung ist der Schlüssel zu intelligenter Dokumentensuche. Ohne sie wäre RAG nur ein fancy Name für Keyword-Suche mit ChatGPT-Wrapper. Mit ihr habt ihr ein System, das wirklich versteht, wonach ihr sucht.
Ja, es ist komplex. Ja, es kostet Aufwand und Geld. Aber wenn der neue Mitarbeiter zum zehnten Mal fragt „Wo finde ich nochmal die Info zum Urlaubsantrag?“ und ihr einfach sagen könnt „Frag den Doku-Bot“, dann wisst ihr: Es hat sich gelohnt.
Und mal ehrlich – die Alternative ist, dass ihr euch weiterhin durch 500-Seiten-PDFs quält und hofft, dass Strg+F euch rettet. Viel Spaß dabei.
Die Zahlen hinter euren Texten arbeiten jetzt für euch. Nutzt sie.


Schreibe einen Kommentar