Vektorisierung bei RAG – Wenn Texte zu Zahlen werden (und warum das verdammt clever ist)

Ihr erinnert euch an meinen letzten Beitrag über RAG? Da hab ich kurz erwähnt, dass eure Texte „vektorisiert“ werden – also in Zahlen verwandelt. Und ich hab gemerkt, dass genau an dieser Stelle bei vielen die Augen glasig werden. „Moment mal, wieso werden meine sorgfältig formulierten Dokumentationen plötzlich zu Mathe?“

Berechtigte Frage. Deshalb tauchen wir heute tiefer ein in die Magie der Vektorisierung. Und keine Sorge – ihr müsst kein Mathegenie sein, um das zu verstehen.

Das Problem mit normaler Textsuche

Stellt euch vor, ihr sucht in eurer Doku nach „Sabbatical“. Die klassische Suche findet alles, wo genau dieses Wort vorkommt. Aber was ist mit:

Auszeit
Unbezahlter Urlaub
Längere Freistellung
Berufliche Pause
Eine Auszeit nehmen

All diese Begriffe bedeuten im Kontext dasselbe, aber die normale Textsuche findet nur exakte Treffer. Ärgerlich, oder?

Vektorisierung – Die Bedeutungs-Mathematik

Hier kommt die Vektorisierung ins Spiel. Die Grundidee ist genial einfach: Wir verwandeln Text in Zahlen, aber nicht irgendwie, sondern so, dass ähnliche Bedeutungen auch ähnliche Zahlen bekommen.

Ein Vektor ist dabei nichts anderes als eine Liste von Zahlen. Viele Zahlen. Sehr viele. Moderne Embedding-Modelle arbeiten mit 384, 768 oder sogar 1536 Dimensionen. Klingt wahnsinnig, funktioniert aber brillant.

Ein vereinfachtes Beispiel

Nehmen wir mal an, wir hätten nur 3 Dimensionen (in echt sind es hunderte):

„Sabbatical“ → [0.8, 0.2, 0.1]
„Berufliche Auszeit“ → [0.75, 0.25, 0.15]
„Pizza bestellen“ → [0.1, 0.1, 0.9]

Seht ihr den Unterschied? Die ersten beiden Begriffe haben ähnliche Zahlenwerte, weil sie ähnliche Bedeutungen haben. „Pizza bestellen“ liegt in einem komplett anderen Zahlenraum.

Wie funktioniert das in der Praxis?

Wenn ihr eure Dokumentation für RAG vorbereitet, passiert Folgendes:

Chunking: Eure Dokumente werden in verdauliche Häppchen geteilt – meist 500-1000 Wörter pro Chunk
Embedding: Jeder Chunk wird durch ein KI-Modell gejagt und in einen Vektor verwandelt
Speicherung: Diese Vektoren landen in einer Vektordatenbank (mit dem Originaltext natürlich)
Indexierung: Die Datenbank baut intelligente Indizes, um schnell ähnliche Vektoren zu finden

Die Suche – Wo die Magie passiert

Jetzt kommt jemand und fragt: „Wie beantrage ich ein Sabbatical?“

Die Frage wird auch vektorisiert
Die Vektordatenbank sucht nach den ähnlichsten Vektoren
Sie findet nicht nur Dokumente mit „Sabbatical“, sondern auch die mit „Auszeit“, „unbezahlter Urlaub“ etc.
Die relevantesten Chunks werden zurückgegeben
Die KI formuliert daraus eine verständliche Antwort

Das Geniale daran: Das funktioniert auch über Sprachen hinweg. Fragt jemand auf Englisch nach „sabbatical leave“, findet das System trotzdem eure deutschen Dokumente zur beruflichen Auszeit.

Die Tücken der Vektorisierung

Natürlich ist nicht alles Gold, was glänzt. Ein paar Stolpersteine gibt’s:

1. Welches Embedding-Modell?

Es gibt dutzende zur Auswahl:

Jedes hat Vor- und Nachteile. Manche sind besser für deutsche Texte, andere für Fachsprache, wieder andere für kurze vs. lange Texte.

2. Die Chunk-Größe

Zu kleine Chunks? Der Kontext fehlt. Zu große Chunks? Zu viel irrelevante Info im Ergebnis.

Die Goldene Regel gibt’s nicht. Meist landet man bei 500-800 Wörtern, aber das hängt stark von eurer Doku ab.

Dieser Artikel erklärt das Chunking im Detail: Chunking in RAG – Warum die Größe (doch) zählt

3. Die Kosten

Vektorisierung kostet. Nicht die Welt, aber bei 10.000 Seiten Dokumentation kommen schnell ein paar hundert Euro zusammen. Und wenn ihr die Doku aktualisiert, müsst ihr neu vektorisieren.

4. Der „Vertrauensfaktor“

Viele Kollegen verstehen nicht, warum die KI manchmal „falsche“ Dokumente findet. „Da steht doch das Wort gar nicht drin!“ – Richtig, aber semantisch passt’s trotzdem. Das muss man den Leuten erst mal erklären.

Hybride Suche – Das Beste aus beiden Welten

Deshalb setzen kluge Köpfe auf die Hybride Suche: Eine Kombination aus klassischer Keyword-Suche und Vektor-Suche.

Keyword-Suche findet exakte Begriffe zuverlässig
Vektor-Suche findet semantisch ähnliche Inhalte
Zusammen sind sie unschlagbar

So bekommt ihr sowohl „Sabbatical“ als auch „Berufliche Auszeit“, wenn jemand nach dem Einen oder dem Anderen sucht.

Praktische Tipps für den Einstieg

Ihr wollt jetzt loslegen? Hier sind meine Learnings:

1. Klein anfangen: Testet erstmal mit 20-50 Dokumenten, nicht mit der kompletten Firmendoku

2. Verschiedene Embedding-Modelle testen: Was bei anderen funktioniert, muss bei euch nicht die beste Wahl sein

3. Metadaten nicht vergessen: Fügt euren Chunks Infos hinzu wie Dokumenttyp, Abteilung, Datum – das hilft ungemein bei der Filterung

4. Qualität der Chunks prüfen: Schaut euch an, ob die Chunks sinnvoll sind. Mitten im Satz aufhören ist doof

5. Regelmäßig aktualisieren: Veraltete Vektoren führen zu veralteten Antworten

Die Zukunft ist vektoriell

Vektorisierung ist der Schlüssel zu intelligenter Dokumentensuche. Ohne sie wäre RAG nur ein fancy Name für Keyword-Suche mit ChatGPT-Wrapper. Mit ihr habt ihr ein System, das wirklich versteht, wonach ihr sucht.

Ja, es ist komplex. Ja, es kostet Aufwand und Geld. Aber wenn der neue Mitarbeiter zum zehnten Mal fragt „Wo finde ich nochmal die Info zum Urlaubsantrag?“ und ihr einfach sagen könnt „Frag den Doku-Bot“, dann wisst ihr: Es hat sich gelohnt.

Und mal ehrlich – die Alternative ist, dass ihr euch weiterhin durch 500-Seiten-PDFs quält und hofft, dass Strg+F euch rettet. Viel Spaß dabei.

Die Zahlen hinter euren Texten arbeiten jetzt für euch. Nutzt sie.

Vektorisierung bei RAG – Wenn Texte zu Zahlen werden (und warum das verdammt clever ist)

Das Problem mit normaler Textsuche

Vektorisierung – Die Bedeutungs-Mathematik

Ein vereinfachtes Beispiel

Wie funktioniert das in der Praxis?

Die Suche – Wo die Magie passiert

Die Tücken der Vektorisierung

1. Welches Embedding-Modell?

2. Die Chunk-Größe

3. Die Kosten

4. Der „Vertrauensfaktor“

Hybride Suche – Das Beste aus beiden Welten

Praktische Tipps für den Einstieg

Die Zukunft ist vektoriell

Kommentare

Schreibe einen Kommentar

Vektorisierung bei RAG – Wenn Texte zu Zahlen werden (und warum das verdammt clever ist)

Das Problem mit normaler Textsuche

Vektorisierung – Die Bedeutungs-Mathematik

Ein vereinfachtes Beispiel

Wie funktioniert das in der Praxis?

Die Suche – Wo die Magie passiert

Die Tücken der Vektorisierung

1. Welches Embedding-Modell?

2. Die Chunk-Größe

3. Die Kosten

4. Der „Vertrauensfaktor“

Hybride Suche – Das Beste aus beiden Welten

Praktische Tipps für den Einstieg

Die Zukunft ist vektoriell

Kommentare

Schreibe einen Kommentar

Informationspflicht