Home/Glossar/Embedding

Embedding

Mathematische Darstellung von Text als Zahlenvektor — ermöglicht KI-Systemen semantische Ähnlichkeit zu berechnen.

Ein Embedding ist die Darstellung von Text (oder Bildern, Audio, etc.) als mehrdimensionaler Zahlenvektor — eine Art "Koordinate" im semantischen Raum. Texte mit ähnlicher Bedeutung liegen in diesem Raum nah beieinander, unabhängig von der exakten Formulierung.

Ein einfaches Beispiel: "Hund" und "Welpe" haben ähnliche Embeddings weil sie semantisch verwandt sind. "Hund" und "Quantenphysik" haben sehr unterschiedliche Embeddings. Das ermöglicht Ähnlichkeitssuche auf Bedeutungsebene statt nur auf Textebene.

Warum ist das praktisch wichtig? Embeddings sind das Herzstück von RAG-Systemen (siehe oben): Dokumente werden in Embeddings umgewandelt und in einer Vektordatenbank gespeichert. Wenn ein Nutzer eine Frage stellt, wird auch die Frage in ein Embedding umgewandelt — und das System sucht die semantisch ähnlichsten Dokumente heraus.

Für Entwickler: OpenAI, Cohere und andere bieten Embedding-APIs an. Vektordatenbanken wie Pinecone, Weaviate oder ChromaDB sind für die Speicherung von Embeddings optimiert. Embeddings sind auch die Grundlage für Empfehlungssysteme, Duplikat-Erkennung und semantische Suche.

← Zurück zum Glossar