Home/Glossar/Multi-Modal KI

Multi-Modal KI

KI-Systeme die verschiedene Datentypen verarbeiten können — Text, Bilder, Audio und Video.

Multi-Modal KI bezeichnet KI-Systeme die nicht nur mit einer Datenart (z.B. Text) arbeiten, sondern mehrere Modalitäten gleichzeitig verarbeiten können: Text, Bilder, Audio, Video und Code.

GPT-4o von OpenAI ist ein bekanntes Beispiel: Du kannst ein Foto einer handgeschriebenen Gleichung hochladen und das Modell löst sie. Oder du zeigst ein Foto eines Fehler-Bildschirms — die KI versteht das Problem und erklärt die Lösung. Claude von Anthropic ist ebenfalls multi-modal und kann PDFs, Bilder und lange Dokumente direkt analysieren.

Der Durchbruch für den Alltag: Statt alles in Text umschreiben zu müssen kannst du direkt mit der Realität interagieren. Einen Screenshot zeigen und "Was stimmt hier nicht?" fragen. Ein Produktfoto hochladen und eine Beschreibung generieren lassen. Eine Tabelle als Bild einfügen und die KI nach Trends fragen.

Die nächste Stufe sind Audio- und Video-Verarbeitung: GPT-4o kann in Echtzeit Gespräche führen und auf gesprochene Sprache reagieren. Video-Analyse ist noch im frühen Stadium, wird aber in den kommenden Jahren ein Standard-Feature werden.

← Zurück zum Glossar