Kapitel 15 · Multimodalität · 8 min

Wenn das Modell Bilder liest

Patch-Embedding, ViT, CLIP. Wie ein Text-Transformer multimodal wird, indem er ein Bild als Gitter von Tokens behandelt.

Das Modell sieht wirklich nicht

Wenn du ein Foto an GPT-4o oder Claude schickst und es dir sagt, was es darstellt, gibt es kein „Auge" im Modell. Kein visuelles System, keinen Objektdetektor. Das Modell „sieht" kein Bild — es liest eine Folge von Vektoren.

Das ist der Trick der modernen Multimodalität: jeden Datentyp (Bild, Audio, Video) in eine Darstellung zu transformieren, die wie Text-Tokens aussieht. Nach dieser Transformation erledigt der Standard-Transformer den Rest.

Hinweis zum Umfang dieses Kapitels. Wir sprechen hier über Modelle, die Bilder verstehen (sie beschreiben, Fragen dazu beantworten, ein Diagramm ablesen). Für Modelle, die Bilder aus Text generieren — Stable Diffusion, DALL-E, Midjourney — ist die Architektur anders und Gegenstand von Kapitel 21.

ViT: Das Bild in Patches zerlegen

Die Referenzarchitektur für Bilder heißt ViT (Vision Transformer), 2020 von Google vorgeschlagen.

Die Idee ist verblüffend einfach: Zerlege das Bild in kleine Quadrate (Patches) fester Größe — standardmäßig 16×16 Pixel. Jeder Patch wird in einen Vektor abgeflacht und dann in den Embedding-Raum des Transformers projiziert.

Ein 224×224-Pixel-Bild, in 16×16-Patches zerlegt, ergibt 196 Patches — das heißt 196 Tokens. Diese Tokens werden genau wie Text-Tokens an den Transformer gesendet. Die Attention verarbeitet sie, bringt sie in Beziehung und extrahiert die relevanten Merkmale.

Die Position jedes Patches im Bild wird über ein Positional Embedding kodiert, genau wie bei Text-Tokens.

Manipuliere die Patches

Hier ist ein 16×16-Bild (Vereinfachung — ViT-Base arbeitet mit 224×224). Ändere die Patch-Größe, um zu beobachten, wie Auflösung und Token-Anzahl variieren.

Das Bild wird in quadratische Patches zerlegt, jeder Patch wird über eine lineare Projektion zum Token. Der Transformer weiß nicht mehr, ob die Eingabe Text oder ein Bildraster ist — er verarbeitet die Sequenz auf dieselbe Weise.

Das spezielle [CLS]-Token

In den ersten ViTs wird ein spezielles [CLS]-Token am Anfang der Sequenz eingefügt. Nachdem die Attention Informationen zwischen allen Patches zirkulieren lassen hat, wird der Vektor von [CLS] als globale Darstellung des Bildes verwendet.

Er wird an einen Klassifizierungskopf gesendet, um auf „Was ist das?" zu antworten.

In modernen multimodalen Modellen (GPT-4V, Claude 3, Gemini) ist der Ansatz anders: Die Patch-Tokens des Bildes werden direkt mit den Text-Tokens in derselben Sequenz zusammengeführt. Die Cross-Attention erledigt den Rest.

CLIP: Bilder und Texte ausrichten

Bevor Bilder und Texte in demselben Transformer gemischt werden können, müssen Bild-Embeddings und Text-Embeddings denselben Vektorraum bewohnen.

Das ist das Problem, das CLIP (OpenAI, 2021) gelöst hat. CLIP trainiert zwei Encoder parallel — einen für Bilder, einen für Texte — mit einem einzigen Ziel: die Darstellungen eines Bildes und seiner Beschriftung einander anzunähern.

Nach dem Training auf Hunderten von Millionen (Bild, Text)-Paaren erzeugt CLIP Räume, in denen „ein Foto einer Katze" und ein Foto einer Katze nahe Vektoren haben. Diese Eigenschaft ermöglicht es einem LLM, ein in seinen Kontext injiziertes Bild zu „verstehen".

Die Architektur eines Vision-Language-Modells

Aktuelle multimodale LLMs bestehen in der Regel aus:

Einem visuellen Encoder (oft ein vortrainierter ViT), der Bild-Tokens produziert.
Einem Projektor (ein kleines MLP), das die Bild-Tokens in den Embedding-Raum des LLM abbildet.
Dem LLM, das die gemischte Sequenz (Bild-Tokens + Text-Tokens) empfängt und die Antwort generiert.

Dieser „Projektor" ist oft der einzige Teil, der beim Anpassen eines Text-LLM an Multimodalität trainiert wird — der Rest bleibt eingefroren.

Was das Modell wirklich sieht

Es ist verlockend, sich vorzustellen, das Modell habe ein tiefes „visuelles Verständnis". In Wirklichkeit passiert Folgendes:

Jeder 16×16-Pixel-Patch wird in einen Vektor mit 768 Werten abgeflacht (für ViT-Base). Dieser Vektor ist ein statistischer Durchschnitt der Pixel — eine sehr lokale Darstellung.

Es ist die Attention zwischen all diesen Vektoren, die räumliche Beziehungen rekonstruiert, Kanten erkennt und Formen erkennt. Das Modell hat kein eingebautes Konzept von „Kreis" oder „Gesicht" — es entdeckt sie statistisch.

Deshalb können visuelle LLMs bei einfachen menschlichen Aufgaben überraschend abschneiden (Objekte zählen, links/rechts unterscheiden), aber bei High-Level-Aufgaben bemerkenswert sein (ein Diagramm interpretieren, ein Rezept lesen).

Und Audio?

Dasselbe Prinzip — eine Modalität in eine Token-Sequenz umwandeln — gilt auch für die Stimme. OpenAIs Whisper (2022) bleibt die Referenz für die Transkription Sprache→Text. Seine Architektur ist ein Encoder-Decoder-Transformer, genau wie ein Übersetzungsmodell.

Der Trick: Man wandelt das Audiosignal in ein Mel-Spektrogramm um — ein 2D-Bild, in dem die vertikale Achse die Frequenz und die horizontale die Zeit ist. Jedes kleine Quadrat dieses Spektrogramms wird ein Eingabe-Token, genau wie die Patches von ViT bei Bildern. Whisper produziert dann Text-Tokens als Ausgabe.

Für die Sprachgenerierung (Text-to-Speech) wird das Prinzip umgedreht: Man erzeugt Audio-Tokens aus Text. ElevenLabs, OpenAI TTS, Suno (für Musik) — sie alle verwenden Transformer, die darauf trainiert sind, das nächste Audio-Token vorherzusagen. Die geklonte Stimme einer nahestehenden Person ist genau die Tokenisierung weniger Minuten Aufnahme als Konditionierung.

Der jüngste Sprung kommt von den nativ multimodalen Voice-Modellen: GPT-4o realtime (2024), Gemini Live (2025), Claude voice. Diese Modelle machen den Hin- und Her-Weg Text ↔ Audio nicht mehr intern — sie denken direkt in einem Raum, der Text-Tokens und Audio-Tokens vermischt. Genau das macht die Latenz niedrig (~300 ms) und die Prosodie natürlich — das Modell kann beim Sprechen lächeln, weil es die Audio-Domäne nie verlassen hat.

Wie bei der Vision bleibt die zugrunde liegende Architektur ein Transformer. Der Unterschied liegt allein in der Modalität des Tokens.

Tokens: eine universelle Währung

Die eigentliche Lektion der Multimodalität ist, dass der Token eine universelle Abstraktion ist.

Text → Tokens.
Bilder → Tokens (Patches).
Audio → Tokens (zerschnittenes Spektrogramm).
Moleküle → Tokens (Atome).

Sobald eine Modalität in eine Folge dichter Vektoren umgewandelt werden kann, kann ein Transformer sie verarbeiten. Deshalb revolutionieren dieselben Architekturen, die NLP revolutioniert haben, jetzt Vision, Audio, Biologie und Physik.

Der Transformer ist eine Token-Maschine. Forscher erfinden weiterhin neue Wege, die Welt zu tokenisieren.

Aktualisiert am 10. Mai 2026