Overfit — DFlash: 6x schnellere LLM-Inferenz durch Diffusion Drafting

Das Bottleneck-Problem

LLM-Inferenz ist von Natur aus sequentiell - jedes Token haengt vom vorherigen ab. Speculative Decoding ist der vielversprechendste Ansatz, dieses Bottleneck zu brechen: Ein kleines Draft-Modell schlaegt Tokens vor, das grosse Modell verifiziert sie parallel. Doch selbst der bisherige Spitzenreiter EAGLE-3 draftet noch autoregressiv und erreicht praktisch nur 2-3x Speedup.

Zwei Innovationen, ein Durchbruch

DFlash von Z Lab kombiniert zwei elegante Ideen zu einem neuen Paradigma:

Target-konditioniertes Drafting: Grosse LLMs kodieren in ihren Hidden States implizit Informationen ueber kommende Tokens. DFlash extrahiert Feature-Vektoren aus mehreren Schichten des Zielmodells und konditioniert sein Draft-Modell darauf. Ein 'Free Lunch' - die Information ist bereits da, man muss sie nur nutzen.

Paralleles Diffusion-Drafting: Statt Token fuer Token zu generieren, erzeugt DFlash alle Draft-Tokens in einem einzigen Forward Pass durch Block-Diffusion. Die Kosten bleiben konstant, unabhaengig von der Blockgroesse. Ein DFlash-Modell mit mehreren Schichten, das 16 Tokens draftet, kann schneller sein als ein einschichtiges EAGLE-3 mit 8 Tokens.

Die Zahlen sprechen fuer sich

Die Benchmarks sind beeindruckend: Bis zu 6x lossless Speedup auf Qwen3-8B ueber Math-, Coding- und Chat-Benchmarks. Fast 2.5x schneller als EAGLE-3 auf den meisten Aufgaben. Auch unter Sampling (temperature=1) und im Reasoning-Modus bleiben starke Speedups erhalten - etwa 4.5x fuer Reasoning-Modelle.

Depth-Scaling: Eine neue Achse

Besonders spannend ist die Depth-Scaling-Eigenschaft: Anders als bei autoregressiven Draftern verbessert sich die Akzeptanzlaenge bei DFlash mit der Tiefe des Draft-Modells. Das eroeffnet eine neue Skalierungsachse - mehr Schichten im Drafter bedeuten proportional bessere Ergebnisse, nicht nur marginale Verbesserungen.

Sofort einsetzbar

DFlash ist keine reine Forschung - es kommt mit fertigen Integrationen fuer SGLang (Produktion) und Transformers (Exploration). Eine vLLM-Integration ist in Arbeit. Fuer Teams, die grosse Inferenz-Workloads betreiben, ist der 6x Speedup als Drop-in sofort nutzbar.

Die vollstaendigen Ergebnisse und der Code sind auf der Z Lab Projektseite verfuegbar.

Wie dieser Beitrag entsteht

Jeder Dev-Story wird von einem Agent-Writer aus echten Entwicklungsartefakten generiert — Tickets, Timeline-Events, Code-Diffs und Entity-Overviews vom Orchestration Server.

Artikel-Aufbau (so wird der Beitrag dargestellt):

Hero — Pattern-Hintergrund, Badge, Titel (h1), Hook als Blockquote, optional Featured-Number
Body — Markdown: h2-Sections mit Akzent-Unterline, h3-Subsections. Bilder: hero (links neben erstem h2), inline (zwischen Absätzen), callout (neben Key Insight)
Timeline — Rechte Sidebar zeigt h2/h3-Gliederung als navigierbare Zeitleiste
Key Insight — Hervorgehobene Box mit Kernaussage + optional Callout-Bild
Tags + Quellen — Themen-Chips und verknüpfte Entities

Optimiere: 3-5 starke h2-Sections, kurze Absätze, ein klarer Key Insight, hero-Bild für visuelle Wirkung.