ik_llama.cpp: wenn das normale llama.cpp einfach nicht ausreicht

Eine vertraute Situation: Sie führen ein Sprachmodell auf Ihrem Computer aus, und es funktioniert kaum? Besonders wenn Sie keine High-End-GPU haben, sondern nur einen normalen Prozessor. Genau deshalb wurde ik_llama.cpp entwickelt — ein Fork des beliebten llama.cpp, der auf maximale Performance für CPU- und Hybrid-CPU/GPU-Konfigurationen ausgelegt ist.

Was es ist und warum Sie es brauchen

ik_llama.cpp ist ein Fork des llama.cpp-Projekts, erstellt von Ivan Kavrakov (ikawrakow). Das Hauptziel ist eine leistungsfähigere Lösung für die Ausführung von Sprachmodellen auf normaler Hardware bereitzustellen. Wenn das originale llama.cpp bereits gut ist, macht dieser Fork es noch besser, besonders in Szenarien wie:

Ausführung auf der CPU (einschließlich Mobilgeräte)
Verwendung von Hybrid-CPU/GPU-Konfigurationen
Anwendung moderner Quantisierungsmethoden

Das Projekt wird aktiv weiterentwickelt: zum Zeitpunkt der Erstellung dieses Artikels hat es 10.098 Sterne und 125 Forks auf GitHub.

Wichtigste Funktionen

1. Fortschrittliche Quantisierungsmethoden

Das Projekt implementiert mehrere neue Quantisierungstypen, die die Modellgröße bei minimalem Qualitätsverlust erheblich reduzieren:

Trellis Quants (IQ1_KT, IQ2_KT, IQ3_KT, IQ4_KT) — basierend auf einem neuen Integer-Trellis, mit akzeptabler CPU-Performance
IQK Quants — eine ganze Familie von Quantisierungsmethoden, einschließlich IQ5_KS, IQ4_KS, IQ6_K und anderen
Q8_KV — ein neuer Typ für 8-Bit KV-Cache-Quantisierung

Diese Methoden ermöglichen die Ausführung von Modellen, die zuvor eine GPU benötigten, auf normalen Prozessoren.

2. Flash-MLA für DeepSeek-Modelle

Besonders interessant ist die FlashMLA-Implementierung (MLA — Multi-Layer Attention) für DeepSeek-Modelle:

FlashMLA-3 — die schnellste Implementierung für CPU
CUDA-Unterstützung für Nvidia-GPUs (Ampere oder neuer)
Möglichkeit, Q8_0 quantisierten Cache mit MLA zu verwenden

Wie der Autor anmerkt, liefert FlashMLA-3 rekordverdächtige Performance für DeepSeek-Modelle auf der CPU.

3. Hybrid-CPU/GPU-Verarbeitung

Das Projekt bietet fein abgestimmte Kontrolle darüber, wo Operationen ausgeführt werden:

Tensor-Overrides zur Verwaltung der Gewichtungsplatzierung (GPU oder CPU)
Verbesserte Offload-Strategie für MoE-Modelle (Mixture of Experts)
Möglichkeit, CPU-FA-Kernel (Flash Attention) bei Bedarf zu deaktivieren

Dies ist besonders nützlich für Systeme mit diskreten GPUs, wo Sie die Last zwischen Prozessor und Grafikkarte verteilen können.

Technische Details

Das Projekt ist in C++ geschrieben und unterstützt:

Verschiedene CPU-Architekturen: AVX2, NEON, Zen4
CUDA für GPU-Computing
Metal für Apple Silicon
Sogar unter Android über Termux lauffähig

Interessante technische Lösungen:

Fused MoE-Operationen — beschleunigte Inferenz für Modelle mit Mixture-of-Experts-Architektur
Row-Interleaved Quant Packing — effizientes Packen von quantisierten Daten
Smart Expert Reduction — intelligente Expertenreduktion für schnellere DeepSeek-Inferenz

Praktische Anwendungen

Wo ik_llama.cpp besonders nützlich ist:

Lokale Ausführung großer Modelle — wenn Sie keinen Zugang zu leistungsstarken GPUs haben, aber mit modernen LLMs arbeiten müssen
Mobilgeräte — Möglichkeit zur Ausführung auf Android über Termux
Hybride Systeme — optimale Nutzung sowohl der CPU als auch der GPU in einem System
Experimente mit Quantisierung — viele neue Quantisierungsmethoden für Forscher

Wie in einer Diskussion angemerkt wurde, ermöglicht das Projekt beispielsweise den effizienten Betrieb von DeepSeek-V3 sogar auf einer Konfiguration mit 16 x Nvidia RTX 3090.

Erste Schritte

Repository klonen:

git clone https://github.com/ikawrakow/ik_llama.cpp
cd ik_llama.cpp

Projekt bauen (Beispiel für Linux):

mkdir build
cd build
cmake ..
make -j

Zum Testen der Function-Calling-Funktionalität:

cd build
cmake --build . --target test-function-calls
./bin/test-function-calls

Fazit: Lohnt es sich?

ik_llama.cpp ist eine ausgezeichnete Wahl, wenn:

Sie maximale Performance auf der CPU benötigen
Sie mit modernen Modellen wie DeepSeek, LLaMA-3, Qwen3 arbeiten
Sie mit fortschrittlichen Quantisierungsmethoden experimentieren möchten
Sie ein hybrides System mit CPU und GPU haben

Das Projekt wird aktiv weiterentwickelt, hat eine MIT-Lizenz und ist offen für Mitwirkende. Wenn Sie bereits llama.cpp verwenden, kann der Wechsel zu diesem Fork Ihnen einen merklichen Performance-Schub ohne zusätzliche Kosten bringen.

Für einen detaillierteren Überblick über die Fähigkeiten des Projekts empfehle ich einen Blick in:

Projekt-Wiki mit Performance-Vergleichen
Diskussion neuer Quantisierungstypen
DeepSeek-Modelle-Anleitung