Warum ich mit lokalen LLMs experimentiere

Alles begann mit einer einfachen Frage: Kann ich die Fähigkeiten moderner Sprachmodelle nutzen, ohne meine Daten in die Cloud zu schicken?

Die Motivation

Cloud-KI ist bequem – aber jede Anfrage landet auf einem fremden Server. Für persönliche Projekte, Codeanalyse oder das Testen eigener Ideen ist das ein Problem. Wer möchte schon, dass seine Entwürfe und Fragen dauerhaft protokolliert werden?

Die Antwort: ein lokales Modell, das vollständig unter eigener Kontrolle läuft.

Hardware – Mac Mini M4

Als Basis dient ein Apple Mac Mini M4 (2024) mit 16 GB Unified Memory und 256 GB internem Speicher. Der M4-Chip ist für lokale KI-Inferenz besonders gut geeignet: Der Arbeitsspeicher wird von CPU und GPU gemeinsam genutzt, was große Modelle erheblich schneller macht als auf vergleichbarer x86-Hardware.

Externen Speicher für Modelle

Große Sprachmodelle brauchen Platz – ein 13B-Modell belegt schnell 8–10 GB, größere Modelle entsprechend mehr. Der interne 256-GB-Speicher des Mac Mini wäre damit schnell voll.

Dafür habe ich ein Wavlink Thunderbolt-Gehäuse mit einer 2 TB M.2 SSD angeschlossen. Thunderbolt überträgt mit bis zu 40 Gbit/s – damit ist der externe Speicher für die Modelle praktisch genauso schnell wie interner NVMe-Speicher. Kein spürbarer Unterschied beim Laden.

Installation – Ollama

Ollama macht die Installation erschreckend einfach:

curl -fsSL https://ollama.com/install.sh | sh

Unter macOS gibt es auch ein direktes Installationspaket. Nach der Installation läuft Ollama als lokaler Server im Hintergrund.

Modell herunterladen und starten

ollama pull llama3
ollama run llama3

Das war es. Das Modell lädt beim ersten Aufruf herunter und startet danach sofort. Die Modell-Dateien speichere ich direkt auf der externen Thunderbolt-SSD:

export OLLAMA_MODELS=/Volumes/Thunderbolt/ollama-models

Weitere empfehlenswerte Modelle

Modell	Größe	Stärke
`llama3`	~4,7 GB	Allgemein, sehr ausgewogen
`mistral`	~4,1 GB	Schnell, gut für Code
`phi3`	~2,3 GB	Klein, überraschend fähig
`deepseek-coder`	~4,7 GB	Speziell für Code

Erste Erkenntnisse

Lokale Modelle sind langsamer als ihre Cloud-Pendants – das stimmt. Auf dem M4 läuft llama3 aber mit rund 30–40 Token pro Sekunde, was sich im Chat bereits sehr flüssig anfühlt. Für einfache Anfragen, Zusammenfassungen oder Code-Erklärungen ist das vollkommen ausreichend.

Der Gewinn: keine Verbindung nach außen, keine Protokollierung, keine Abhängigkeit von einem Dienst der morgen kostenpflichtig werden könnte.

Wie es weitergeht

Das Experiment steht erst am Anfang. Was mich als Nächstes interessiert:

RAG (Retrieval Augmented Generation) – eigene Dokumente und Notizen durchsuchbar machen
Lokale API – Ollama als Backend für eigene Anwendungen nutzen
Größere Modelle testen, sobald mehr Unified Memory vorhanden ist

Das Projekt werde ich bei Gelegenheit weiterverfolgen und die Ergebnisse hier festhalten.