Warum ich mit lokalen LLMs experimentiere
Meine ersten Erfahrungen mit Ollama auf dem Mac Mini M4 – Installation, Hardware-Setup mit Thunderbolt-SSD und warum lokale KI für mich mehr als ein Experiment ist.
Alles begann mit einer einfachen Frage: Kann ich die Fähigkeiten moderner Sprachmodelle nutzen, ohne meine Daten in die Cloud zu schicken?
Die Motivation
Cloud-KI ist bequem – aber jede Anfrage landet auf einem fremden Server. Für persönliche Projekte, Codeanalyse oder das Testen eigener Ideen ist das ein Problem. Wer möchte schon, dass seine Entwürfe und Fragen dauerhaft protokolliert werden?
Die Antwort: ein lokales Modell, das vollständig unter eigener Kontrolle läuft.
Hardware – Mac Mini M4
Als Basis dient ein Apple Mac Mini M4 (2024) mit 16 GB Unified Memory und 256 GB internem Speicher. Der M4-Chip ist für lokale KI-Inferenz besonders gut geeignet: Der Arbeitsspeicher wird von CPU und GPU gemeinsam genutzt, was große Modelle erheblich schneller macht als auf vergleichbarer x86-Hardware.
Externen Speicher für Modelle
Große Sprachmodelle brauchen Platz – ein 13B-Modell belegt schnell 8–10 GB, größere Modelle entsprechend mehr. Der interne 256-GB-Speicher des Mac Mini wäre damit schnell voll.
Dafür habe ich ein Wavlink Thunderbolt-Gehäuse mit einer 2 TB M.2 SSD angeschlossen. Thunderbolt überträgt mit bis zu 40 Gbit/s – damit ist der externe Speicher für die Modelle praktisch genauso schnell wie interner NVMe-Speicher. Kein spürbarer Unterschied beim Laden.
Installation – Ollama
Ollama macht die Installation erschreckend einfach:
curl -fsSL https://ollama.com/install.sh | sh
Unter macOS gibt es auch ein direktes Installationspaket. Nach der Installation läuft Ollama als lokaler Server im Hintergrund.
Modell herunterladen und starten
ollama pull llama3
ollama run llama3
Das war es. Das Modell lädt beim ersten Aufruf herunter und startet danach sofort. Die Modell-Dateien speichere ich direkt auf der externen Thunderbolt-SSD:
export OLLAMA_MODELS=/Volumes/Thunderbolt/ollama-models
Weitere empfehlenswerte Modelle
| Modell | Größe | Stärke |
|---|---|---|
llama3 | ~4,7 GB | Allgemein, sehr ausgewogen |
mistral | ~4,1 GB | Schnell, gut für Code |
phi3 | ~2,3 GB | Klein, überraschend fähig |
deepseek-coder | ~4,7 GB | Speziell für Code |
Erste Erkenntnisse
Lokale Modelle sind langsamer als ihre Cloud-Pendants – das stimmt. Auf dem M4 läuft llama3 aber mit rund 30–40 Token pro Sekunde, was sich im Chat bereits sehr flüssig anfühlt. Für einfache Anfragen, Zusammenfassungen oder Code-Erklärungen ist das vollkommen ausreichend.
Der Gewinn: keine Verbindung nach außen, keine Protokollierung, keine Abhängigkeit von einem Dienst der morgen kostenpflichtig werden könnte.
Wie es weitergeht
Das Experiment steht erst am Anfang. Was mich als Nächstes interessiert:
- RAG (Retrieval Augmented Generation) – eigene Dokumente und Notizen durchsuchbar machen
- Lokale API – Ollama als Backend für eigene Anwendungen nutzen
- Größere Modelle testen, sobald mehr Unified Memory vorhanden ist
Das Projekt werde ich bei Gelegenheit weiterverfolgen und die Ergebnisse hier festhalten.