Der ultimative Leitfaden: Ollama auf dem Mac M3 ausführen

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Du besitzt bereits eine der leistungsstärksten lokalen KI-Maschinen der Welt. Ob du ein MacBook Pro M3, ein MacBook Pro M3 Max oder ein Mac Studio verwendest – diese Anleitung zeigt dir, wie du sein volles Potenzial mit Ollama freischalten kannst. Keine Cloud. Keine API-Kosten. Nur rohe, private Intelligenz.

Step 1 Einführung

Ollama erfordert macOS 11 Big Sur oder höher. Für optimale Apple Silicon GPU-Beschleunigung und die beste Unterstützung der Metal Performance Shaders (MPS) solltest du jedoch macOS 14 Sonoma oder höher verwenden.

Wir werden das macOS Terminal verwenden. Drücke Cmd + Space und tippe „Terminal", oder verwende eine moderne Alternative wie iTerm2 oder Warp.

Step 2 Ollama installieren

Du hast zwei Möglichkeiten, Ollama auf deinem Mac zu installieren: den offiziellen macOS GUI-Installer oder Homebrew (den Paketmanager für macOS). Wir empfehlen ausdrücklich Homebrew, da es Updates unglaublich einfach macht.

Wenn du Homebrew bereits installiert hast, öffne dein Terminal und führe folgendes aus:

Terminal

brew install ollama

Nach der Installation starte den Ollama-Hintergrunddienst, damit er auf Befehle warten kann:

Terminal

ollama serve

(Hinweis: Halte dieses Terminalfenster offen, oder führe brew services start ollama aus, damit es beim Start automatisch im Hintergrund läuft).

Step 3 Dein erstes Modell herunterladen

Ollama macht das Herunterladen eines Large Language Models (LLM) so einfach wie das Pullen eines Docker-Containers.

Wir beginnen mit Metas Llama 3 (8B Parameter). Es ist schnell, äußerst leistungsfähig und passt perfekt in den Arbeitsspeicher jedes M3 Macs. Öffne ein neues Terminalfenster und führe folgendes aus:

Terminal

ollama run llama3

Was passiert als nächstes? - Ollama stellt eine Verbindung zur Registry her. - Es lädt die 4,7 GB großen Modellgewichte auf dein lokales Laufwerk herunter. - Es öffnet eine interaktive Chat-Eingabeaufforderung.

Du kannst jetzt eingeben: Write a python script to scrape a website und zusehen, wie dein lokaler Mac sofort Code generiert – völlig offline.

Step 4 Hardware- und RAM-Grenzen

Warum sind Apple Silicon Macs so gut für KI geeignet? Unified Memory.

Bei einem PC hast du System-RAM und Grafik-RAM (VRAM auf der GPU). Um ein KI-Modell schnell auszuführen, muss es vollständig in den VRAM passen. Aber bei einem M3 Mac teilen sich CPU und GPU denselben gemeinsamen Speicherpool. Wenn du einen Mac mit 36 GB Unified Memory hast, kann deine GPU auf den gesamten Speicher zugreifen!

Hier ist genau aufgeführt, was du basierend auf dem RAM deines Macs ausführen kannst:

RAM deines Macs	Maximale Modellgröße	Empfohlene Modelle	Hinweise
8 GB (Basis M3)	~7B bis 8B Parameter	Llama 3 (8B), Mistral (7B), Gemma (2B)	Schließe andere Apps, um Speicher-Swapping zu vermeiden.
16 GB / 18 GB	~13B bis 14B Parameter	Qwen 2.5 (14B), Command R	Der optimale Bereich. Llama 3 (8B) läuft blitzschnell.
36 GB / 64 GB	~30B bis 70B Parameter	Mixtral (8x7B), Llama 3 (70B bei Q2)	Desktop-KI auf nativem Niveau.
128 GB+	~120B+ Parameter	Llama 3 (70B Q8), Command R+	Du besitzt einen persönlichen Supercomputer.

Step 5 Leistung optimieren

Wie weißt du, dass Ollama tatsächlich die GPU deines M3 verwendet und nicht auf die langsame CPU zurückgreift? Lass es uns mathematisch überprüfen.

Öffne den Aktivitätsmonitor auf deinem Mac (Cmd + Space -> "Aktivitätsmonitor").
Drücke Cmd + 4, um das GPU-Verlauf-Fenster zu öffnen.
Halte dieses Fenster sichtbar und wechsle zurück zu deinem Terminal, in dem ollama run llama3 läuft.
Gib einen umfangreichen Prompt ein: Write a 1000 word essay about the history of artificial intelligence.

Beobachte das GPU-Verlaufsdiagramm. Du solltest einen massiven, anhaltenden Ausschlag sehen, der deine GPU auf 90-100% Auslastung bringt. Wenn du das siehst, funktioniert Apples Metal-Beschleunigung einwandfrei!

Step 6 Die lokale API freilegen

Das Terminal ist großartig, aber was ist, wenn du eine ansprechende Weboberfläche nutzen oder dein lokales Modell in eine App integrieren möchtest, die du gerade programmierst?

Ollama betreibt standardmäßig einen lokalen API-Server. Öffne einen Browser und navigiere zu: http://localhost:11434

Du kannst diese API jetzt über curl oder Python genauso ansprechen wie die OpenAI-API:

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Du hast deinen Mac M3 erfolgreich in einen privaten, offline-fähigen KI-Server verwandelt. Deine Daten verlassen niemals deinen Rechner, und du zahlst keinerlei API-Gebühren.