laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Du besitzt bereits eine der leistungsstärksten lokalen KI-Maschinen der Welt. Ob du ein MacBook Pro M3, ein MacBook Pro M3 Max oder ein Mac Studio verwendest – diese Anleitung zeigt dir, wie du sein volles Potenzial mit Ollama freischalten kannst. Keine Cloud. Keine API-Kosten. Nur rohe, private Intelligenz.
Step 1 Einführung
Ollama erfordert macOS 11 Big Sur oder höher. Für optimale Apple Silicon GPU-Beschleunigung und die beste Unterstützung der Metal Performance Shaders (MPS) solltest du jedoch macOS 14 Sonoma oder höher verwenden.
Wir werden das macOS Terminal verwenden. Drücke Cmd + Space und tippe „Terminal", oder verwende eine moderne Alternative wie iTerm2 oder Warp.
Step 2 Ollama installieren
Du hast zwei Möglichkeiten, Ollama auf deinem Mac zu installieren: den offiziellen macOS GUI-Installer oder Homebrew (den Paketmanager für macOS). Wir empfehlen ausdrücklich Homebrew, da es Updates unglaublich einfach macht.
Wenn du Homebrew bereits installiert hast, öffne dein Terminal und führe folgendes aus:
Nach der Installation starte den Ollama-Hintergrunddienst, damit er auf Befehle warten kann:
(Hinweis: Halte dieses Terminalfenster offen, oder führe brew services start ollama aus, damit es beim Start automatisch im Hintergrund läuft).
Step 3 Dein erstes Modell herunterladen
Ollama macht das Herunterladen eines Large Language Models (LLM) so einfach wie das Pullen eines Docker-Containers.
Wir beginnen mit Metas Llama 3 (8B Parameter). Es ist schnell, äußerst leistungsfähig und passt perfekt in den Arbeitsspeicher jedes M3 Macs. Öffne ein neues Terminalfenster und führe folgendes aus:
Was passiert als nächstes?
- Ollama stellt eine Verbindung zur Registry her.
- Es lädt die 4,7 GB großen Modellgewichte auf dein lokales Laufwerk herunter.
- Es öffnet eine interaktive Chat-Eingabeaufforderung.
Du kannst jetzt eingeben: Write a python script to scrape a website und zusehen, wie dein lokaler Mac sofort Code generiert – völlig offline.
Step 4 Hardware- und RAM-Grenzen
Warum sind Apple Silicon Macs so gut für KI geeignet? Unified Memory.
Bei einem PC hast du System-RAM und Grafik-RAM (VRAM auf der GPU). Um ein KI-Modell schnell auszuführen, muss es vollständig in den VRAM passen. Aber bei einem M3 Mac teilen sich CPU und GPU denselben gemeinsamen Speicherpool. Wenn du einen Mac mit 36 GB Unified Memory hast, kann deine GPU auf den gesamten Speicher zugreifen!
Hier ist genau aufgeführt, was du basierend auf dem RAM deines Macs ausführen kannst:
| RAM deines Macs |
Maximale Modellgröße |
Empfohlene Modelle |
Hinweise |
| 8 GB (Basis M3) |
~7B bis 8B Parameter |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
Schließe andere Apps, um Speicher-Swapping zu vermeiden. |
| 16 GB / 18 GB |
~13B bis 14B Parameter |
Qwen 2.5 (14B), Command R |
Der optimale Bereich. Llama 3 (8B) läuft blitzschnell. |
| 36 GB / 64 GB |
~30B bis 70B Parameter |
Mixtral (8x7B), Llama 3 (70B bei Q2) |
Desktop-KI auf nativem Niveau. |
| 128 GB+ |
~120B+ Parameter |
Llama 3 (70B Q8), Command R+ |
Du besitzt einen persönlichen Supercomputer. |
Step 5 Leistung optimieren
Wie weißt du, dass Ollama tatsächlich die GPU deines M3 verwendet und nicht auf die langsame CPU zurückgreift? Lass es uns mathematisch überprüfen.
- Öffne den Aktivitätsmonitor auf deinem Mac (
Cmd + Space -> "Aktivitätsmonitor").
- Drücke
Cmd + 4, um das GPU-Verlauf-Fenster zu öffnen.
- Halte dieses Fenster sichtbar und wechsle zurück zu deinem Terminal, in dem
ollama run llama3 läuft.
- Gib einen umfangreichen Prompt ein:
Write a 1000 word essay about the history of artificial intelligence.
Beobachte das GPU-Verlaufsdiagramm. Du solltest einen massiven, anhaltenden Ausschlag sehen, der deine GPU auf 90-100% Auslastung bringt. Wenn du das siehst, funktioniert Apples Metal-Beschleunigung einwandfrei!
Step 6 Die lokale API freilegen
Das Terminal ist großartig, aber was ist, wenn du eine ansprechende Weboberfläche nutzen oder dein lokales Modell in eine App integrieren möchtest, die du gerade programmierst?
Ollama betreibt standardmäßig einen lokalen API-Server. Öffne einen Browser und navigiere zu:
http://localhost:11434
Du kannst diese API jetzt über curl oder Python genauso ansprechen wie die OpenAI-API:
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Du hast deinen Mac M3 erfolgreich in einen privaten, offline-fähigen KI-Server verwandelt. Deine Daten verlassen niemals deinen Rechner, und du zahlst keinerlei API-Gebühren.