laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Step 1 Die 8GB Unified Memory Realitätsprüfung
Lassen wir den Mythos sofort sterben: 8GB Unified Memory ist nicht das Todesurteil für lokale KI, das die meisten behaupten. Es ist jedoch eine gnadenlose Umgebung, die naive Modellauswahl bestraft und chirurgische Präzision belohnt. Zu verstehen warum, erfordert einen kurzen Ausflug in die Speicherarchitektur von Apple Silicon.
Unified Memory ist nicht „nur RAM"
Bei Intel-Maschinen hatte die CPU System-RAM und die GPU eigenen dedizierten VRAM — zwei getrennte Pools, die keine Ressourcen teilen konnten. Apples Unified Memory Architecture (UMA) beseitigt diese Grenze vollständig. CPU, GPU und Neural Engine greifen alle auf denselben physischen Speicherpool zu. Das ist der Grund, warum ein Mac mit 8GB einen PC mit 16GB DDR4 bei Inferenz-Aufgaben übertreffen kann — das Modell überquert niemals einen PCIe-Bus, um Rechenressourcen zu erreichen.
Terminal
┌─────────────────────────────────────────────┐
│ Unified Memory (8GB) │
│ │
│ ┌─────────┐ ┌─────────┐ ┌───────────┐ │
│ │ CPU │ │ GPU │ │ Neural │ │
│ │ Cores │ │ Cores │ │ Engine │ │
│ └─────────┘ └─────────┘ └───────────┘ │
│ ↑ ↑ ↑ │
│ └────────────┴─────────────┘ │
│ Shared Memory Bus │
└─────────────────────────────────────────────┘
Diese Zero-Copy-Architektur bedeutet, dass in den Speicher geladene Modellgewichte sofort für alle Recheneinheiten mit voller Speicherbandbreite zugänglich sind — bei M2-Chips sind das bis zu 100 GB/s. Vergleichen Sie das mit einer Mittelklasse-Discrete-GPU, die Daten über einen 16x PCIe Gen 4-Slot mit etwa 32 GB/s überträgt.
Die ehrliche Budgetaufschlüsselung
Hier wird die Ehrlichkeit unangenehm. Diese 8GB gehören nicht alle Ihnen für die KI-Inferenz. macOS selbst ist ein speicherresidentes Betriebssystem, und es hat Bedürfnisse:
| Komponente |
Ungefährer Speicherbedarf |
| macOS-Kernel + Systemprozesse |
~1,5 – 2,0 GB |
| Aktiver Browser (Safari, Chrome) |
~0,5 – 1,5 GB |
| Hintergrund-Apps (Spotlight, etc.) |
~0,3 – 0,5 GB |
| Verfügbar für KI-Inferenz |
~4,0 – 5,5 GB |
Das bedeutet, Ihr effektives Inferenz-Budget beträgt realistisch 4–5,5 GB, nicht 8 GB. Jedes Byte zählt. Ein Modell, das technisch auf dem Papier passt, kann Ihr System trotzdem in die Swap-Hölle treiben, wenn Sie gleichzeitig Slack, einen Browser und Spotify laufen haben.
Speicherbedarf von Modellen verstehen
Der Speicherbedarf eines Modells entspricht nicht einfach seiner Dateigröße auf der Festplatte. Während der Inferenz müssen Sie folgendes berücksichtigen:
- Modellgewichte — die größte Komponente, skaliert mit Parameteranzahl und Quantisierung
- KV-Cache — Key-Value-Attention-Cache, der mit der Kontextfenstergröße wächst
- Laufzeit-Overhead — Framework-Puffer, Berechnungsgraphen, Aktivierungsspeicher
Eine grobe Formel zur Schätzung des Gewichtsspeichers:
Terminal
Memory (GB) ≈ (Parameters × Bits_per_weight) / (8 × 1024³)
Example: 7B model at 4-bit quantization
= (7,000,000,000 × 4) / (8 × 1,073,741,824)
≈ 3.26 GB
Das erklärt, warum ein auf Q4 quantisiertes 7B-Modell bei etwa 3,5–4,2 GB liegt — technisch möglich auf 8-GB-Hardware, aber man arbeitet praktisch ohne jeglichen Spielraum für den KV-Cache bei längeren Kontexten.
Die ehrliche Wahrheit über 7B-Modelle
7B-Modelle auf 8-GB-Macs sind für Produktions-Workflows nicht komfortabel nutzbar. Sie funktionieren. Aber „funktionieren" und „gut funktionieren" sind zwei verschiedene Dinge.
Bei einem 2048-Token-Kontextfenster verbraucht ein 7B Q4-Modell Ihr gesamtes verfügbares Inferenz-Budget. Wenn Sie auf 4096 Tokens gehen, werden Sie Swap auslösen. Die Erfahrung degradiert von flüssiger Inferenz zu einem stotternden, thermisch gedrosselten Schleichen, das als ausgezeichnete Lektion im Speicherdruckmanagement dient.
Die Ingenieure und Power-User, die mit 8-GB-Macs für lokale KI wirklich erfolgreich sind, haben ein anderes mentales Modell verinnerlicht: Kleiner, schneller und zweckorientiert schlägt groß und allgemein jedes Mal. Die folgenden Abschnitte zeigen Ihnen genau, wie Sie diesen Stack aufbauen.
Step 2 Was ist Swap-Speicher und warum man ihn vermeiden sollte
Wenn Ihrem Mac der physische Unified Memory ausgeht, stürzt macOS nicht ab — es tut still etwas weitaus Heimtückischeres: Es beginnt, Ihre SSD als Überlaufspeicher zu verwenden. Dieser Mechanismus heißt Swap-Speicher (oder virtuelles Speicher-Paging), und obwohl er sich wie ein Sicherheitsnetz anhört, ist er für lokale KI-Inferenz eine Leistungsklippe, von der man mit Vollgas springt.
Wie Swap funktioniert
macOS verwendet eine Technik namens Speicherkomprimierung und Swapping. Das Betriebssystem versucht zunächst, inaktive Speicherseiten zu komprimieren, um mehr Daten in den RAM zu quetschen. Wenn das nicht reicht, beginnt es mit Paging — es schreibt Speicherinhalte in einen reservierten Bereich auf Ihrer SSD, die sogenannte Swap-Datei, und liest sie bei Bedarf zurück.
Terminal
Physical Unified Memory (8GB)
│
▼
┌───────────────────────┐
│ Active Data (in RAM) │ ← Lightning fast (400 GB/s bandwidth)
└───────────────────────┘
│ overflow
▼
┌───────────────────────┐
│ Swap on SSD │ ← ~3,000–7,000 MB/s (NVMe)
└───────────────────────┘
Das Geschwindigkeitsgefälle ist das Problem. Apples Unified Memory arbeitet mit ungefähr 400 GB/s Bandbreite. Selbst Apples schnellste NVMe-SSDs erreichen am oberen Ende rund 7 GB/s — das ist ein ~57-fach langsamerer Durchsatz für alle Daten, die in den Swap ausgelagert werden.
Was das für LLM-Inferenz bedeutet
Große Sprachmodelle sind keine typischen Anwendungen. Während der Inferenz müssen die Modellgewichte kontinuierlich durch den Speicher gestreamt werden, um jedes Token zu berechnen. Ein 7B-Parameter-Modell in 4-Bit-Quantisierung belegt etwa 4–5 GB Speicher. Wenn Sie bereits macOS-Systemprozesse, Ihren Browser und andere Hintergrund-Apps laufen haben, braucht es sehr wenig, um die 8-GB-Grenze zu überschreiten.
Sobald Modellgewichte in den Swap überlaufen, erfordert jede einzelne Token-Generierung das Lesen von Daten von Ihrer SSD. Das Ergebnis ist keine sanfte Verlangsamung — es ist ein Kollaps:
| Szenario |
Token/Sekunde |
Benutzererfahrung |
| Modell vollständig in Unified Memory |
25–45 tok/s |
Flüssig, nutzbar |
| Teilweise Swap-Nutzung (~1–2 GB) |
3–8 tok/s |
Schmerzhaft, aber funktional |
| Starke Swap-Nutzung (3 GB+) |
<1 tok/s |
Praktisch unbrauchbar |
Das versteckte SSD-Verschleißproblem
Jenseits der reinen Leistung gibt es noch einen weiteren Grund, Swap ernst zu nehmen: SSD-Ausdauer. Jeder Schreibvorgang in den Swap ist ein Schreibvorgang auf den NAND-Flash-Speicher Ihrer SSD. Das Ausführen großer Inferenzjobs, die ständig den Swap belasten, kann den Laufwerksverschleiß über Monate und Jahre der Nutzung spürbar beschleunigen.
Apple macht es nicht einfach (oder günstig), MacBook-SSDs zu ersetzen. Ihre SSD zu schützen bedeutet, Ihre Hardware-Investition zu schützen.
Swap in Echtzeit überwachen
Bevor Sie ein Modell laden, sollten Sie sich angewöhnen, den Speicherdruck zu überprüfen. Öffnen Sie Aktivitätsmonitor → Speicher-Tab oder führen Sie dies in Ihrem Terminal aus:
Terminal
# Check current swap usage
vm_stat | grep "Swapouts"
# Real-time memory pressure monitoring
sudo memory_pressure
Sie können auch diesen Einzeiler für einen schnellen Überblick verwenden:
Eine gesunde Ausgabe sieht so aus:
Terminal
vm.swapusage: total = 2048.00M used = 0.00M free = 2048.00M
Wenn used steigt, während Sie ein Modell ausführen, ist Ihre Konfiguration falsch. Der Rest dieser Anleitung ist darauf ausgerichtet, sicherzustellen, dass diese Zahl bei null bleibt.
Goldene Regel: Wenn Ihr Modell nicht vollständig in 8 GB Unified Memory neben einer schlanken macOS-Umgebung passt, zahlen Sie eine Leistungsstrafe, die kein Hardware-Trick überwinden kann. Die Lösung ist immer, kleiner, intelligenter oder leichter zu werden — niemals den Swap den Unterschied ausgleichen zu lassen.
Step 3 Die besten kleinen Modelle für 8-GB-Macs (Gemma 2B, Phi-3, Qwen)
Die Auswahl des richtigen Modells für ein 8-GB-Unified-Memory-System bedeutet kein Kompromissmachen — es geht um präzise Selektion. Die Landschaft der Sub-4B-Parameter-Modelle hat sich dramatisch weiterentwickelt, und mehrere Kandidaten liefern genuinen beeindruckende Reasoning-, Coding- und Instruction-Following-Fähigkeiten, die Sie überraschen werden. Der Schlüssel ist zu wissen, welche Modelle effizient konstruiert sind im Gegensatz zu jenen, die lediglich zufällig klein sind.
Hier gilt die harte Regel: Ihre Modellgewichte + der KV-Cache + der macOS-Overhead müssen komfortabel in 8 GB passen. Das bedeutet typischerweise, quantisierte Modelle anzusteuern, die auf der Festplatte/im RAM zwischen 1,5 GB und 4 GB liegen, mit Spielraum, damit das System atmen kann.
Die Kandidaten im Überblick
| Modell |
Parameter |
Q4_K_M-Größe |
RAM-Nutzung (geschätzt) |
Beste Verwendung |
| Gemma 2 2B |
2,6B |
~1,6 GB |
~2,5 GB |
Allgemeiner Chat, Zusammenfassung |
| Phi-3 Mini |
3,8B |
~2,4 GB |
~3,5 GB |
Reasoning, Coding, Mathematik |
| Qwen2.5 1.5B |
1,5B |
~1,0 GB |
~1,8 GB |
Schnelle Inferenz, mehrsprachig |
| Qwen2.5 3B |
3,1B |
~2,0 GB |
~3,0 GB |
Ausgewogene Leistung |
| Llama 3.2 3B |
3,2B |
~2,0 GB |
~3,2 GB |
Instruction Following |
| SmolLM2 1.7B |
1,7B |
~1,1 GB |
~2,0 GB |
Edge-Aufgaben, niedrige Latenz |
Gemma 2 2B — Googles effizienter Arbeitsesel
Googles Gemma 2 2B schlägt weit über seiner Gewichtsklasse. Es verwendet einen Sliding-Window-Attention-Mechanismus und Logit-Soft-Capping, was es deutlich kohärenter macht als ältere 2B-Klasse-Modelle. Für einen 8-GB-Mac ist dies ein sicherer täglicher Begleiter.
Terminal
# Pull and run Gemma 2 2B via Ollama
ollama pull gemma2:2b
ollama run gemma2:2b
Stärken: Starke Zusammenfassung, natürlicher Gesprächsfluss, gute Instruction-Befolgung.
Schwächen: Coding-Qualität fällt hinter Phi-3 zurück; begrenztes Kontextfenster bei der 2B-Variante.
Phi-3 Mini — Der Reasoning-Spezialist
Microsofts Phi-3 Mini (3,8B) ist die technisch ausgefeilteste Option in dieser Klasse. Trainiert auf einem stark kuratierten Datensatz in „Lehrbuchqualität", erreicht es Reasoning- und Coding-Benchmarks, die mit viel größeren Modellen konkurrieren. Wenn Sie lokale KI für Code-Generierung, Logikprobleme oder strukturierte Ausgabe verwenden, ist Phi-3 Mini Ihre Wahl.
Terminal
# Run Phi-3 Mini with Ollama
ollama pull phi3:mini
ollama run phi3:mini
# Or target the 128K context variant explicitly
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M
Bei Q4_K_M-Quantisierung liegt Phi-3 Mini bei etwa 2,4 GB, was auf einem 8-GB-System erheblichen Spielraum lässt. Sie können es mit einem 4K–8K-Kontextfenster komfortabel ausführen, ohne Swap auszulösen.
Stärken: Klassenbestes Reasoning für Sub-4B, exzellente Code-Ausgabe, strukturierte JSON-Generierung.
Schwächen: Leicht geschwätzig; erklärt einfache Antworten gelegentlich zu ausführlich.
Qwen2.5 — Der mehrsprachige Geschwindigkeitsdämon
Alibabas Qwen2.5-Serie bietet zwei überzeugende Optionen für 8-GB-Macs: das 1,5B für rohe Geschwindigkeit und das 3B für bessere Qualität. Die Qwen-Architektur wurde speziell für Effizienz optimiert, und ihre mehrsprachigen Trainingsdaten machen sie einzigartig stark für nicht-englische Arbeitslasten.
Terminal
# Qwen2.5 1.5B — fastest option
ollama pull qwen2.5:1.5b
ollama run qwen2.5:1.5b
# Qwen2.5 3B — better quality, still comfortable on 8GB
ollama pull qwen2.5:3b
ollama run qwen2.5:3b
Die 1,5B-Variante ist besonders interessant für Automatisierungspipelines — sie ist schnell genug, um als lokaler Klassifikator, Router oder leichtgewichtiges Datentransformationswerkzeug ohne merkliche Latenz eingesetzt zu werden.
Stärken: Blitzschnelle Inferenz, starke mehrsprachige Unterstützung, exzellent für agentische/Tool-Use-Muster.
Schwächen: Das 1,5B verliert Nuancen bei komplexen Reasoning-Aufgaben; das 3B ist das Minimum für ernsthaften Einsatz.
Praktische Empfehlungsmatrix
Wählen Sie nicht einfach ein Modell — stimmen Sie das Modell auf die Aufgabe ab:
- Coding & Debugging →
phi3:mini
- Allgemeine Q&A und Chat →
gemma2:2b
- Automatisierung, Klassifikation, Pipelines →
qwen2.5:1.5b
- Ausgewogene tägliche Nutzung →
qwen2.5:3b
- Mehrsprachige Arbeit →
qwen2.5:3b
Mehrere Modelle gleichzeitig zu betreiben ist ebenfalls kein Problem — Ollama lädt Modelle bei Bedarf und räumt sie aus dem Speicher, wenn sie inaktiv sind. Sie können frei zwischen diesen wechseln, ohne etwas neu starten zu müssen, solange Sie nicht zwei gleichzeitig ausführen.
Das Fazit: 8 GB sind keine Einschränkung, wenn Sie intelligent wählen. Diese Modelle sind keine Kompromisse — sie sind eine andere Klasse von Werkzeug, optimiert für genau die Umgebung, in der Sie sie betreiben.
Step 4 Quantisierung erklärt: Warum Q4_K_M Ihr bester Freund ist
Wenn Sie jemals die Modellbibliothek von Hugging Face oder Ollama durchstöbert haben, sind Sie unweigerlich auf ein verwirrendes Alphabet-Suppe von Suffixen gestoßen: Q4_K_M, Q8_0, Q5_K_S, F16, IQ3_XS. Das sind keine willkürlichen Namenskonventionen — sie repräsentieren grundlegend verschiedene Versionen desselben Modells, und die falsche Wahl auf einer 8-GB-Maschine ist der Unterschied zwischen einem nützlichen Werkzeug und einem System, das zum Erliegen kommt.
Was Quantisierung tatsächlich bewirkt
Ein neuronales Netzwerkmodell ist im Kern eine massive Sammlung numerischer Gewichte — Milliarden von Gleitkommazahlen, die definieren, wie das Modell denkt. In ihrer nativen Form (F32 oder F16) werden diese Gewichte mit voller oder halber Präzision gespeichert und verbrauchen enorme Mengen an Speicher.
Quantisierung ist der Prozess der Reduktion der numerischen Präzision dieser Gewichte, wobei ein kleines Maß an Genauigkeit gegen dramatische Reduktionen im Speicherbedarf und der Inferenzgeschwindigkeit eingetauscht wird.
Stellen Sie es sich so vor: Anstatt die Zahl 3.14159265358979 zu speichern, könnte die Quantisierung sie als 3.14 oder sogar nur als 3 speichern. Das Modell verliert etwas Granularität, behält aber den Großteil seiner Reasoning-Fähigkeit.
Die Namenskonvention entschlüsseln
Das GGUF-Quantisierungsnamenschema (verwendet von llama.cpp und Ollama) folgt einem strukturierten Muster:
Terminal
Q[bits]_[variant]_[size]
│ │ └── S = Small, M = Medium, L = Large (parameter mixture)
│ └──────────── K = K-quants (newer, smarter algorithm)
└───────────────────── Number of bits per weight
| Format |
Bits/Gewicht |
Ungefähre Größe (7B-Modell) |
Qualitätsverlust |
Anwendungsfall |
F16 |
16 |
~14 GB |
Keiner |
Baseline-Referenz |
Q8_0 |
8 |
~7,2 GB |
Vernachlässigbar |
Maximale Qualität, knapp auf 8 GB |
Q6_K |
6 |
~5,5 GB |
Minimal |
Hohe Qualität, mehr Spielraum |
Q4_K_M |
4 |
~4,1 GB |
Gering |
Sweet Spot für 8 GB |
Q4_K_S |
4 |
~3,8 GB |
Moderat |
Etwas kleiner, weniger genau |
Q3_K_M |
3 |
~3,1 GB |
Merklich |
Nur für Notfälle |
Q2_K |
2 |
~2,6 GB |
Erheblich |
Wenn möglich vermeiden |
Warum Q4_K_M den Sweet Spot trifft
Das „K" in Q4_K_M ist entscheidend. K-Quants verwenden eine intelligentere, nicht-uniforme Quantisierungsstrategie — sie wenden nicht dieselbe Präzisionsreduktion gleichmäßig auf jedes Gewicht an. Stattdessen identifizieren sie, welche Gewichte kritischer für die Modellausgabe sind, und bewahren diese mit höherer Genauigkeit, während weniger wichtige Gewichte aggressiv quantisiert werden.
Das Ergebnis ist, dass Q4_K_M etwas Bemerkenswertes erreicht: Es komprimiert ein 7B-Parameter-Modell auf etwa 4 GB und lässt Ihnen 4 GB Spielraum für:
- Die macOS-Systemprozesse (~2 GB Basis)
- Ihren aktiven Anwendungskontext
- KV-Cache (das „Arbeitsgedächtnis" des Modells während der Inferenz)
- Overhead-Puffer, um Swap zu verhindern
In der Praxis zeigen Benchmarks konsistent, dass Q4_K_M 95–98% der Leistung des Vollpräzisionsmodells bei Standard-Reasoning-Benchmarks beibehält. Für die meisten realen Aufgaben — Coding-Assistenz, Textgenerierung, Q&A — werden Sie den Unterschied nicht bemerken.
Dies in der Praxis mit Ollama sehen
Wenn Sie ein Modell mit Ollama pullen, können Sie Quantisierungsstufen explizit ansteuern:
Terminal
# Default pull (Ollama chooses, usually Q4_K_M)
ollama pull llama3.2:3b
# Explicit quantization targeting
ollama pull qwen2.5:7b-instruct-q4_K_M
# Check what you have loaded
ollama list
Terminal
NAME ID SIZE MODIFIED
qwen2.5:7b-instruct-q4_K_M a8b3c2d1e0f9 4.7 GB 2 hours ago
gemma2:2b-instruct-q4_K_M f1e2d3c4b5a6 1.6 GB 1 day ago
Für manuelles GGUF-Management via llama.cpp ist die Angabe der Quantisierung ebenso direkt:
Terminal
./llama-cli \
-m ./models/mistral-7b-instruct-q4_K_M.gguf \
-n 512 \
--ctx-size 4096 \
-ngl 99 # Offload all layers to GPU (Metal)
Wann man niedriger gehen sollte (und wann nicht)
Es gibt Szenarien, in denen ein Wechsel zu Q3_K_M oder IQ3_XS sinnvoll ist — speziell wenn Sie größere, leistungsfähigere Modelle (wie ein 13B-Parameter-Modell) ausführen und eine gewisse Qualitätsdegradation im Austausch dafür akzeptieren, dass es überhaupt in den Speicher passt. Eine aggressive Quantisierung eines intelligenteren Modells kann ein leicht quantisiertes schwächeres Modell dennoch übertreffen.
Unterhalb von Q4 werden Sie jedoch folgendes bemerken:
- Erhöhte Halluzinationsraten
- Verschlechtertes Instruction-Following-Verhalten
- Inkonsistente Reasoning-Ketten
- Merklich schlechtere Leistung bei strukturierten Ausgabe-Aufgaben (JSON, Code)
Die goldene Regel für 8-GB-Maschinen: Greifen Sie immer zuerst zu Q4_K_M. Gehen Sie nur niedriger, wenn das Modell schlichtweg nicht passt, und gehen Sie nur höher (Q6_K, Q8_0), wenn Sie ein Sub-4B-Parameter-Modell mit reichlich Speicher-Headroom ausführen.
Step 5 macOS-Hintergrundaufgaben optimieren
Selbst das aggressivst quantisierte Modell wird stottern und swappen, wenn macOS still 2–3 GB Unified Memory für Prozesse widmet, die Sie nie bewusst gestartet haben. Bevor Sie Ollama oder LM Studio starten, behandeln Sie Ihren Mac wie die dedizierte Inferenzmaschine, die er vorübergehend werden muss.
Verstehen, was Ihren RAM frisst
macOS ist ein wunderschönes, eigensinniges Betriebssystem, das davon ausgeht, dass Sie immer iCloud-Synchronisierung, Spotlight-Indizierung und ein Dutzend Menüleisten-Daemons parallel laufen haben wollen. Bei lokalen KI-Workloads zählt jedes Megabyte. Führen Sie zunächst diesen Befehl aus, um ein schonungslos ehrliches Bild Ihres Speicherdrucks zu erhalten:
Terminal
# Real-time memory breakdown
sudo memory_pressure
# See top RAM consumers sorted by resident size
ps aux --sort=-%mem | head -20
# Check swap usage right now
sysctl vm.swapusage
Wenn vm.swapusage etwas anderes als 0.00B used anzeigt, haben Sie bereits Probleme, bevor die Inferenz überhaupt beginnt.
Das Pre-Inferenz-Ritual: Eine Checkliste
Behandeln Sie dies als obligatorische Pre-Flight-Checkliste, bevor Sie ein Modell laden:
| Aufgabe |
Befehl / Ort |
Freigegebener Speicher (ca.) |
| Unbenutzte Apps beenden |
Cmd+Q (nicht nur schließen) |
200 MB–1,5 GB |
| Spotlight-Indizierung deaktivieren |
sudo mdutil -a -i off |
150–400 MB |
| iCloud Drive-Sync stoppen |
Systemeinstellungen → Apple-ID → iCloud |
100–300 MB |
| Browser-Tabs schließen |
Maximal 0–2 Tabs offen halten |
500 MB–2 GB |
| Time Machine Snapshots deaktivieren |
sudo tmutil disablelocal |
Hintergrund-I/O |
| Mail- und Kalender-Apps beenden |
Manuell |
100–250 MB |
Die schlimmsten Übeltäter programmatisch deaktivieren
Tun Sie dies nicht jede Sitzung manuell. Erstellen Sie ein Shell-Skript, das Sie vor jeder ernsthaften Inferenzarbeit ausführen können:
Terminal
#!/bin/zsh
# ai-mode.sh — Free up memory before local LLM sessions
echo "🧠 Entering AI Mode..."
# Pause Spotlight indexing
sudo mdutil -a -i off
# Purge inactive memory (forces disk cache to flush)
sudo purge
# Stop unnecessary launch agents
launchctl unload -w ~/Library/LaunchAgents/com.google.keystone.agent.plist 2>/dev/null
launchctl unload -w /Library/LaunchAgents/com.adobe.AdobeCreativeCloud.plist 2>/dev/null
# Disable WindowServer-heavy features (optional, aggressive)
# defaults write com.apple.universalaccess reduceMotion -bool true
echo "✅ Done. Current swap usage:"
sysctl vm.swapusage
echo "✅ Available memory:"
memory_pressure | grep "System Memory Pressure"
Machen Sie es ausführbar: chmod +x ai-mode.sh und führen Sie es mit sudo ./ai-mode.sh vor jeder Inferenz-Sitzung aus.
Thermische und Leistungszustände kontrollieren
Auf Apple Silicon teilen sich CPU und GPU denselben Unified Memory Pool, aber Performance-Cores verbrauchen deutlich mehr Energie und erzeugen Wärme