laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Step 1 La Realtà dei 8GB di Memoria Unificata
Sfatiamo immediatamente il mito: 8GB di memoria unificata non è la condanna a morte per l'AI locale che la maggior parte delle persone afferma. È tuttavia un ambiente implacabile che punisce una selezione ingenua dei modelli e premia la precisione chirurgica. Capire perché richiede una breve panoramica dell'architettura della memoria Apple Silicon.
La Memoria Unificata Non È "Solo RAM"
Sulle macchine dell'era Intel, la CPU disponeva di RAM di sistema e la GPU di una propria VRAM dedicata — due pool separati che non potevano condividere risorse. L'architettura a memoria unificata (UMA) di Apple Silicon elimina completamente questo confine. CPU, GPU e Neural Engine attingono tutti dallo stesso pool di memoria fisica. Questo è il motivo per cui un Mac con 8GB può superare un PC con 16GB di DDR4 per i task di inferenza — il modello non attraversa mai un bus PCIe per raggiungere le risorse di calcolo.
Terminal
┌─────────────────────────────────────────────┐
│ Unified Memory (8GB) │
│ │
│ ┌─────────┐ ┌─────────┐ ┌───────────┐ │
│ │ CPU │ │ GPU │ │ Neural │ │
│ │ Cores │ │ Cores │ │ Engine │ │
│ └─────────┘ └─────────┘ └───────────┘ │
│ ↑ ↑ ↑ │
│ └────────────┴─────────────┘ │
│ Shared Memory Bus │
└─────────────────────────────────────────────┘
Questa architettura zero-copy significa che i pesi del modello caricati in memoria sono immediatamente accessibili a tutte le unità di calcolo con la piena larghezza di banda della memoria — sui chip M2, fino a 100 GB/s. Si confronti con una GPU discreta di fascia media che sposta dati attraverso uno slot PCIe Gen 4 x16 a circa 32 GB/s.
Il Reale Prospetto di Budget
È qui che l'onestà diventa scomoda. Quegli 8GB non sono tutti disponibili per l'inferenza AI. macOS è un sistema operativo residente in memoria, e ha le sue esigenze:
| Componente |
Footprint di Memoria Approssimativo |
| Kernel macOS + processi di sistema |
~1.5 – 2.0 GB |
| Browser attivo (Safari, Chrome) |
~0.5 – 1.5 GB |
| App in background (Spotlight, ecc.) |
~0.3 – 0.5 GB |
| Disponibile per l'inferenza AI |
~4.0 – 5.5 GB |
Ciò significa che il vostro budget effettivo per l'inferenza è realisticamente 4–5.5GB, non 8GB. Ogni byte conta. Un modello che tecnicamente entra sulla carta può comunque precipitare il sistema in un inferno di swap se avete Slack, un browser e Spotify in esecuzione simultanea.
Il requisito di memoria di un modello non è semplicemente la sua dimensione su disco. Durante l'inferenza, è necessario tenere conto di:
- Pesi del modello — il componente più grande, scala con il conteggio dei parametri e la quantizzazione
- KV cache — la cache di attenzione chiave-valore che cresce con la dimensione della finestra di contesto
- Overhead di runtime — buffer del framework, grafi computazionali, memoria delle attivazioni
Una formula approssimativa per stimare la memoria dei pesi:
Terminal
Memory (GB) ≈ (Parameters × Bits_per_weight) / (8 × 1024³)
Example: 7B model at 4-bit quantization
= (7,000,000,000 × 4) / (8 × 1,073,741,824)
≈ 3.26 GB
Questo spiega perché un modello da 7B quantizzato a Q4 si attesta intorno ai 3.5–4.2GB — tecnicamente possibile su hardware a 8GB, ma si opererà con uno spazio praticamente nullo per la KV cache su contesti più lunghi.
La Verità Senza Filtri sui Modelli 7B
I modelli 7B su Mac con 8GB non sono utilizzabili comodamente per flussi di lavoro in produzione. Funzionano. Ma "funzionare" e "funzionare bene" sono cose diverse.
Con una finestra di contesto da 2048 token, un modello 7B Q4 consumerà l'intero budget di inferenza disponibile. Spingendo a 4096 token si finirà in swap. L'esperienza degrada da un'inferenza fluida a un'arrancante sequenza di scatti e throttling termico, che offre un'eccellente lezione nella gestione della pressione di memoria.
Gli ingegneri e i power user che effettivamente prosperano con Mac da 8GB per l'AI locale hanno interiorizzato un modello mentale diverso: più piccolo, più veloce e orientato allo scopo batte grande e generalista in ogni occasione. Le sezioni successive vi mostreranno esattamente come costruire questo stack.
Step 2 Cos'è la Swap Memory e Perché Evitarla
Quando il Mac esaurisce la memoria unificata fisica, macOS non va in crash — fa qualcosa di silenziosamente molto più insidioso: inizia a usare l'SSD come memoria di overflow. Questo meccanismo è chiamato swap memory (o paginazione della memoria virtuale), e sebbene sembri una rete di sicurezza, per l'inferenza AI locale è effettivamente una scogliera da cui si precipita a tutta velocità.
Come Funziona la Swap
macOS utilizza una tecnica chiamata compressione della memoria e swapping. Il sistema operativo tenta prima di comprimere le pagine di memoria inattive per far stare più dati in RAM. Quando nemmeno questo è sufficiente, inizia il paging — scrivendo il contenuto della memoria in uno spazio riservato sull'SSD chiamato file di swap, per poi rileggerlo quando necessario.
Terminal
Physical Unified Memory (8GB)
│
▼
┌───────────────────────┐
│ Active Data (in RAM) │ ← Lightning fast (400 GB/s bandwidth)
└───────────────────────┘
│ overflow
▼
┌───────────────────────┐
│ Swap on SSD │ ← ~3,000–7,000 MB/s (NVMe)
└───────────────────────┘
Il divario di velocità è il problema. La memoria unificata Apple Silicon opera a circa 400 GB/s di banda. Persino i più veloci SSD NVMe di Apple raggiungono al massimo circa 7 GB/s — vale a dire un throughput ~57 volte più lento per qualsiasi dato che viene spostato in swap.
Cosa Significa per l'Inferenza LLM
I Large Language Model non sono come le applicazioni tipiche. Durante l'inferenza, i pesi del modello devono essere continuamente trasmessi in streaming attraverso la memoria per calcolare ogni token. Un modello da 7B parametri in quantizzazione a 4 bit occupa circa 4–5GB di memoria. Quando si hanno già in esecuzione i processi di sistema di macOS, il browser e altre app in background, ci vuole pochissimo per superare gli 8GB.
Nel momento in cui i pesi del modello iniziano a riversarsi in swap, ogni singola generazione di token richiede la lettura dei dati dall'SSD. Il risultato non è un rallentamento graduale — è un collasso:
| Scenario |
Token/Secondo |
Esperienza Utente |
| Modello completamente in memoria unificata |
25–45 tok/s |
Fluido, utilizzabile |
| Utilizzo parziale della swap (~1–2GB) |
3–8 tok/s |
Doloroso ma funzionale |
| Utilizzo intenso della swap (3GB+) |
<1 tok/s |
Effettivamente inutilizzabile |
Il Problema Nascosto dell'Usura dell'SSD
Oltre alle prestazioni pure, c'è un'altra ragione per prendere sul serio la swap: la durabilità dell'SSD. Ogni scrittura in swap è una scrittura sul flash NAND del vostro SSD. L'esecuzione di pesanti job di inferenza che stressano costantemente la swap può accelerare significativamente l'usura del disco nel corso di mesi e anni di utilizzo.
Apple non rende facile (né economico) sostituire gli SSD dei MacBook. Proteggere il proprio SSD significa proteggere il proprio investimento hardware.
Come Monitorare la Swap in Tempo Reale
Prima di caricare qualsiasi modello, prendete l'abitudine di verificare la pressione di memoria. Aprite Activity Monitor → scheda Memory, oppure eseguite questo comando nel terminale:
Terminal
# Check current swap usage
vm_stat | grep "Swapouts"
# Real-time memory pressure monitoring
sudo memory_pressure
Si può anche usare questo one-liner per uno snapshot rapido:
Un output sano appare così:
Terminal
vm.swapusage: total = 2048.00M used = 0.00M free = 2048.00M
Se used sale mentre si esegue un modello, la vostra configurazione è errata. Il resto di questa guida è dedicato a fare in modo che quel numero rimanga a zero.
Regola d'Oro: Se il vostro modello non entra interamente negli 8GB di memoria unificata insieme a un ambiente macOS snello, pagherete una penalità prestazionale che nessun trucco hardware può superare. La soluzione è sempre andare su qualcosa di più piccolo, più intelligente o più leggero — mai lasciare che la swap assorba la differenza.
Step 3 I Migliori Modelli Piccoli per Mac con 8GB (Gemma 2B, Phi-3, Qwen)
Scegliere il modello giusto per un sistema con 8GB di memoria unificata non significa accontentarsi — significa selezione di precisione. Il panorama dei modelli con meno di 4B parametri è maturato enormemente, e diversi candidati offrono capacità genuinamente impressionanti di ragionamento, coding e instruction-following che vi sorprenderanno. La chiave è sapere quali modelli sono progettati con efficienza rispetto a quelli che sono semplicemente piccoli per caso.
Ecco la regola ferrea: i pesi del modello + la KV cache + l'overhead di macOS devono rientrare comodamente negli 8GB. Ciò significa tipicamente mirare a modelli quantizzati che si attestano tra 1.5GB e 4GB su disco/RAM, lasciando spazio al sistema di respirare.
I Candidati a Colpo d'Occhio
| Modello |
Parametri |
Dimensione Q4_K_M |
Utilizzo RAM (est.) |
Ideale Per |
| Gemma 2 2B |
2.6B |
~1.6 GB |
~2.5 GB |
Chat generale, riassunti |
| Phi-3 Mini |
3.8B |
~2.4 GB |
~3.5 GB |
Ragionamento, coding, matematica |
| Qwen2.5 1.5B |
1.5B |
~1.0 GB |
~1.8 GB |
Inferenza rapida, multilingua |
| Qwen2.5 3B |
3.1B |
~2.0 GB |
~3.0 GB |
Prestazioni bilanciate |
| Llama 3.2 3B |
3.2B |
~2.0 GB |
~3.2 GB |
Instruction following |
| SmolLM2 1.7B |
1.7B |
~1.1 GB |
~2.0 GB |
Task edge, bassa latenza |
Gemma 2 2B — Il Cavallo da Lavoro Efficiente di Google
Gemma 2 2B di Google performa ben oltre la sua categoria. Utilizza un meccanismo di sliding window attention e logit soft-capping che lo rende notevolmente più coerente rispetto ai vecchi modelli della classe 2B. Per un Mac con 8GB, questo è un driver quotidiano sicuro.
Terminal
# Pull and run Gemma 2 2B via Ollama
ollama pull gemma2:2b
ollama run gemma2:2b
Punti di forza: Riassunti eccellenti, flusso di conversazione naturale, buona aderenza alle istruzioni.
Punti deboli: La qualità del coding è inferiore a Phi-3; finestra di contesto limitata nella variante 2B.
Phi-3 Mini — Lo Specialista del Ragionamento
Phi-3 Mini (3.8B) di Microsoft è l'opzione tecnicamente più sofisticata in questo tier. Addestrato su un dataset di qualità "da manuale" accuratamente curato, raggiunge benchmark di ragionamento e coding che rivaleggiano con modelli molto più grandi. Se si utilizza l'AI locale per generazione di codice, problemi di logica o output strutturato, Phi-3 Mini è la scelta giusta.
Terminal
# Run Phi-3 Mini with Ollama
ollama pull phi3:mini
ollama run phi3:mini
# Or target the 128K context variant explicitly
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M
Alla quantizzazione Q4_K_M, Phi-3 Mini si attesta intorno a 2.4GB, lasciando spazio sostanziale su un sistema da 8GB. Lo si può eseguire con una finestra di contesto da 4K–8K comodamente senza innescare la swap.
Punti di forza: Ragionamento best-in-class per i sub-4B, eccellente output di codice, generazione di JSON strutturato.
Punti deboli: Leggermente prolisso; occasionalmente spiega eccessivamente risposte semplici.
Qwen2.5 — Il Demone della Velocità Multilingua
La serie Qwen2.5 di Alibaba offre due opzioni convincenti per Mac con 8GB: il 1.5B per la velocità pura e il 3B per una qualità migliore. L'architettura Qwen è stata specificamente ottimizzata per l'efficienza, e i suoi dati di addestramento multilingua la rendono particolarmente forte per i carichi di lavoro in lingue non inglesi.
Terminal
# Qwen2.5 1.5B — fastest option
ollama pull qwen2.5:1.5b
ollama run qwen2.5:1.5b
# Qwen2.5 3B — better quality, still comfortable on 8GB
ollama pull qwen2.5:3b
ollama run qwen2.5:3b
La variante 1.5B è particolarmente interessante per le pipeline di automazione — è abbastanza veloce da essere usata come classificatore locale, router o strumento leggero di trasformazione dati senza latenza percepibile.
Punti di forza: Inferenza fulminea, forte supporto multilingua, eccellente per pattern agentici/tool-use.
Punti deboli: Il 1.5B perde sfumature su task di ragionamento complessi; il 3B è il minimo per un uso serio.
Matrice di Raccomandazioni Pratiche
Non scegliete un solo modello — abbinate il modello al task:
- Coding e debugging →
phi3:mini
- Q&A generali e chat →
gemma2:2b
- Automazione, classificazione, pipeline →
qwen2.5:1.5b
- Uso quotidiano bilanciato →
qwen2.5:3b
- Lavoro multilingua →
qwen2.5:3b
Eseguire più modelli non è un problema — Ollama carica i modelli su richiesta e li espelle dalla memoria quando sono inattivi. Si può passare liberamente tra questi senza riavviare nulla, a patto di non eseguirne due simultaneamente.
Il punto cruciale: 8GB non è una limitazione se si sceglie con intelligenza. Questi modelli non sono compromessi — sono una categoria diversa di strumenti, ottimizzati esattamente per l'ambiente in cui vengono eseguiti.
Step 4 La Quantizzazione Spiegata: Perché Q4_K_M è il Vostro Migliore Alleato
Se avete trascorso del tempo a navigare su Hugging Face o nella libreria di modelli di Ollama, avrete inevitabilmente incontrato un disorientante alfabeto di suffissi: Q4_K_M, Q8_0, Q5_K_S, F16, IQ3_XS. Non sono convenzioni di nomenclatura arbitrarie — rappresentano versioni fondamentalmente diverse dello stesso modello, e scegliere quella sbagliata su una macchina da 8GB è la differenza tra uno strumento utilizzabile e un sistema che si blocca.
Cosa Fa Realmente la Quantizzazione
Un modello di rete neurale, nella sua essenza, è una massiccia collezione di pesi numerici — miliardi di numeri in virgola mobile che definiscono come il modello ragiona. Nella loro forma nativa (F32 o F16), questi pesi vengono memorizzati con precisione piena o dimezzata, consumando enormi quantità di memoria.
La quantizzazione è il processo di riduzione della precisione numerica di questi pesi, scambiando una piccola quantità di accuratezza con riduzioni drastiche del footprint di memoria e della velocità di inferenza.
Si pensi in questi termini: invece di memorizzare il numero 3.14159265358979, la quantizzazione potrebbe memorizzarlo come 3.14 o persino solo 3. Il modello perde un po' di granularità, ma conserva la stragrande maggioranza della sua capacità di ragionamento.
Decodificare la Convenzione di Nomenclatura
Lo schema di nomenclatura della quantizzazione GGUF (usato da llama.cpp e Ollama) segue un pattern strutturato:
Terminal
Q[bits]_[variant]_[size]
│ │ └── S = Small, M = Medium, L = Large (parameter mixture)
│ └──────────── K = K-quants (newer, smarter algorithm)
└───────────────────── Number of bits per weight
| Formato |
Bit/Peso |
Dimensione Appross. (Modello 7B) |
Perdita di Qualità |
Caso d'Uso |
F16 |
16 |
~14 GB |
Nessuna |
Riferimento baseline |
Q8_0 |
8 |
~7.2 GB |
Trascurabile |
Qualità massima, stretto su 8GB |
Q6_K |
6 |
~5.5 GB |
Minima |
Alta qualità, più spazio |
Q4_K_M |
4 |
~4.1 GB |
Bassa |
Sweet spot per 8GB |
Q4_K_S |
4 |
~3.8 GB |
Moderata |
Leggermente più piccolo, meno accurato |
Q3_K_M |
3 |
~3.1 GB |
Percettibile |
Solo per uso d'emergenza |
Q2_K |
2 |
~2.6 GB |
Significativa |
Da evitare se possibile |
Perché Q4_K_M Colpisce nel Segno
La "K" in Q4_K_M è cruciale. I K-quant usano una strategia di quantizzazione non uniforme e più intelligente — non applicano la stessa riduzione di precisione a tutti i pesi in modo uniforme. Invece, identificano quali pesi sono più critici per l'output del modello e li preservano con maggiore fedeltà, quantizzando aggressivamente i pesi meno importanti.
Il risultato è che Q4_K_M ottiene qualcosa di notevole: comprime un modello da 7B parametri a circa 4GB, lasciandovi 4GB di spazio per:
- I processi di sistema macOS (~2GB di baseline)
- Il contesto dell'applicazione attiva
- La KV cache (la "memoria di lavoro" del modello durante l'inferenza)
- Un buffer di overhead per prevenire la swap
A livello pratico, i benchmark mostrano costantemente che Q4_K_M conserva il 95–98% delle prestazioni del modello a piena precisione sui benchmark di ragionamento standard. Per la maggior parte dei task reali — assistenza alla programmazione, generazione di testo, Q&A — non noterete la differenza.
Vedere Questo in Pratica con Ollama
Quando si scarica un modello con Ollama, è possibile specificare esplicitamente i livelli di quantizzazione:
Terminal
# Default pull (Ollama chooses, usually Q4_K_M)
ollama pull llama3.2:3b
# Explicit quantization targeting
ollama pull qwen2.5:7b-instruct-q4_K_M
# Check what you have loaded
ollama list
Terminal
NAME ID SIZE MODIFIED
qwen2.5:7b-instruct-q4_K_M a8b3c2d1e0f9 4.7 GB 2 hours ago
gemma2:2b-instruct-q4_K_M f1e2d3c4b5a6 1.6 GB 1 day ago
Per la gestione manuale di GGUF tramite llama.cpp, specificare la quantizzazione è ugualmente diretto:
Terminal
./llama-cli \
-m ./models/mistral-7b-instruct-q4_K_M.gguf \
-n 512 \
--ctx-size 4096 \
-ngl 99 # Offload all layers to GPU (Metal)
Quando Scendere (e Quando Non Farlo)
Ci sono scenari in cui passare a Q3_K_M o IQ3_XS ha senso — specificamente quando si eseguono modelli più grandi e capaci (come un modello da 13B parametri) e si accetta una certa degradazione della qualità in cambio della possibilità di farlo stare in memoria. Una quantizzazione aggressiva di un modello più intelligente può comunque superare un modello più debole con quantizzazione leggera.
Tuttavia, al di sotto di Q4, si inizieranno a notare:
- Tassi di allucinazione aumentati
- Comportamento di instruction-following degradato
- Catene di ragionamento inconsistenti
- Prestazioni notevolmente peggiori su task di output strutturato (JSON, codice)
La regola d'oro per le macchine da 8GB: puntate sempre prima a Q4_K_M. Scendete solo se il modello non entra proprio, e salite (Q6_K, Q8_0) solo se si esegue un modello con meno di 4B parametri con ampio spazio di memoria disponibile.
Step 5 Ottimizzare i Task in Background di macOS
Anche il modello più aggressivamente quantizzato andrà in stutter e swap se macOS sta silenziosamente dedicando 2–3GB di memoria unificata a processi che non avete mai consapevolmente avviato. Prima di avviare Ollama o LM Studio, trattate il vostro Mac come la macchina di inferenza dedicata che deve temporaneamente diventare.
Capire Cosa Sta Mangiando la Vostra RAM
macOS è un sistema operativo bello e dogmatico che assume che vogliate sempre la sincronizzazione iCloud, l'indicizzazione Spotlight e una dozzina di daemon nella barra dei menu in esecuzione in parallelo. Per i carichi di lavoro AI locali, ogni megabyte conta. Eseguite prima questo comando per avere un quadro brutalmente onesto della vostra pressione di memoria:
Terminal
# Real-time memory breakdown
sudo memory_pressure
# See top RAM consumers sorted by resident size
ps aux --sort=-%mem | head -20
# Check swap usage right now
sysctl vm.swapusage
Se vm.swapusage mostra qualcosa di diverso da 0.00B used, siete già in difficoltà prima ancora che l'inferenza inizi.
Il Rituale Pre-Inferenza: Una Checklist
Trattate questo come una checklist di pre-volo obbligatoria prima di caricare qualsiasi modello:
| Task |
Comando / Posizione |
Memoria Liberata (Appross.) |
| Chiudere le app non utilizzate |
Cmd+Q (non solo chiudere la finestra) |
200MB–1.5GB |
| Disabilitare l'indicizzazione Spotlight |
sudo mdutil -a -i off |
150–400MB |
| Fermare la sincronizzazione iCloud Drive |
Impostazioni di Sistema → Apple ID → iCloud |
100–300MB |
| Chiudere le schede del browser |
Tenere aperte 0–2 schede al massimo |
500MB–2GB |
| Disabilitare gli snapshot di Time Machine |
sudo tmutil disablelocal |
I/O in background |
| Chiudere Mail e app Calendario |
Manuale |
100–250MB |
Disabilitare Programmaticamente i Peggiori Processi
Non fatelo manualmente ad ogni sessione. Create uno script shell da eseguire prima di qualsiasi lavoro serio di inferenza:
Terminal
#!/bin/zsh
# ai-mode.sh — Free up memory before local LLM sessions
echo "🧠 Entering AI Mode..."
# Pause Spotlight indexing
sudo mdutil -a -i off
# Purge inactive memory (forces disk cache to flush)
sudo purge
# Stop unnecessary launch agents
launchctl unload -w ~/Library/LaunchAgents/com.google.keystone.agent.plist 2>/dev/null
launchctl unload -w /Library/LaunchAgents/com.adobe.AdobeCreativeCloud.plist 2>/dev/null
# Disable WindowServer-heavy features (optional, aggressive)
# defaults write com.apple.universalaccess reduceMotion -bool true
echo "✅ Done. Current swap usage:"
sysctl vm.swapusage
echo "✅ Available memory:"
memory_pressure | grep "System Memory Pressure"
Rendetelo eseguibile: chmod +x ai-mode.sh ed eseguitelo con sudo ./ai-mode.sh prima di ogni sessione di inferenza.
Controllare gli Stati Termici e di Prestazione
Su Apple Silicon, CPU e GPU condividono lo stesso pool di memoria unificata, ma i performance core consumano significativamente più energia e generano calore che può innescare il thermal throttling a metà inferenza — che si manifesta come velocità di generazione dei token erratica.
Terminal
# Check current CPU frequency and thermal state
sudo powermetrics --samplers cpu_power -i 1000 -n 3
# Force high-performance mode (plugged in only)
sudo pmset -c gpuswitch 2
sudo pmset -c highstandbythreshold 95
Suggerimento pro: Eseguite l'inferenza collegati all'alimentazione. A batteria, macOS applica una schedulazione aggressiva sui core di efficienza che può dimezzare il throughput in token al secondo.
Usare Activity Monitor come Kill Switch
Per un flusso di lavoro basato su GUI, configurate Activity Monitor per mostrarvi ciò che conta:
- Aprite Activity Monitor → scheda Memory
- Ordinate per Memory in modo decrescente
- Osservate il grafico Memory Pressure in basso — tenetelo verde
- Se diventa giallo o rosso, fermate immediatamente l'inferenza e terminate i processi prima che la swap peggiori la situazione
La regola d'oro: Se Memory Pressure non è completamente verde prima di caricare un modello, andrete in swap. Su una macchina da 8GB, lo swapping durante l'inferenza non rallenta soltanto le cose — può produrre output confusi, troncati o completamente falliti, poiché la KV cache del modello viene stressata attraverso letture da disco.
Recuperare Memoria Dopo una Sessione
macOS non sempre rilascia la memoria in modo pulito dopo aver chiuso un processo LLM. Forzatelo:
Terminal
# After closing Ollama or LM Studio
sudo purge
# Verify swap cleared
sysctl vm.swapusage
# Target: vm.swapusage: total = 0.00B used = 0.00B free = 0.00B
Riavviate il servizio ollama invece di limitarvi a chiudere la finestra dell'app — i pesi del modello spesso rimangono residenti in memoria altrimenti:
Terminal
ollama stop # Stop any running model
pkill -f ollama # Kill the background daemon
# Relaunch fresh when ready
ollama serve &
Trattate la memoria del vostro Mac da 8GB come una sala operatoria — sterile, controllata e spietatamente ripulita da tutto ciò che non vi appartiene.