La Guida alla Sopravvivenza per l'IA Locale su Mac da 8GB

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Step 1 La Realtà dei 8GB di Memoria Unificata

Sfatiamo immediatamente il mito: 8GB di memoria unificata non è la condanna a morte per l'AI locale che la maggior parte delle persone afferma. È tuttavia un ambiente implacabile che punisce una selezione ingenua dei modelli e premia la precisione chirurgica. Capire perché richiede una breve panoramica dell'architettura della memoria Apple Silicon.

La Memoria Unificata Non È "Solo RAM"

Sulle macchine dell'era Intel, la CPU disponeva di RAM di sistema e la GPU di una propria VRAM dedicata — due pool separati che non potevano condividere risorse. L'architettura a memoria unificata (UMA) di Apple Silicon elimina completamente questo confine. CPU, GPU e Neural Engine attingono tutti dallo stesso pool di memoria fisica. Questo è il motivo per cui un Mac con 8GB può superare un PC con 16GB di DDR4 per i task di inferenza — il modello non attraversa mai un bus PCIe per raggiungere le risorse di calcolo.

Terminal

┌─────────────────────────────────────────────┐
│           Unified Memory (8GB)              │
│                                             │
│   ┌─────────┐  ┌─────────┐  ┌───────────┐  │
│   │   CPU   │  │   GPU   │  │  Neural   │  │
│   │  Cores  │  │  Cores  │  │  Engine   │  │
│   └─────────┘  └─────────┘  └───────────┘  │
│        ↑            ↑             ↑         │
│        └────────────┴─────────────┘         │
│              Shared Memory Bus              │
└─────────────────────────────────────────────┘

Questa architettura zero-copy significa che i pesi del modello caricati in memoria sono immediatamente accessibili a tutte le unità di calcolo con la piena larghezza di banda della memoria — sui chip M2, fino a 100 GB/s. Si confronti con una GPU discreta di fascia media che sposta dati attraverso uno slot PCIe Gen 4 x16 a circa 32 GB/s.

Il Reale Prospetto di Budget

È qui che l'onestà diventa scomoda. Quegli 8GB non sono tutti disponibili per l'inferenza AI. macOS è un sistema operativo residente in memoria, e ha le sue esigenze:

Componente	Footprint di Memoria Approssimativo
Kernel macOS + processi di sistema	~1.5 – 2.0 GB
Browser attivo (Safari, Chrome)	~0.5 – 1.5 GB
App in background (Spotlight, ecc.)	~0.3 – 0.5 GB
Disponibile per l'inferenza AI	~4.0 – 5.5 GB

Ciò significa che il vostro budget effettivo per l'inferenza è realisticamente 4–5.5GB, non 8GB. Ogni byte conta. Un modello che tecnicamente entra sulla carta può comunque precipitare il sistema in un inferno di swap se avete Slack, un browser e Spotify in esecuzione simultanea.

Comprendere il Footprint di Memoria dei Modelli

Il requisito di memoria di un modello non è semplicemente la sua dimensione su disco. Durante l'inferenza, è necessario tenere conto di:

Pesi del modello — il componente più grande, scala con il conteggio dei parametri e la quantizzazione
KV cache — la cache di attenzione chiave-valore che cresce con la dimensione della finestra di contesto
Overhead di runtime — buffer del framework, grafi computazionali, memoria delle attivazioni

Una formula approssimativa per stimare la memoria dei pesi:

Terminal

Memory (GB) ≈ (Parameters × Bits_per_weight) / (8 × 1024³)

Example: 7B model at 4-bit quantization
= (7,000,000,000 × 4) / (8 × 1,073,741,824)
≈ 3.26 GB

Questo spiega perché un modello da 7B quantizzato a Q4 si attesta intorno ai 3.5–4.2GB — tecnicamente possibile su hardware a 8GB, ma si opererà con uno spazio praticamente nullo per la KV cache su contesti più lunghi.

La Verità Senza Filtri sui Modelli 7B

I modelli 7B su Mac con 8GB non sono utilizzabili comodamente per flussi di lavoro in produzione. Funzionano. Ma "funzionare" e "funzionare bene" sono cose diverse.

Con una finestra di contesto da 2048 token, un modello 7B Q4 consumerà l'intero budget di inferenza disponibile. Spingendo a 4096 token si finirà in swap. L'esperienza degrada da un'inferenza fluida a un'arrancante sequenza di scatti e throttling termico, che offre un'eccellente lezione nella gestione della pressione di memoria.

Gli ingegneri e i power user che effettivamente prosperano con Mac da 8GB per l'AI locale hanno interiorizzato un modello mentale diverso: più piccolo, più veloce e orientato allo scopo batte grande e generalista in ogni occasione. Le sezioni successive vi mostreranno esattamente come costruire questo stack.

Step 2 Cos'è la Swap Memory e Perché Evitarla

Quando il Mac esaurisce la memoria unificata fisica, macOS non va in crash — fa qualcosa di silenziosamente molto più insidioso: inizia a usare l'SSD come memoria di overflow. Questo meccanismo è chiamato swap memory (o paginazione della memoria virtuale), e sebbene sembri una rete di sicurezza, per l'inferenza AI locale è effettivamente una scogliera da cui si precipita a tutta velocità.

Come Funziona la Swap

macOS utilizza una tecnica chiamata compressione della memoria e swapping. Il sistema operativo tenta prima di comprimere le pagine di memoria inattive per far stare più dati in RAM. Quando nemmeno questo è sufficiente, inizia il paging — scrivendo il contenuto della memoria in uno spazio riservato sull'SSD chiamato file di swap, per poi rileggerlo quando necessario.

Terminal

Physical Unified Memory (8GB)
        │
        ▼
┌───────────────────────┐
│  Active Data (in RAM) │  ← Lightning fast (400 GB/s bandwidth)
└───────────────────────┘
        │ overflow
        ▼
┌───────────────────────┐
│  Swap on SSD          │  ← ~3,000–7,000 MB/s (NVMe)
└───────────────────────┘

Il divario di velocità è il problema. La memoria unificata Apple Silicon opera a circa 400 GB/s di banda. Persino i più veloci SSD NVMe di Apple raggiungono al massimo circa 7 GB/s — vale a dire un throughput ~57 volte più lento per qualsiasi dato che viene spostato in swap.

Cosa Significa per l'Inferenza LLM

I Large Language Model non sono come le applicazioni tipiche. Durante l'inferenza, i pesi del modello devono essere continuamente trasmessi in streaming attraverso la memoria per calcolare ogni token. Un modello da 7B parametri in quantizzazione a 4 bit occupa circa 4–5GB di memoria. Quando si hanno già in esecuzione i processi di sistema di macOS, il browser e altre app in background, ci vuole pochissimo per superare gli 8GB.

Nel momento in cui i pesi del modello iniziano a riversarsi in swap, ogni singola generazione di token richiede la lettura dei dati dall'SSD. Il risultato non è un rallentamento graduale — è un collasso:

Scenario	Token/Secondo	Esperienza Utente
Modello completamente in memoria unificata	25–45 tok/s	Fluido, utilizzabile
Utilizzo parziale della swap (~1–2GB)	3–8 tok/s	Doloroso ma funzionale
Utilizzo intenso della swap (3GB+)	<1 tok/s	Effettivamente inutilizzabile

Il Problema Nascosto dell'Usura dell'SSD

Oltre alle prestazioni pure, c'è un'altra ragione per prendere sul serio la swap: la durabilità dell'SSD. Ogni scrittura in swap è una scrittura sul flash NAND del vostro SSD. L'esecuzione di pesanti job di inferenza che stressano costantemente la swap può accelerare significativamente l'usura del disco nel corso di mesi e anni di utilizzo.

Apple non rende facile (né economico) sostituire gli SSD dei MacBook. Proteggere il proprio SSD significa proteggere il proprio investimento hardware.

Come Monitorare la Swap in Tempo Reale

Prima di caricare qualsiasi modello, prendete l'abitudine di verificare la pressione di memoria. Aprite Activity Monitor → scheda Memory, oppure eseguite questo comando nel terminale:

Terminal

# Check current swap usage
vm_stat | grep "Swapouts"

# Real-time memory pressure monitoring
sudo memory_pressure

Si può anche usare questo one-liner per uno snapshot rapido:

Terminal

sysctl vm.swapusage

Un output sano appare così:

Terminal

vm.swapusage: total = 2048.00M  used = 0.00M  free = 2048.00M

Se used sale mentre si esegue un modello, la vostra configurazione è errata. Il resto di questa guida è dedicato a fare in modo che quel numero rimanga a zero.

Regola d'Oro: Se il vostro modello non entra interamente negli 8GB di memoria unificata insieme a un ambiente macOS snello, pagherete una penalità prestazionale che nessun trucco hardware può superare. La soluzione è sempre andare su qualcosa di più piccolo, più intelligente o più leggero — mai lasciare che la swap assorba la differenza.

Step 3 I Migliori Modelli Piccoli per Mac con 8GB (Gemma 2B, Phi-3, Qwen)

Scegliere il modello giusto per un sistema con 8GB di memoria unificata non significa accontentarsi — significa selezione di precisione. Il panorama dei modelli con meno di 4B parametri è maturato enormemente, e diversi candidati offrono capacità genuinamente impressionanti di ragionamento, coding e instruction-following che vi sorprenderanno. La chiave è sapere quali modelli sono progettati con efficienza rispetto a quelli che sono semplicemente piccoli per caso.

Ecco la regola ferrea: i pesi del modello + la KV cache + l'overhead di macOS devono rientrare comodamente negli 8GB. Ciò significa tipicamente mirare a modelli quantizzati che si attestano tra 1.5GB e 4GB su disco/RAM, lasciando spazio al sistema di respirare.

I Candidati a Colpo d'Occhio

Modello	Parametri	Dimensione Q4_K_M	Utilizzo RAM (est.)	Ideale Per
Gemma 2 2B	2.6B	~1.6 GB	~2.5 GB	Chat generale, riassunti
Phi-3 Mini	3.8B	~2.4 GB	~3.5 GB	Ragionamento, coding, matematica
Qwen2.5 1.5B	1.5B	~1.0 GB	~1.8 GB	Inferenza rapida, multilingua
Qwen2.5 3B	3.1B	~2.0 GB	~3.0 GB	Prestazioni bilanciate
Llama 3.2 3B	3.2B	~2.0 GB	~3.2 GB	Instruction following
SmolLM2 1.7B	1.7B	~1.1 GB	~2.0 GB	Task edge, bassa latenza

Gemma 2 2B — Il Cavallo da Lavoro Efficiente di Google

Gemma 2 2B di Google performa ben oltre la sua categoria. Utilizza un meccanismo di sliding window attention e logit soft-capping che lo rende notevolmente più coerente rispetto ai vecchi modelli della classe 2B. Per un Mac con 8GB, questo è un driver quotidiano sicuro.

Terminal

# Pull and run Gemma 2 2B via Ollama
ollama pull gemma2:2b
ollama run gemma2:2b

Punti di forza: Riassunti eccellenti, flusso di conversazione naturale, buona aderenza alle istruzioni.
Punti deboli: La qualità del coding è inferiore a Phi-3; finestra di contesto limitata nella variante 2B.

Phi-3 Mini — Lo Specialista del Ragionamento

Phi-3 Mini (3.8B) di Microsoft è l'opzione tecnicamente più sofisticata in questo tier. Addestrato su un dataset di qualità "da manuale" accuratamente curato, raggiunge benchmark di ragionamento e coding che rivaleggiano con modelli molto più grandi. Se si utilizza l'AI locale per generazione di codice, problemi di logica o output strutturato, Phi-3 Mini è la scelta giusta.

Terminal

# Run Phi-3 Mini with Ollama
ollama pull phi3:mini
ollama run phi3:mini

# Or target the 128K context variant explicitly
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M

Alla quantizzazione Q4_K_M, Phi-3 Mini si attesta intorno a 2.4GB, lasciando spazio sostanziale su un sistema da 8GB. Lo si può eseguire con una finestra di contesto da 4K–8K comodamente senza innescare la swap.

Punti di forza: Ragionamento best-in-class per i sub-4B, eccellente output di codice, generazione di JSON strutturato.
Punti deboli: Leggermente prolisso; occasionalmente spiega eccessivamente risposte semplici.

Qwen2.5 — Il Demone della Velocità Multilingua

La serie Qwen2.5 di Alibaba offre due opzioni convincenti per Mac con 8GB: il 1.5B per la velocità pura e il 3B per una qualità migliore. L'architettura Qwen è stata specificamente ottimizzata per l'efficienza, e i suoi dati di addestramento multilingua la rendono particolarmente forte per i carichi di lavoro in lingue non inglesi.

Terminal

# Qwen2.5 1.5B — fastest option
ollama pull qwen2.5:1.5b
ollama run qwen2.5:1.5b

# Qwen2.5 3B — better quality, still comfortable on 8GB
ollama pull qwen2.5:3b
ollama run qwen2.5:3b

La variante 1.5B è particolarmente interessante per le pipeline di automazione — è abbastanza veloce da essere usata come classificatore locale, router o strumento leggero di trasformazione dati senza latenza percepibile.

Punti di forza: Inferenza fulminea, forte supporto multilingua, eccellente per pattern agentici/tool-use.
Punti deboli: Il 1.5B perde sfumature su task di ragionamento complessi; il 3B è il minimo per un uso serio.

Matrice di Raccomandazioni Pratiche

Non scegliete un solo modello — abbinate il modello al task:

Coding e debugging → phi3:mini
Q&A generali e chat → gemma2:2b
Automazione, classificazione, pipeline → qwen2.5:1.5b
Uso quotidiano bilanciato → qwen2.5:3b
Lavoro multilingua → qwen2.5:3b

Eseguire più modelli non è un problema — Ollama carica i modelli su richiesta e li espelle dalla memoria quando sono inattivi. Si può passare liberamente tra questi senza riavviare nulla, a patto di non eseguirne due simultaneamente.

Il punto cruciale: 8GB non è una limitazione se si sceglie con intelligenza. Questi modelli non sono compromessi — sono una categoria diversa di strumenti, ottimizzati esattamente per l'ambiente in cui vengono eseguiti.

Step 4 La Quantizzazione Spiegata: Perché Q4_K_M è il Vostro Migliore Alleato

Se avete trascorso del tempo a navigare su Hugging Face o nella libreria di modelli di Ollama, avrete inevitabilmente incontrato un disorientante alfabeto di suffissi: Q4_K_M, Q8_0, Q5_K_S, F16, IQ3_XS. Non sono convenzioni di nomenclatura arbitrarie — rappresentano versioni fondamentalmente diverse dello stesso modello, e scegliere quella sbagliata su una macchina da 8GB è la differenza tra uno strumento utilizzabile e un sistema che si blocca.

Cosa Fa Realmente la Quantizzazione

Un modello di rete neurale, nella sua essenza, è una massiccia collezione di pesi numerici — miliardi di numeri in virgola mobile che definiscono come il modello ragiona. Nella loro forma nativa (F32 o F16), questi pesi vengono memorizzati con precisione piena o dimezzata, consumando enormi quantità di memoria.

La quantizzazione è il processo di riduzione della precisione numerica di questi pesi, scambiando una piccola quantità di accuratezza con riduzioni drastiche del footprint di memoria e della velocità di inferenza.

Si pensi in questi termini: invece di memorizzare il numero 3.14159265358979, la quantizzazione potrebbe memorizzarlo come 3.14 o persino solo 3. Il modello perde un po' di granularità, ma conserva la stragrande maggioranza della sua capacità di ragionamento.

Decodificare la Convenzione di Nomenclatura

Lo schema di nomenclatura della quantizzazione GGUF (usato da llama.cpp e Ollama) segue un pattern strutturato:

Terminal

Q[bits]_[variant]_[size]
│        │         └── S = Small, M = Medium, L = Large (parameter mixture)
│        └──────────── K = K-quants (newer, smarter algorithm)
└───────────────────── Number of bits per weight

Formato	Bit/Peso	Dimensione Appross. (Modello 7B)	Perdita di Qualità	Caso d'Uso
`F16`	16	~14 GB	Nessuna	Riferimento baseline
`Q8_0`	8	~7.2 GB	Trascurabile	Qualità massima, stretto su 8GB
`Q6_K`	6	~5.5 GB	Minima	Alta qualità, più spazio
`Q4_K_M`	4	~4.1 GB	Bassa	Sweet spot per 8GB
`Q4_K_S`	4	~3.8 GB	Moderata	Leggermente più piccolo, meno accurato
`Q3_K_M`	3	~3.1 GB	Percettibile	Solo per uso d'emergenza
`Q2_K`	2	~2.6 GB	Significativa	Da evitare se possibile

Perché Q4_K_M Colpisce nel Segno

La "K" in Q4_K_M è cruciale. I K-quant usano una strategia di quantizzazione non uniforme e più intelligente — non applicano la stessa riduzione di precisione a tutti i pesi in modo uniforme. Invece, identificano quali pesi sono più critici per l'output del modello e li preservano con maggiore fedeltà, quantizzando aggressivamente i pesi meno importanti.

Il risultato è che Q4_K_M ottiene qualcosa di notevole: comprime un modello da 7B parametri a circa 4GB, lasciandovi 4GB di spazio per: - I processi di sistema macOS (~2GB di baseline) - Il contesto dell'applicazione attiva - La KV cache (la "memoria di lavoro" del modello durante l'inferenza) - Un buffer di overhead per prevenire la swap

A livello pratico, i benchmark mostrano costantemente che Q4_K_M conserva il 95–98% delle prestazioni del modello a piena precisione sui benchmark di ragionamento standard. Per la maggior parte dei task reali — assistenza alla programmazione, generazione di testo, Q&A — non noterete la differenza.

Vedere Questo in Pratica con Ollama

Quando si scarica un modello con Ollama, è possibile specificare esplicitamente i livelli di quantizzazione:

Terminal

# Default pull (Ollama chooses, usually Q4_K_M)
ollama pull llama3.2:3b

# Explicit quantization targeting
ollama pull qwen2.5:7b-instruct-q4_K_M

# Check what you have loaded
ollama list

Terminal

NAME                              ID              SIZE    MODIFIED
qwen2.5:7b-instruct-q4_K_M      a8b3c2d1e0f9    4.7 GB  2 hours ago
gemma2:2b-instruct-q4_K_M       f1e2d3c4b5a6    1.6 GB  1 day ago

Per la gestione manuale di GGUF tramite llama.cpp, specificare la quantizzazione è ugualmente diretto:

Terminal

./llama-cli \
  -m ./models/mistral-7b-instruct-q4_K_M.gguf \
  -n 512 \
  --ctx-size 4096 \
  -ngl 99          # Offload all layers to GPU (Metal)

Quando Scendere (e Quando Non Farlo)

Ci sono scenari in cui passare a Q3_K_M o IQ3_XS ha senso — specificamente quando si eseguono modelli più grandi e capaci (come un modello da 13B parametri) e si accetta una certa degradazione della qualità in cambio della possibilità di farlo stare in memoria. Una quantizzazione aggressiva di un modello più intelligente può comunque superare un modello più debole con quantizzazione leggera.

Tuttavia, al di sotto di Q4, si inizieranno a notare: - Tassi di allucinazione aumentati - Comportamento di instruction-following degradato - Catene di ragionamento inconsistenti - Prestazioni notevolmente peggiori su task di output strutturato (JSON, codice)

La regola d'oro per le macchine da 8GB: puntate sempre prima a Q4_K_M. Scendete solo se il modello non entra proprio, e salite (Q6_K, Q8_0) solo se si esegue un modello con meno di 4B parametri con ampio spazio di memoria disponibile.

Step 5 Ottimizzare i Task in Background di macOS

Anche il modello più aggressivamente quantizzato andrà in stutter e swap se macOS sta silenziosamente dedicando 2–3GB di memoria unificata a processi che non avete mai consapevolmente avviato. Prima di avviare Ollama o LM Studio, trattate il vostro Mac come la macchina di inferenza dedicata che deve temporaneamente diventare.

Capire Cosa Sta Mangiando la Vostra RAM

macOS è un sistema operativo bello e dogmatico che assume che vogliate sempre la sincronizzazione iCloud, l'indicizzazione Spotlight e una dozzina di daemon nella barra dei menu in esecuzione in parallelo. Per i carichi di lavoro AI locali, ogni megabyte conta. Eseguite prima questo comando per avere un quadro brutalmente onesto della vostra pressione di memoria:

Terminal

# Real-time memory breakdown
sudo memory_pressure

# See top RAM consumers sorted by resident size
ps aux --sort=-%mem | head -20

# Check swap usage right now
sysctl vm.swapusage

Se vm.swapusage mostra qualcosa di diverso da 0.00B used, siete già in difficoltà prima ancora che l'inferenza inizi.

Il Rituale Pre-Inferenza: Una Checklist

Trattate questo come una checklist di pre-volo obbligatoria prima di caricare qualsiasi modello:

Task	Comando / Posizione	Memoria Liberata (Appross.)
Chiudere le app non utilizzate	Cmd+Q (non solo chiudere la finestra)	200MB–1.5GB
Disabilitare l'indicizzazione Spotlight	`sudo mdutil -a -i off`	150–400MB
Fermare la sincronizzazione iCloud Drive	Impostazioni di Sistema → Apple ID → iCloud	100–300MB
Chiudere le schede del browser	Tenere aperte 0–2 schede al massimo	500MB–2GB
Disabilitare gli snapshot di Time Machine	`sudo tmutil disablelocal`	I/O in background
Chiudere Mail e app Calendario	Manuale	100–250MB

Disabilitare Programmaticamente i Peggiori Processi

Non fatelo manualmente ad ogni sessione. Create uno script shell da eseguire prima di qualsiasi lavoro serio di inferenza:

Terminal

#!/bin/zsh
# ai-mode.sh — Free up memory before local LLM sessions

echo "🧠 Entering AI Mode..."

# Pause Spotlight indexing
sudo mdutil -a -i off

# Purge inactive memory (forces disk cache to flush)
sudo purge

# Stop unnecessary launch agents
launchctl unload -w ~/Library/LaunchAgents/com.google.keystone.agent.plist 2>/dev/null
launchctl unload -w /Library/LaunchAgents/com.adobe.AdobeCreativeCloud.plist 2>/dev/null

# Disable WindowServer-heavy features (optional, aggressive)
# defaults write com.apple.universalaccess reduceMotion -bool true

echo "✅ Done. Current swap usage:"
sysctl vm.swapusage

echo "✅ Available memory:"
memory_pressure | grep "System Memory Pressure"

Rendetelo eseguibile: chmod +x ai-mode.sh ed eseguitelo con sudo ./ai-mode.sh prima di ogni sessione di inferenza.

Controllare gli Stati Termici e di Prestazione

Su Apple Silicon, CPU e GPU condividono lo stesso pool di memoria unificata, ma i performance core consumano significativamente più energia e generano calore che può innescare il thermal throttling a metà inferenza — che si manifesta come velocità di generazione dei token erratica.

Terminal

# Check current CPU frequency and thermal state
sudo powermetrics --samplers cpu_power -i 1000 -n 3

# Force high-performance mode (plugged in only)
sudo pmset -c gpuswitch 2
sudo pmset -c highstandbythreshold 95

Suggerimento pro: Eseguite l'inferenza collegati all'alimentazione. A batteria, macOS applica una schedulazione aggressiva sui core di efficienza che può dimezzare il throughput in token al secondo.

Usare Activity Monitor come Kill Switch

Per un flusso di lavoro basato su GUI, configurate Activity Monitor per mostrarvi ciò che conta:

Aprite Activity Monitor → scheda Memory
Ordinate per Memory in modo decrescente
Osservate il grafico Memory Pressure in basso — tenetelo verde
Se diventa giallo o rosso, fermate immediatamente l'inferenza e terminate i processi prima che la swap peggiori la situazione

La regola d'oro: Se Memory Pressure non è completamente verde prima di caricare un modello, andrete in swap. Su una macchina da 8GB, lo swapping durante l'inferenza non rallenta soltanto le cose — può produrre output confusi, troncati o completamente falliti, poiché la KV cache del modello viene stressata attraverso letture da disco.

Recuperare Memoria Dopo una Sessione

macOS non sempre rilascia la memoria in modo pulito dopo aver chiuso un processo LLM. Forzatelo:

Terminal

# After closing Ollama or LM Studio
sudo purge

# Verify swap cleared
sysctl vm.swapusage
# Target: vm.swapusage: total = 0.00B  used = 0.00B  free = 0.00B

Riavviate il servizio ollama invece di limitarvi a chiudere la finestra dell'app — i pesi del modello spesso rimangono residenti in memoria altrimenti:

Terminal

ollama stop          # Stop any running model
pkill -f ollama      # Kill the background daemon
# Relaunch fresh when ready
ollama serve &

Trattate la memoria del vostro Mac da 8GB come una sala operatoria — sterile, controllata e spietatamente ripulita da tutto ciò che non vi appartiene.

Continue Reading

Performance

La Guida alla Sopravvivenza per l'IA Locale su Mac da 8GB

Step 1 La Realtà dei 8GB di Memoria Unificata

La Memoria Unificata Non È "Solo RAM"

Il Reale Prospetto di Budget

Comprendere il Footprint di Memoria dei Modelli

La Verità Senza Filtri sui Modelli 7B

Step 2 Cos'è la Swap Memory e Perché Evitarla

Come Funziona la Swap

Cosa Significa per l'Inferenza LLM

Il Problema Nascosto dell'Usura dell'SSD

Come Monitorare la Swap in Tempo Reale

Step 3 I Migliori Modelli Piccoli per Mac con 8GB (Gemma 2B, Phi-3, Qwen)

I Candidati a Colpo d'Occhio

Gemma 2 2B — Il Cavallo da Lavoro Efficiente di Google

Phi-3 Mini — Lo Specialista del Ragionamento

Qwen2.5 — Il Demone della Velocità Multilingua

Matrice di Raccomandazioni Pratiche

Step 4 La Quantizzazione Spiegata: Perché Q4_K_M è il Vostro Migliore Alleato

Cosa Fa Realmente la Quantizzazione

Decodificare la Convenzione di Nomenclatura

Perché Q4_K_M Colpisce nel Segno

Vedere Questo in Pratica con Ollama

Quando Scendere (e Quando Non Farlo)

Step 5 Ottimizzare i Task in Background di macOS

Capire Cosa Sta Mangiando la Vostra RAM

Il Rituale Pre-Inferenza: Una Checklist

Disabilitare Programmaticamente i Peggiori Processi

Controllare gli Stati Termici e di Prestazione

Usare Activity Monitor come Kill Switch

Recuperare Memoria Dopo una Sessione

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference