Guía de supervivencia para IA local en Mac con 8GB

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Step 1 La Realidad del Verificación de los 8GB de Memoria Unificada

Eliminemos el mito de inmediato: los 8GB de memoria unificada no son la sentencia de muerte para la IA local que la mayoría de la gente afirma. Sin embargo, es un entorno implacable que penaliza la selección ingenua de modelos y recompensa la precisión quirúrgica. Comprender el porqué requiere un breve recorrido por la arquitectura de memoria de Apple Silicon.

La Memoria Unificada No Es "Simple RAM"

En las máquinas de la era Intel, la CPU tenía RAM del sistema y la GPU tenía su propia VRAM dedicada — dos grupos separados que no podían compartir recursos. La arquitectura de memoria unificada (UMA) de Apple Silicon elimina completamente esta frontera. La CPU, la GPU y el Neural Engine extraen recursos del mismo grupo de memoria física. Esta es la razón por la que un Mac con 8GB puede superar a un PC con 16GB de DDR4 en tareas de inferencia — el modelo nunca cruza un bus PCIe para acceder a los recursos de cómputo.

Terminal

┌─────────────────────────────────────────────┐
│           Unified Memory (8GB)              │
│                                             │
│   ┌─────────┐  ┌─────────┐  ┌───────────┐  │
│   │   CPU   │  │   GPU   │  │  Neural   │  │
│   │  Cores  │  │  Cores  │  │  Engine   │  │
│   └─────────┘  └─────────┘  └───────────┘  │
│        ↑            ↑             ↑         │
│        └────────────┴─────────────┘         │
│              Shared Memory Bus              │
└─────────────────────────────────────────────┘

Esta arquitectura de copia cero significa que los pesos del modelo cargados en memoria son inmediatamente accesibles para todas las unidades de cómputo con el ancho de banda total de memoria — en los chips M2, eso alcanza hasta 100 GB/s. Compárese con una GPU discreta de gama media que mueve datos a través de un slot PCIe Gen 4 x16 a aproximadamente 32 GB/s.

El Desglose Real del Presupuesto

Aquí es donde la honestidad se vuelve incómoda. Esos 8GB no están todos disponibles para la inferencia de IA. macOS es un sistema operativo residente en memoria y tiene sus propias necesidades:

Componente	Huella de Memoria Aproximada
Kernel de macOS + procesos del sistema	~1.5 – 2.0 GB
Navegador activo (Safari, Chrome)	~0.5 – 1.5 GB
Apps en segundo plano (Spotlight, etc.)	~0.3 – 0.5 GB
Disponible para inferencia de IA	~4.0 – 5.5 GB

Esto significa que su presupuesto efectivo de inferencia es realísticamente de 4–5.5GB, no de 8GB. Cada byte cuenta. Un modelo que técnicamente cabe en papel puede aún así hundir el sistema en el infierno del swap si tiene Slack, un navegador y Spotify ejecutándose simultáneamente.

Comprendiendo las Huellas de Memoria de los Modelos

El requisito de memoria de un modelo no es simplemente su tamaño en disco. Durante la inferencia, es necesario contabilizar:

Pesos del modelo — el componente más grande, escala con el número de parámetros y la cuantización
Caché KV — caché de atención clave-valor que crece con el tamaño de la ventana de contexto
Sobrecarga en tiempo de ejecución — búferes del framework, grafos de cómputo, memoria de activación

Una fórmula aproximada para estimar la memoria de pesos:

Terminal

Memory (GB) ≈ (Parameters × Bits_per_weight) / (8 × 1024³)

Example: 7B model at 4-bit quantization
= (7,000,000,000 × 4) / (8 × 1,073,741,824)
≈ 3.26 GB

Esto explica por qué un modelo de 7B cuantizado a Q4 ocupa alrededor de 3.5–4.2GB — técnicamente posible en hardware de 8GB, pero se operará con esencialmente cero margen para la caché KV en contextos más largos.

La Verdad Honesta Sobre los Modelos de 7B

Los modelos de 7B en Macs con 8GB no son cómodamente utilizables para flujos de trabajo de producción. Funcionan. Pero "funcionar" y "funcionar bien" son cosas distintas.

Con una ventana de contexto de 2048 tokens, un modelo de 7B Q4 consumirá todo el presupuesto de inferencia disponible. Amplíe a 4096 tokens y llegará al swap. La experiencia se degrada de una inferencia fluida a un proceso entrecortado y con throttling térmico, que sirve como una excelente lección en gestión de presión de memoria.

Los ingenieros y usuarios avanzados que genuinamente prosperan con Macs de 8GB para IA local han internalizado un modelo mental diferente: más pequeño, más rápido y específico para el propósito supera siempre a lo grande y general. Las siguientes secciones le mostrarán exactamente cómo construir ese stack.

Step 2 Qué Es la Memoria Swap y Por Qué Evitarla

Cuando su Mac se queda sin memoria unificada física, macOS no falla — hace silenciosamente algo mucho más insidioso: comienza a usar su SSD como memoria de desbordamiento. Este mecanismo se llama memoria swap (o paginación de memoria virtual), y aunque suena como una red de seguridad, para la inferencia de IA local es efectivamente un precipicio de rendimiento al que se lanza a toda velocidad.

Cómo Funciona el Swap

macOS utiliza una técnica llamada compresión de memoria y swapping. El sistema operativo primero intenta comprimir páginas de memoria inactivas para encajar más datos en la RAM. Cuando incluso eso no es suficiente, comienza a paginar — escribiendo contenidos de memoria en un espacio reservado en su SSD llamado archivo de swap, y luego leyéndolos de vuelta cuando se necesitan.

Terminal

Physical Unified Memory (8GB)
        │
        ▼
┌───────────────────────┐
│  Active Data (in RAM) │  ← Lightning fast (400 GB/s bandwidth)
└───────────────────────┘
        │ overflow
        ▼
┌───────────────────────┐
│  Swap on SSD          │  ← ~3,000–7,000 MB/s (NVMe)
└───────────────────────┘

La diferencia de velocidad es el problema. La memoria unificada de Apple Silicon opera a aproximadamente 400 GB/s de ancho de banda. Incluso los SSDs NVMe más rápidos de Apple alcanzan como máximo alrededor de 7 GB/s en el extremo superior — eso es un rendimiento ~57 veces más lento para cualquier dato que sea expulsado al swap.

Qué Significa Esto para la Inferencia de LLM

Los modelos de lenguaje de gran escala no son como las aplicaciones típicas. Durante la inferencia, los pesos del modelo deben ser transmitidos continuamente a través de la memoria para calcular cada token. Un modelo de 7B parámetros en cuantización de 4 bits ocupa aproximadamente 4–5GB de memoria. Cuando ya se están ejecutando procesos del sistema de macOS, el navegador y otras aplicaciones en segundo plano, muy poco hace falta para superar los 8GB.

En el momento en que los pesos del modelo comienzan a derramarse en el swap, la generación de cada token individual requiere leer datos desde el SSD. El resultado no es una desaceleración gradual — es un colapso:

Escenario	Tokens/Segundo	Experiencia del Usuario
Modelo completamente en memoria unificada	25–45 tok/s	Fluido, utilizable
Uso parcial de swap (~1–2GB)	3–8 tok/s	Doloroso pero funcional
Uso intensivo de swap (3GB+)	<1 tok/s	Efectivamente inutilizable

El Problema Oculto del Desgaste del SSD

Más allá del rendimiento bruto, hay otra razón para tomar el swap en serio: la durabilidad del SSD. Cada escritura en swap es una escritura en la memoria flash NAND de su SSD. Ejecutar trabajos de inferencia intensivos que constantemente sobrecargan el swap puede acelerar de forma significativa el desgaste de la unidad a lo largo de meses y años de uso.

Apple no facilita (ni abarata) la sustitución de los SSDs de los MacBook. Proteger su SSD es proteger su inversión en hardware.

Cómo Monitorear el Swap en Tiempo Real

Antes de cargar cualquier modelo, adquiera el hábito de verificar la presión de memoria. Abra Monitor de Actividad → pestaña Memoria, o ejecute esto en su terminal:

Terminal

# Check current swap usage
vm_stat | grep "Swapouts"

# Real-time memory pressure monitoring
sudo memory_pressure

También puede usar este one-liner para una instantánea rápida:

Terminal

sysctl vm.swapusage

Una salida saludable se ve así:

Terminal

vm.swapusage: total = 2048.00M  used = 0.00M  free = 2048.00M

Si used está aumentando mientras ejecuta un modelo, su configuración es incorrecta. El resto de esta guía está dedicado a garantizar que ese número permanezca en cero.

Regla de Oro: Si su modelo no cabe completamente en los 8GB de memoria unificada junto con un entorno macOS liviano, pagará una penalización de rendimiento que ningún truco de hardware puede superar. La solución es siempre ir a algo más pequeño, más inteligente o más ligero — nunca dejar que el swap absorba la diferencia.

Step 3 Los Mejores Modelos Pequeños para Macs con 8GB (Gemma 2B, Phi-3, Qwen)

Elegir el modelo correcto para un sistema con 8GB de memoria unificada no se trata de conformarse — se trata de selección de precisión. El panorama de modelos con menos de 4B parámetros ha madurado considerablemente, y varios candidatos ofrecen capacidades genuinamente impresionantes de razonamiento, codificación y seguimiento de instrucciones que le sorprenderán. La clave está en saber qué modelos están diseñados eficientemente frente a los que simplemente resultan ser pequeños.

Aquí está la regla estricta: los pesos del modelo + la caché KV + la sobrecarga de macOS deben caber cómodamente dentro de los 8GB. Eso generalmente significa apuntar a modelos cuantizados que se sitúen entre 1.5GB y 4GB en disco/RAM, dejando margen para que el sistema respire.

Los Candidatos de un Vistazo

Modelo	Parámetros	Tamaño Q4_K_M	Uso de RAM (est.)	Mejor Para
Gemma 2 2B	2.6B	~1.6 GB	~2.5 GB	Chat general, resumen
Phi-3 Mini	3.8B	~2.4 GB	~3.5 GB	Razonamiento, codificación, matemáticas
Qwen2.5 1.5B	1.5B	~1.0 GB	~1.8 GB	Inferencia rápida, multilingüe
Qwen2.5 3B	3.1B	~2.0 GB	~3.0 GB	Rendimiento equilibrado
Llama 3.2 3B	3.2B	~2.0 GB	~3.2 GB	Seguimiento de instrucciones
SmolLM2 1.7B	1.7B	~1.1 GB	~2.0 GB	Tareas en el borde, baja latencia

Gemma 2 2B — El Caballo de Batalla Eficiente de Google

El Gemma 2 2B de Google supera ampliamente su categoría de peso. Utiliza un mecanismo de atención de ventana deslizante y soft-capping de logits que lo hace notablemente más coherente que los modelos anteriores de la clase 2B. Para un Mac de 8GB, este es un compañero diario seguro.

Terminal

# Pull and run Gemma 2 2B via Ollama
ollama pull gemma2:2b
ollama run gemma2:2b

Fortalezas: Resumen sólido, flujo de conversación natural, buen seguimiento de instrucciones.
Debilidades: La calidad de codificación queda por detrás de Phi-3; ventana de contexto limitada en la variante de 2B.

Phi-3 Mini — El Especialista en Razonamiento

El Phi-3 Mini (3.8B) de Microsoft es la opción técnicamente más sofisticada en este nivel. Entrenado con un conjunto de datos cuidadosamente seleccionado de "calidad de libro de texto", alcanza benchmarks de razonamiento y codificación que rivalizan con modelos mucho más grandes. Si utiliza IA local para generación de código, problemas lógicos o salida estructurada, Phi-3 Mini es su elección.

Terminal

# Run Phi-3 Mini with Ollama
ollama pull phi3:mini
ollama run phi3:mini

# Or target the 128K context variant explicitly
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M

Con cuantización Q4_K_M, Phi-3 Mini se sitúa alrededor de 2.4GB, dejando un espacio sustancial en un sistema de 8GB. Puede ejecutarlo con una ventana de contexto de 4K–8K cómodamente sin activar el swap.

Fortalezas: Razonamiento de primera clase para modelos sub-4B, excelente salida de código, generación de JSON estructurado.
Debilidades: Ligeramente verboso; ocasionalmente sobreexplica respuestas simples.

Qwen2.5 — El Demonio de Velocidad Multilingüe

La serie Qwen2.5 de Alibaba ofrece dos opciones convincentes para Macs de 8GB: el 1.5B para velocidad bruta y el 3B para mejor calidad. La arquitectura Qwen ha sido específicamente optimizada para la eficiencia, y sus datos de entrenamiento multilingüe la hacen excepcionalmente fuerte para cargas de trabajo en idiomas distintos al inglés.

Terminal

# Qwen2.5 1.5B — fastest option
ollama pull qwen2.5:1.5b
ollama run qwen2.5:1.5b

# Qwen2.5 3B — better quality, still comfortable on 8GB
ollama pull qwen2.5:3b
ollama run qwen2.5:3b

La variante de 1.5B es particularmente interesante para los pipelines de automatización — es suficientemente rápida para utilizarse como clasificador local, router o herramienta ligera de transformación de datos sin ninguna latencia perceptible.

Fortalezas: Velocidad de inferencia vertiginosa, sólido soporte multilingüe, excelente para patrones agénticos/de uso de herramientas.
Debilidades: El 1.5B pierde matices en tareas de razonamiento complejo; el 3B es el mínimo para uso serio.

Matriz de Recomendaciones Prácticas

No elija un solo modelo — adapte el modelo a la tarea:

Codificación y depuración → phi3:mini
Preguntas y respuestas generales y chat → gemma2:2b
Automatización, clasificación, pipelines → qwen2.5:1.5b
Uso cotidiano equilibrado → qwen2.5:3b
Trabajo multilingüe → qwen2.5:3b

Ejecutar múltiples modelos tampoco es un problema — Ollama carga los modelos bajo demanda y los expulsa de la memoria cuando están inactivos. Puede cambiar libremente entre ellos sin reiniciar nada, siempre que no esté ejecutando dos simultáneamente.

La conclusión: 8GB no es una limitación si elige con inteligencia. Estos modelos no son compromisos — son una clase diferente de herramienta, optimizada exactamente para el entorno en el que se ejecutan.

Step 4 Cuantización Explicada: Por Qué Q4_K_M Es Su Mejor Aliado

Si ha pasado algún tiempo navegando por la biblioteca de modelos de Hugging Face o Ollama, inevitablemente habrá encontrado una desconcertante sopa de letras de sufijos: Q4_K_M, Q8_0, Q5_K_S, F16, IQ3_XS. Estas no son convenciones de nomenclatura arbitrarias — representan versiones fundamentalmente diferentes del mismo modelo, y elegir la incorrecta en una máquina de 8GB es la diferencia entre una herramienta utilizable y un sistema que se paraliza por completo.

Qué Hace Realmente la Cuantización

Un modelo de red neuronal, en su esencia, es una colección masiva de pesos numéricos — miles de millones de números de punto flotante que definen cómo piensa el modelo. En su forma nativa (F32 o F16), estos pesos se almacenan con precisión completa o media, consumiendo cantidades enormes de memoria.

La cuantización es el proceso de reducir la precisión numérica de estos pesos, intercambiando una pequeña cantidad de exactitud por reducciones drásticas en la huella de memoria y la velocidad de inferencia.

Piénselo así: en lugar de almacenar el número 3.14159265358979, la cuantización podría almacenarlo como 3.14 o incluso solo 3. El modelo pierde algo de granularidad, pero retiene la gran mayoría de su capacidad de razonamiento.

Decodificando la Convención de Nomenclatura

El esquema de nomenclatura de cuantización GGUF (utilizado por llama.cpp y Ollama) sigue un patrón estructurado:

Terminal

Q[bits]_[variant]_[size]
│        │         └── S = Small, M = Medium, L = Large (parameter mixture)
│        └──────────── K = K-quants (newer, smarter algorithm)
└───────────────────── Number of bits per weight

Formato	Bits/Peso	Tamaño Aprox. (Modelo 7B)	Pérdida de Calidad	Caso de Uso
`F16`	16	~14 GB	Ninguna	Referencia base
`Q8_0`	8	~7.2 GB	Despreciable	Máxima calidad, ajustado en 8GB
`Q6_K`	6	~5.5 GB	Mínima	Alta calidad, más margen
`Q4_K_M`	4	~4.1 GB	Baja	Punto óptimo para 8GB
`Q4_K_S`	4	~3.8 GB	Moderada	Ligeramente más pequeño, menos preciso
`Q3_K_M`	3	~3.1 GB	Notable	Solo para uso de emergencia
`Q2_K`	2	~2.6 GB	Significativa	Evitar si es posible

Por Qué Q4_K_M Alcanza el Punto Óptimo

La "K" en Q4_K_M es crucial. Los K-quants utilizan una estrategia de cuantización no uniforme más inteligente — no aplican la misma reducción de precisión a todos los pesos por igual. En cambio, identifican qué pesos son más críticos para la salida del modelo y los preservan con mayor fidelidad, mientras cuantizan agresivamente los pesos menos importantes.

El resultado es que Q4_K_M logra algo notable: comprime un modelo de 7B parámetros a aproximadamente 4GB, dejando 4GB de margen para: - Los procesos del sistema de macOS (~2GB de base) - Su contexto de aplicación activa - Caché KV (la "memoria de trabajo" del modelo durante la inferencia) - Búfer de margen para prevenir el swap

En un nivel práctico, los benchmarks muestran consistentemente que Q4_K_M retiene 95–98% del rendimiento del modelo de precisión completa en los benchmarks de razonamiento estándar. Para la mayoría de las tareas del mundo real — asistencia de código, generación de texto, preguntas y respuestas — no notará la diferencia.

Viendo Esto en Práctica con Ollama

Cuando extrae un modelo con Ollama, puede apuntar explícitamente a niveles de cuantización:

Terminal

# Default pull (Ollama chooses, usually Q4_K_M)
ollama pull llama3.2:3b

# Explicit quantization targeting
ollama pull qwen2.5:7b-instruct-q4_K_M

# Check what you have loaded
ollama list

Terminal

NAME                              ID              SIZE    MODIFIED
qwen2.5:7b-instruct-q4_K_M      a8b3c2d1e0f9    4.7 GB  2 hours ago
gemma2:2b-instruct-q4_K_M       f1e2d3c4b5a6    1.6 GB  1 day ago

Para la gestión manual de GGUF mediante llama.cpp, especificar la cuantización es igualmente directo:

Terminal

./llama-cli \
  -m ./models/mistral-7b-instruct-q4_K_M.gguf \
  -n 512 \
  --ctx-size 4096 \
  -ngl 99          # Offload all layers to GPU (Metal)

Cuándo Ir Más Bajo (y Cuándo No)

Existen escenarios donde bajar a Q3_K_M o IQ3_XS tiene sentido — específicamente cuando se ejecutan modelos más grandes y capaces (como un modelo de 13B parámetros) y se acepta cierta degradación de calidad a cambio de que quepan en memoria. Una cuantización agresiva de un modelo más inteligente puede aún superar a un modelo más débil con cuantización ligera.

Sin embargo, por debajo de Q4, comenzará a notar: - Tasas de alucinación incrementadas - Comportamiento de seguimiento de instrucciones degradado - Cadenas de razonamiento inconsistentes - Rendimiento notablemente peor en tareas de salida estructurada (JSON, código)

La regla de oro para máquinas de 8GB: recurra primero a Q4_K_M, siempre. Solo descienda si el modelo simplemente no cabe, y solo ascienda (Q6_K, Q8_0) si está ejecutando un modelo de menos de 4B parámetros con amplio margen de memoria disponible.

Step 5 Optimizando las Tareas en Segundo Plano de macOS

Incluso el modelo más agresivamente cuantizado tartamudeará y usará swap si macOS está silenciosamente dedicando 2–3GB de memoria unificada a procesos que usted nunca lanzó conscientemente. Antes de iniciar Ollama o LM Studio, trate su Mac como la máquina de inferencia dedicada que necesita temporalmente ser.

Comprendiendo Qué Está Consumiendo su RAM

macOS es un sistema operativo hermoso y con opiniones propias que asume que siempre quiere sincronización de iCloud, indexación de Spotlight y una docena de demonios en la barra de menú ejecutándose en paralelo. Para cargas de trabajo de IA local, cada megabyte cuenta. Ejecute primero este comando para obtener una imagen brutalmente honesta de su presión de memoria:

Terminal

# Real-time memory breakdown
sudo memory_pressure

# See top RAM consumers sorted by resident size
ps aux --sort=-%mem | head -20

# Check swap usage right now
sysctl vm.swapusage

Si vm.swapusage muestra algo distinto a 0.00B used, ya está en problemas antes de que comience la inferencia.

El Ritual Pre-Inferencia: Una Lista de Verificación

Trátelo como una lista de verificación previa al vuelo obligatoria antes de cargar cualquier modelo:

Tarea	Comando / Ubicación	Memoria Liberada (Aprox.)
Cerrar apps no utilizadas	Cmd+Q (no solo cerrar la ventana)	200MB–1.5GB
Deshabilitar indexación de Spotlight	`sudo mdutil -a -i off`	150–400MB
Detener sincronización de iCloud Drive	Configuración del Sistema → ID de Apple → iCloud	100–300MB
Cerrar pestañas del navegador	Mantener 0–2 pestañas abiertas máximo	500MB–2GB
Deshabilitar instantáneas de Time Machine	`sudo tmutil disablelocal`	E/S en segundo plano
Cerrar apps de correo y calendario	Manual	100–250MB

Deshabilitando los Peores Infractores Mediante Programación

No haga esto manualmente en cada sesión. Cree un script de shell que pueda ejecutar antes de cualquier trabajo de inferencia serio:

Terminal

#!/bin/zsh
# ai-mode.sh — Free up memory before local LLM sessions

echo "🧠 Entering AI Mode..."

# Pause Spotlight indexing
sudo mdutil -a -i off

# Purge inactive memory (forces disk cache to flush)
sudo purge

# Stop unnecessary launch agents
launchctl unload -w ~/Library/LaunchAgents/com.google.keystone.agent.plist 2>/dev/null
launchctl unload -w /Library/LaunchAgents/com.adobe.AdobeCreativeCloud.plist 2>/dev/null

# Disable WindowServer-heavy features (optional, aggressive)
# defaults write com.apple.universalaccess reduceMotion -bool true

echo "✅ Done. Current swap usage:"
sysctl vm.swapusage

echo "✅ Available memory:"
memory_pressure | grep "System Memory Pressure"

Hágalo ejecutable: chmod +x ai-mode.sh y ejecútelo con sudo ./ai-mode.sh antes de cada sesión de inferencia.

Controlando los Estados Térmicos y de Rendimiento

En Apple Silicon, la CPU y la GPU comparten el mismo grupo de memoria unificada, pero los núcleos de rendimiento consumen significativamente más energía y generan calor que puede activar el throttling térmico durante la inferencia — lo que se manifiesta como velocidades de generación de tokens erráticas.

Terminal

# Check current CPU frequency and thermal state
sudo powermetrics --samplers cpu_power -i 1000 -n 3

# Force high-performance mode (plugged in only)
sudo pmset -c gpuswitch 2
sudo pmset -c highstandbythreshold 95

Consejo profesional: Ejecute la inferencia conectado a la corriente eléctrica. Con batería, macOS aplica una programación agresiva de núcleos de eficiencia que puede reducir a la mitad el rendimiento de tokens por segundo.

Usando el Monitor de Actividad Como Interruptor de Emergencia

Para un flujo de trabajo basado en GUI, configure el Monitor de Actividad para mostrarle lo que importa:

Abra Monitor de Actividad → pestaña Memoria
Ordene por Memoria de forma descendente
Observe el gráfico de Presión de Memoria en la parte inferior — manténgalo en verde
Si cambia a amarillo o rojo, detenga la inferencia inmediatamente y elimine procesos antes de que el swap se agrave

La regla de oro: Si la Presión de Memoria es cualquier cosa que no sea verde antes de cargar un modelo, usará swap. En una máquina de 8GB, usar swap durante la inferencia no solo ralentiza las cosas — puede producir salidas garbled, truncadas o completamente fallidas a medida que la caché KV del modelo es sobreexplotada a través de lecturas de disco.

Recuperando Memoria Después de una Sesión

macOS no siempre libera la memoria limpiamente después de cerrar un proceso LLM. Fuércelo:

Terminal

# After closing Ollama or LM Studio
sudo purge

# Verify swap cleared
sysctl vm.swapusage
# Target: vm.swapusage: total = 0.00B  used = 0.00B  free = 0.00B

Reinicie el servicio ollama en lugar de simplemente cerrar la ventana de la aplicación — los pesos del modelo a menudo permanecen residentes en memoria de lo contrario:

Terminal

ollama stop          # Stop any running model
pkill -f ollama      # Kill the background daemon
# Relaunch fresh when ready
ollama serve &

Trate la memoria de su Mac de 8GB como un quirófano — estéril, controlado y despejado implacablemente de todo lo que no pertenezca a él.

Continue Reading

Performance

Guía de supervivencia para IA local en Mac con 8GB

Step 1 La Realidad del Verificación de los 8GB de Memoria Unificada

La Memoria Unificada No Es "Simple RAM"

El Desglose Real del Presupuesto

Comprendiendo las Huellas de Memoria de los Modelos

La Verdad Honesta Sobre los Modelos de 7B

Step 2 Qué Es la Memoria Swap y Por Qué Evitarla

Cómo Funciona el Swap

Qué Significa Esto para la Inferencia de LLM

El Problema Oculto del Desgaste del SSD

Cómo Monitorear el Swap en Tiempo Real

Step 3 Los Mejores Modelos Pequeños para Macs con 8GB (Gemma 2B, Phi-3, Qwen)

Los Candidatos de un Vistazo

Gemma 2 2B — El Caballo de Batalla Eficiente de Google

Phi-3 Mini — El Especialista en Razonamiento

Qwen2.5 — El Demonio de Velocidad Multilingüe

Matriz de Recomendaciones Prácticas

Step 4 Cuantización Explicada: Por Qué Q4_K_M Es Su Mejor Aliado

Qué Hace Realmente la Cuantización

Decodificando la Convención de Nomenclatura

Por Qué Q4_K_M Alcanza el Punto Óptimo

Viendo Esto en Práctica con Ollama

Cuándo Ir Más Bajo (y Cuándo No)

Step 5 Optimizando las Tareas en Segundo Plano de macOS

Comprendiendo Qué Está Consumiendo su RAM

El Ritual Pre-Inferencia: Una Lista de Verificación

Deshabilitando los Peores Infractores Mediante Programación

Controlando los Estados Térmicos y de Rendimiento

Usando el Monitor de Actividad Como Interruptor de Emergencia

Recuperando Memoria Después de una Sesión

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference