laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Ya posees una de las máquinas de IA local más potentes del planeta. Tanto si utilizas un MacBook Pro M3 base, un MacBook Pro M3 Max, o un Mac Studio — esta guía te enseñará cómo desbloquear todo su potencial con Ollama. Sin nube. Sin facturas de API. Solo inteligencia pura y privada.
Step 1 Introducción
Ollama requiere macOS 11 Big Sur o posterior. Sin embargo, para una aceleración GPU óptima con Apple Silicon y el mejor soporte de Metal Performance Shaders (MPS), deberías estar ejecutando macOS 14 Sonoma o posterior.
Utilizaremos la Terminal de macOS. Presiona Cmd + Space y escribe "Terminal", o usa una alternativa moderna como iTerm2 o Warp.
Step 2 Instalación de Ollama
Tienes dos opciones para instalar Ollama en tu Mac: el instalador GUI oficial de macOS o Homebrew (el gestor de paquetes para macOS). Recomendamos ampliamente Homebrew porque hace que las actualizaciones sean increíblemente sencillas.
Si ya tienes Homebrew instalado, abre tu terminal y ejecuta:
Una vez instalado, inicia el servicio en segundo plano de Ollama para que pueda escuchar comandos:
(Nota: Mantén esta ventana de terminal abierta, o ejecuta brew services start ollama para que se inicie silenciosamente en segundo plano al arrancar el sistema).
Step 3 Descargando Tu Primer Modelo
Ollama hace que descargar un Modelo de Lenguaje Grande (LLM) sea tan sencillo como extraer un contenedor de Docker.
Comenzaremos con Llama 3 de Meta (8B parámetros). Es rápido, altamente capaz y se ajusta perfectamente a la memoria de cualquier Mac M3. Abre una nueva ventana de terminal y ejecuta:
¿Qué ocurre a continuación?
- Ollama se conecta al registro.
- Descarga los 4.7GB de pesos del modelo en tu unidad local.
- Te coloca en un prompt de chat interactivo.
Ahora puedes escribir: Write a python script to scrape a website y observar cómo tu Mac local genera código al instante, completamente sin conexión.
Step 4 Hardware y Límites de RAM
¿Por qué los Macs con Apple Silicon son tan superiores para la IA? La Memoria Unificada.
En un PC convencional, dispones de RAM del sistema y RAM gráfica (VRAM en la GPU). Para ejecutar un modelo de IA a alta velocidad, este debe caber íntegramente dentro de la VRAM. Pero en un Mac M3, la CPU y la GPU comparten el mismo pool de memoria. Si tienes un Mac con 36GB de Memoria Unificada, ¡tu GPU puede acceder a la totalidad!
A continuación se detalla exactamente qué puedes ejecutar según la RAM de tu Mac:
| RAM de tu Mac |
Tamaño Máximo de Modelo |
Modelos Recomendados |
Notas |
| 8GB (M3 Base) |
~7B a 8B parámetros |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
Cierra otras aplicaciones para evitar el intercambio de memoria. |
| 16GB / 18GB |
~13B a 14B parámetros |
Qwen 2.5 (14B), Command R |
El punto óptimo. Ejecuta Llama 3 (8B) a máxima velocidad. |
| 36GB / 64GB |
~30B a 70B parámetros |
Mixtral (8x7B), Llama 3 (70B en Q2) |
IA de clase escritorio de forma nativa. |
| 128GB+ |
~120B+ parámetros |
Llama 3 (70B Q8), Command R+ |
Posees una supercomputadora personal. |
Step 5 Optimización del Rendimiento
¿Cómo puedes verificar que Ollama está utilizando realmente la GPU de tu M3 y no recurriendo a la lenta CPU? Vamos a comprobarlo de forma matemática.
- Abre el Monitor de Actividad en tu Mac (
Cmd + Space -> "Monitor de Actividad").
- Presiona
Cmd + 4 para abrir la ventana de Historial de GPU.
- Mantén esa ventana visible y regresa a tu terminal donde ejecutas
ollama run llama3.
- Proporciona un prompt extenso:
Write a 1000 word essay about the history of artificial intelligence.
Observa el gráfico del Historial de GPU. Deberías ver un pico masivo y sostenido que lleva tu GPU al 90-100% de utilización. Si ves esto, ¡la aceleración Metal de Apple está funcionando a la perfección!
Step 6 Exposición de la API Local
La terminal es excelente, pero ¿qué sucede si deseas utilizar una interfaz web elegante o integrar tu modelo local en una aplicación que estés desarrollando?
Ollama ejecuta un servidor de API local por defecto. Abre un navegador y dirígete a:
http://localhost:11434
Ahora puedes consultar esta API mediante curl o Python exactamente como lo harías con la API de OpenAI:
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Has transformado exitosamente tu Mac M3 en un servidor de IA privado y sin conexión. Tus datos nunca abandonan tu máquina y no pagas absolutamente nada en tarifas de API.