La Guía Definitiva: Ejecutar Ollama en Mac M3

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Ya posees una de las máquinas de IA local más potentes del planeta. Tanto si utilizas un MacBook Pro M3 base, un MacBook Pro M3 Max, o un Mac Studio — esta guía te enseñará cómo desbloquear todo su potencial con Ollama. Sin nube. Sin facturas de API. Solo inteligencia pura y privada.


Step 1 Introducción

Ollama requiere macOS 11 Big Sur o posterior. Sin embargo, para una aceleración GPU óptima con Apple Silicon y el mejor soporte de Metal Performance Shaders (MPS), deberías estar ejecutando macOS 14 Sonoma o posterior.

Utilizaremos la Terminal de macOS. Presiona Cmd + Space y escribe "Terminal", o usa una alternativa moderna como iTerm2 o Warp.


Step 2 Instalación de Ollama

Tienes dos opciones para instalar Ollama en tu Mac: el instalador GUI oficial de macOS o Homebrew (el gestor de paquetes para macOS). Recomendamos ampliamente Homebrew porque hace que las actualizaciones sean increíblemente sencillas.

Si ya tienes Homebrew instalado, abre tu terminal y ejecuta:

Terminal
brew install ollama

Una vez instalado, inicia el servicio en segundo plano de Ollama para que pueda escuchar comandos:

Terminal
ollama serve

(Nota: Mantén esta ventana de terminal abierta, o ejecuta brew services start ollama para que se inicie silenciosamente en segundo plano al arrancar el sistema).


Step 3 Descargando Tu Primer Modelo

Ollama hace que descargar un Modelo de Lenguaje Grande (LLM) sea tan sencillo como extraer un contenedor de Docker.

Comenzaremos con Llama 3 de Meta (8B parámetros). Es rápido, altamente capaz y se ajusta perfectamente a la memoria de cualquier Mac M3. Abre una nueva ventana de terminal y ejecuta:

Terminal
ollama run llama3

¿Qué ocurre a continuación? - Ollama se conecta al registro. - Descarga los 4.7GB de pesos del modelo en tu unidad local. - Te coloca en un prompt de chat interactivo.

Ahora puedes escribir: Write a python script to scrape a website y observar cómo tu Mac local genera código al instante, completamente sin conexión.


Step 4 Hardware y Límites de RAM

¿Por qué los Macs con Apple Silicon son tan superiores para la IA? La Memoria Unificada.

En un PC convencional, dispones de RAM del sistema y RAM gráfica (VRAM en la GPU). Para ejecutar un modelo de IA a alta velocidad, este debe caber íntegramente dentro de la VRAM. Pero en un Mac M3, la CPU y la GPU comparten el mismo pool de memoria. Si tienes un Mac con 36GB de Memoria Unificada, ¡tu GPU puede acceder a la totalidad!

A continuación se detalla exactamente qué puedes ejecutar según la RAM de tu Mac:

RAM de tu Mac Tamaño Máximo de Modelo Modelos Recomendados Notas
8GB (M3 Base) ~7B a 8B parámetros Llama 3 (8B), Mistral (7B), Gemma (2B) Cierra otras aplicaciones para evitar el intercambio de memoria.
16GB / 18GB ~13B a 14B parámetros Qwen 2.5 (14B), Command R El punto óptimo. Ejecuta Llama 3 (8B) a máxima velocidad.
36GB / 64GB ~30B a 70B parámetros Mixtral (8x7B), Llama 3 (70B en Q2) IA de clase escritorio de forma nativa.
128GB+ ~120B+ parámetros Llama 3 (70B Q8), Command R+ Posees una supercomputadora personal.

Step 5 Optimización del Rendimiento

¿Cómo puedes verificar que Ollama está utilizando realmente la GPU de tu M3 y no recurriendo a la lenta CPU? Vamos a comprobarlo de forma matemática.

  1. Abre el Monitor de Actividad en tu Mac (Cmd + Space -> "Monitor de Actividad").
  2. Presiona Cmd + 4 para abrir la ventana de Historial de GPU.
  3. Mantén esa ventana visible y regresa a tu terminal donde ejecutas ollama run llama3.
  4. Proporciona un prompt extenso: Write a 1000 word essay about the history of artificial intelligence.

Observa el gráfico del Historial de GPU. Deberías ver un pico masivo y sostenido que lleva tu GPU al 90-100% de utilización. Si ves esto, ¡la aceleración Metal de Apple está funcionando a la perfección!


Step 6 Exposición de la API Local

La terminal es excelente, pero ¿qué sucede si deseas utilizar una interfaz web elegante o integrar tu modelo local en una aplicación que estés desarrollando?

Ollama ejecuta un servidor de API local por defecto. Abre un navegador y dirígete a: http://localhost:11434

Ahora puedes consultar esta API mediante curl o Python exactamente como lo harías con la API de OpenAI:

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Has transformado exitosamente tu Mac M3 en un servidor de IA privado y sin conexión. Tus datos nunca abandonan tu máquina y no pagas absolutamente nada en tarifas de API.