O Guia Definitivo: Execute o Ollama no Mac M3

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Você já possui uma das máquinas de IA local mais poderosas do planeta. Seja você usando um MacBook Pro M3 básico, um MacBook Pro M3 Max ou um Mac Studio — este guia vai te ensinar a desbloquear todo o seu potencial com o Ollama. Sem nuvem. Sem cobranças de API. Apenas inteligência bruta e privada.


Step 1 Introdução

O Ollama requer macOS 11 Big Sur ou superior. No entanto, para obter a melhor aceleração de GPU com Apple Silicon e o melhor suporte ao Metal Performance Shaders (MPS), você deve estar executando o macOS 14 Sonoma ou superior.

Vamos utilizar o Terminal do macOS. Pressione Cmd + Space e digite "Terminal", ou use uma alternativa moderna como iTerm2 ou Warp.


Step 2 Instalando o Ollama

Você tem duas opções para instalar o Ollama no seu Mac: o instalador gráfico oficial para macOS ou o Homebrew (o gerenciador de pacotes para macOS). Recomendamos fortemente o Homebrew porque ele torna as atualizações incrivelmente simples.

Se você já tem o Homebrew instalado, abra seu terminal e execute:

Terminal
brew install ollama

Após a instalação, inicie o serviço em segundo plano do Ollama para que ele possa receber comandos:

Terminal
ollama serve

(Nota: Mantenha esta janela do terminal aberta, ou execute brew services start ollama para que ele rode silenciosamente em segundo plano na inicialização).


Step 3 Baixando Seu Primeiro Modelo

O Ollama torna o download de um Modelo de Linguagem Grande (LLM) tão fácil quanto baixar um contêiner Docker.

Vamos começar com o Llama 3 da Meta (8B parâmetros). Ele é rápido, altamente capaz e cabe perfeitamente na memória de qualquer Mac com chip M3. Abra uma nova janela do terminal e execute:

Terminal
ollama run llama3

O que acontece em seguida? - O Ollama se conecta ao registro. - Ele faz o download dos pesos do modelo (4,7 GB) para o seu armazenamento local. - Ele te coloca em um prompt de chat interativo.

Agora você pode digitar: Write a python script to scrape a website e assistir ao seu Mac local gerar código instantaneamente, completamente offline.


Step 4 Hardware e Limites de RAM

Por que os Macs com Apple Silicon são tão bons em IA? Memória Unificada.

Em um PC, você tem a RAM do sistema e a RAM gráfica (VRAM na GPU). Para executar um modelo de IA rapidamente, ele deve caber inteiramente dentro da VRAM. Mas em um Mac com M3, a CPU e a GPU compartilham o mesmo pool de memória. Se você tem um Mac com 36 GB de Memória Unificada, sua GPU pode acessar tudo isso!

Veja exatamente o que você pode executar com base na RAM do seu Mac:

RAM do Seu Mac Tamanho Máximo do Modelo Modelos Recomendados Observações
8 GB (M3 básico) ~7B a 8B parâmetros Llama 3 (8B), Mistral (7B), Gemma (2B) Feche outros aplicativos para evitar o uso de memória de troca.
16 GB / 18 GB ~13B a 14B parâmetros Qwen 2.5 (14B), Command R O ponto ideal. Execute o Llama 3 (8B) de forma extremamente rápida.
36 GB / 64 GB ~30B a 70B parâmetros Mixtral (8x7B), Llama 3 (70B em Q2) IA de nível desktop de forma nativa.
128 GB+ ~120B+ parâmetros Llama 3 (70B Q8), Command R+ Você possui um supercomputador pessoal.

Step 5 Otimizando o Desempenho

Como você sabe se o Ollama está realmente usando a GPU do seu M3 e não recorrendo à CPU lenta? Vamos verificar isso matematicamente.

  1. Abra o Monitor de Atividade no seu Mac (Cmd + Space -> "Monitor de Atividade").
  2. Pressione Cmd + 4 para abrir a janela de Histórico de GPU.
  3. Mantenha essa janela visível e volte ao seu terminal executando ollama run llama3.
  4. Dê a ele um prompt massivo: Write a 1000 word essay about the history of artificial intelligence.

Observe o gráfico do Histórico de GPU. Você deverá ver um pico enorme e sustentado, levando sua GPU a 90-100% de utilização. Se você ver isso, a aceleração Metal da Apple está funcionando perfeitamente!


Step 6 Expondo a API Local

O terminal é ótimo, mas e se você quiser usar uma interface web elegante ou integrar seu modelo local em um aplicativo que está desenvolvendo?

O Ollama executa um servidor de API local por padrão. Abra um navegador e acesse: http://localhost:11434

Agora você pode acessar esta API via curl ou Python exatamente como a API da OpenAI:

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Você transformou com sucesso seu Mac M3 em um servidor de IA privado e offline. Seus dados nunca saem da sua máquina e você não paga nenhuma taxa de API.