Execute o Ollama nativamente no Windows

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Chega de dores de cabeça com o WSL. O Ollama agora roda nativamente no Windows como uma aplicação independente. Ele detecta automaticamente sua placa de vídeo NVIDIA ou AMD e acelera sua inferência de IA local direto da caixa.

Step 1 Introdução

No passado, rodar LLMs localmente no Windows exigia a instalação do Windows Subsystem for Linux (WSL) e lidar com configurações complexas de drivers. Hoje, o Ollama oferece um .exe nativo para Windows que se conecta diretamente ao DirectX e ao CUDA.

Step 2 Instalação

  1. Acesse ollama.com/download.
  2. Clique em Windows e baixe o instalador .exe.
  3. Dê um duplo clique no instalador para executá-lo.

O Ollama se instalará e colocará um ícone na sua bandeja do sistema (canto inferior direito da barra de tarefas).

Step 3 Baixando Seu Primeiro Modelo

Abra uma nova janela do PowerShell ou do Prompt de Comando. Vamos baixar o incrivelmente capaz modelo de 8 bilhões de parâmetros da Meta.

Terminal
ollama run llama3

O que acontece a seguir? - O Ollama se conecta ao registro. - Ele baixa os pesos do modelo (~4,7 GB) para a pasta local C:\Users\<YourUser>\.ollama. - Ele abre um prompt de chat interativo.

Agora você pode digitar: Write a python script to scrape a website e ver seu PC gerar código instantaneamente.

Step 4 Limitações de Hardware

Os PCs com Windows normalmente dependem de GPUs dedicadas (VRAM) em vez de Memória Unificada como nos Macs. Para rodar um modelo de IA com rapidez, ele deve caber inteiramente dentro da sua VRAM.

Sua VRAM Tamanho Máximo do Modelo Modelos Recomendados
6 GB a 8 GB ~7B a 8B parâmetros Llama 3 (8B), Mistral (7B), Gemma (2B)
12 GB a 16 GB ~13B a 14B parâmetros Qwen 2.5 (14B), Command R
24 GB (RTX 3090/4090) ~30B parâmetros Mixtral (8x7B)

Se um modelo exceder sua VRAM, o Ollama descarregará automaticamente as camadas restantes para a memória do sistema (CPU), que é muito mais lenta.

Step 5 Aceleração por GPU

O Ollama detecta automaticamente o seu hardware. - Se você tiver uma placa NVIDIA, ele usa CUDA. - Se você tiver uma placa AMD, ele usa ROCm.

Para verificar o uso da GPU, abra o Gerenciador de Tarefas (Ctrl + Shift + Esc), vá até a aba Desempenho e selecione sua GPU. Envie um prompt extenso ao Ollama e observe os gráficos de "Memória GPU Dedicada" e computação "3D" dispararem para 100%.

Step 6 A API Local

O Ollama executa um servidor de API local em segundo plano automaticamente. Você pode conectar esse endpoint a extensões do VS Code ou scripts Python.

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Seu PC com Windows agora é um servidor de IA privado e totalmente funcional!