laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Chega de dores de cabeça com o WSL. O Ollama agora roda nativamente no Windows como uma aplicação independente. Ele detecta automaticamente sua placa de vídeo NVIDIA ou AMD e acelera sua inferência de IA local direto da caixa.
Step 1 Introdução
No passado, rodar LLMs localmente no Windows exigia a instalação do Windows Subsystem for Linux (WSL) e lidar com configurações complexas de drivers. Hoje, o Ollama oferece um .exe nativo para Windows que se conecta diretamente ao DirectX e ao CUDA.
Step 2 Instalação
- Acesse ollama.com/download.
- Clique em Windows e baixe o instalador
.exe.
- Dê um duplo clique no instalador para executá-lo.
O Ollama se instalará e colocará um ícone na sua bandeja do sistema (canto inferior direito da barra de tarefas).
Step 3 Baixando Seu Primeiro Modelo
Abra uma nova janela do PowerShell ou do Prompt de Comando. Vamos baixar o incrivelmente capaz modelo de 8 bilhões de parâmetros da Meta.
O que acontece a seguir?
- O Ollama se conecta ao registro.
- Ele baixa os pesos do modelo (~4,7 GB) para a pasta local C:\Users\<YourUser>\.ollama.
- Ele abre um prompt de chat interativo.
Agora você pode digitar: Write a python script to scrape a website e ver seu PC gerar código instantaneamente.
Step 4 Limitações de Hardware
Os PCs com Windows normalmente dependem de GPUs dedicadas (VRAM) em vez de Memória Unificada como nos Macs. Para rodar um modelo de IA com rapidez, ele deve caber inteiramente dentro da sua VRAM.
| Sua VRAM |
Tamanho Máximo do Modelo |
Modelos Recomendados |
| 6 GB a 8 GB |
~7B a 8B parâmetros |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12 GB a 16 GB |
~13B a 14B parâmetros |
Qwen 2.5 (14B), Command R |
| 24 GB (RTX 3090/4090) |
~30B parâmetros |
Mixtral (8x7B) |
Se um modelo exceder sua VRAM, o Ollama descarregará automaticamente as camadas restantes para a memória do sistema (CPU), que é muito mais lenta.
Step 5 Aceleração por GPU
O Ollama detecta automaticamente o seu hardware.
- Se você tiver uma placa NVIDIA, ele usa CUDA.
- Se você tiver uma placa AMD, ele usa ROCm.
Para verificar o uso da GPU, abra o Gerenciador de Tarefas (Ctrl + Shift + Esc), vá até a aba Desempenho e selecione sua GPU. Envie um prompt extenso ao Ollama e observe os gráficos de "Memória GPU Dedicada" e computação "3D" dispararem para 100%.
Step 6 A API Local
O Ollama executa um servidor de API local em segundo plano automaticamente. Você pode conectar esse endpoint a extensões do VS Code ou scripts Python.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Seu PC com Windows agora é um servidor de IA privado e totalmente funcional!