laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Se acabaron los dolores de cabeza con WSL. Ollama ahora se ejecuta de forma nativa en Windows como una aplicación independiente. Detecta automáticamente tu tarjeta gráfica NVIDIA o AMD y acelera tu inferencia de IA local directamente desde el primer uso.
Step 1 Introducción
En el pasado, ejecutar LLMs locales en Windows requería instalar el Subsistema de Windows para Linux (WSL) y lidiar con la configuración de los controladores de paso directo. Hoy en día, Ollama proporciona un .exe nativo para Windows que se conecta directamente con DirectX y CUDA.
Step 2 Instalación
- Ve a ollama.com/download.
- Haz clic en Windows y descarga el instalador
.exe.
- Haz doble clic en el instalador para ejecutarlo.
Ollama se instalará automáticamente y colocará un ícono en la bandeja del sistema (esquina inferior derecha de tu barra de tareas).
Step 3 Descargando Tu Primer Modelo
Abre una nueva ventana de PowerShell o Símbolo del sistema. Descarguemos el increíblemente capaz modelo de 8 mil millones de parámetros de Meta.
¿Qué sucede a continuación?
- Ollama se conecta al registro.
- Descarga los pesos del modelo (~4.7GB) en tu carpeta local C:\Users\<YourUser>\.ollama.
- Te lleva a un prompt de chat interactivo.
Ahora puedes escribir: Write a python script to scrape a website y ver cómo tu PC genera código al instante.
Step 4 Limitaciones de Hardware
Las PC con Windows generalmente dependen de GPUs discretas (VRAM) en lugar de Memoria Unificada como las Macs. Para ejecutar un modelo de IA de forma rápida, este debe caber completamente dentro de tu VRAM.
| Tu VRAM |
Tamaño Máximo del Modelo |
Modelos Recomendados |
| 6GB a 8GB |
~7B a 8B parámetros |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12GB a 16GB |
~13B a 14B parámetros |
Qwen 2.5 (14B), Command R |
| 24GB (RTX 3090/4090) |
~30B parámetros |
Mixtral (8x7B) |
Si un modelo supera tu VRAM, Ollama descargará automáticamente las capas restantes a tu RAM del sistema, que es considerablemente más lenta (CPU).
Step 5 Aceleración por GPU
Ollama detecta automáticamente tu hardware.
- Si tienes una tarjeta NVIDIA, utiliza CUDA.
- Si tienes una tarjeta AMD, utiliza ROCm.
Para verificar el uso de la GPU, abre el Administrador de tareas (Ctrl + Shift + Esc), ve a la pestaña Rendimiento y selecciona tu GPU. Envía un prompt extenso a Ollama y observa cómo los gráficos de "Memoria GPU dedicada" y el cómputo "3D" se disparan al 100%.
Step 6 La API Local
Ollama ejecuta un servidor de API local en segundo plano de forma automática. Puedes conectar este endpoint a extensiones de VS Code o scripts de Python.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
¡Tu PC con Windows es ahora un servidor de IA privado y completamente funcional!