Ejecuta Ollama de forma nativa en Windows

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Se acabaron los dolores de cabeza con WSL. Ollama ahora se ejecuta de forma nativa en Windows como una aplicación independiente. Detecta automáticamente tu tarjeta gráfica NVIDIA o AMD y acelera tu inferencia de IA local directamente desde el primer uso.

Step 1 Introducción

En el pasado, ejecutar LLMs locales en Windows requería instalar el Subsistema de Windows para Linux (WSL) y lidiar con la configuración de los controladores de paso directo. Hoy en día, Ollama proporciona un .exe nativo para Windows que se conecta directamente con DirectX y CUDA.

Step 2 Instalación

Ve a ollama.com/download.
Haz clic en Windows y descarga el instalador .exe.
Haz doble clic en el instalador para ejecutarlo.

Ollama se instalará automáticamente y colocará un ícono en la bandeja del sistema (esquina inferior derecha de tu barra de tareas).

Step 3 Descargando Tu Primer Modelo

Abre una nueva ventana de PowerShell o Símbolo del sistema. Descarguemos el increíblemente capaz modelo de 8 mil millones de parámetros de Meta.

Terminal

ollama run llama3

¿Qué sucede a continuación? - Ollama se conecta al registro. - Descarga los pesos del modelo (~4.7GB) en tu carpeta local C:\Users\<YourUser>\.ollama. - Te lleva a un prompt de chat interactivo.

Ahora puedes escribir: Write a python script to scrape a website y ver cómo tu PC genera código al instante.

Step 4 Limitaciones de Hardware

Las PC con Windows generalmente dependen de GPUs discretas (VRAM) en lugar de Memoria Unificada como las Macs. Para ejecutar un modelo de IA de forma rápida, este debe caber completamente dentro de tu VRAM.

Tu VRAM	Tamaño Máximo del Modelo	Modelos Recomendados
6GB a 8GB	~7B a 8B parámetros	Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB a 16GB	~13B a 14B parámetros	Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090)	~30B parámetros	Mixtral (8x7B)

Si un modelo supera tu VRAM, Ollama descargará automáticamente las capas restantes a tu RAM del sistema, que es considerablemente más lenta (CPU).

Step 5 Aceleración por GPU

Ollama detecta automáticamente tu hardware. - Si tienes una tarjeta NVIDIA, utiliza CUDA. - Si tienes una tarjeta AMD, utiliza ROCm.

Para verificar el uso de la GPU, abre el Administrador de tareas (Ctrl + Shift + Esc), ve a la pestaña Rendimiento y selecciona tu GPU. Envía un prompt extenso a Ollama y observa cómo los gráficos de "Memoria GPU dedicada" y el cómputo "3D" se disparan al 100%.

Step 6 La API Local

Ollama ejecuta un servidor de API local en segundo plano de forma automática. Puedes conectar este endpoint a extensiones de VS Code o scripts de Python.

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

¡Tu PC con Windows es ahora un servidor de IA privado y completamente funcional!

Continue Reading

Performance