Ejecuta Ollama de forma nativa en Windows

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Se acabaron los dolores de cabeza con WSL. Ollama ahora se ejecuta de forma nativa en Windows como una aplicación independiente. Detecta automáticamente tu tarjeta gráfica NVIDIA o AMD y acelera tu inferencia de IA local directamente desde el primer uso.

Step 1 Introducción

En el pasado, ejecutar LLMs locales en Windows requería instalar el Subsistema de Windows para Linux (WSL) y lidiar con la configuración de los controladores de paso directo. Hoy en día, Ollama proporciona un .exe nativo para Windows que se conecta directamente con DirectX y CUDA.

Step 2 Instalación

  1. Ve a ollama.com/download.
  2. Haz clic en Windows y descarga el instalador .exe.
  3. Haz doble clic en el instalador para ejecutarlo.

Ollama se instalará automáticamente y colocará un ícono en la bandeja del sistema (esquina inferior derecha de tu barra de tareas).

Step 3 Descargando Tu Primer Modelo

Abre una nueva ventana de PowerShell o Símbolo del sistema. Descarguemos el increíblemente capaz modelo de 8 mil millones de parámetros de Meta.

Terminal
ollama run llama3

¿Qué sucede a continuación? - Ollama se conecta al registro. - Descarga los pesos del modelo (~4.7GB) en tu carpeta local C:\Users\<YourUser>\.ollama. - Te lleva a un prompt de chat interactivo.

Ahora puedes escribir: Write a python script to scrape a website y ver cómo tu PC genera código al instante.

Step 4 Limitaciones de Hardware

Las PC con Windows generalmente dependen de GPUs discretas (VRAM) en lugar de Memoria Unificada como las Macs. Para ejecutar un modelo de IA de forma rápida, este debe caber completamente dentro de tu VRAM.

Tu VRAM Tamaño Máximo del Modelo Modelos Recomendados
6GB a 8GB ~7B a 8B parámetros Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB a 16GB ~13B a 14B parámetros Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090) ~30B parámetros Mixtral (8x7B)

Si un modelo supera tu VRAM, Ollama descargará automáticamente las capas restantes a tu RAM del sistema, que es considerablemente más lenta (CPU).

Step 5 Aceleración por GPU

Ollama detecta automáticamente tu hardware. - Si tienes una tarjeta NVIDIA, utiliza CUDA. - Si tienes una tarjeta AMD, utiliza ROCm.

Para verificar el uso de la GPU, abre el Administrador de tareas (Ctrl + Shift + Esc), ve a la pestaña Rendimiento y selecciona tu GPU. Envía un prompt extenso a Ollama y observa cómo los gráficos de "Memoria GPU dedicada" y el cómputo "3D" se disparan al 100%.

Step 6 La API Local

Ollama ejecuta un servidor de API local en segundo plano de forma automática. Puedes conectar este endpoint a extensiones de VS Code o scripts de Python.

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

¡Tu PC con Windows es ahora un servidor de IA privado y completamente funcional!