laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Fini les maux de tête avec WSL. Ollama s'exécute désormais nativement sur Windows en tant qu'application autonome. Il détecte automatiquement votre carte graphique NVIDIA ou AMD et accélère votre inférence IA locale dès la première utilisation.
Introduction
Par le passé, exécuter des LLM en local sur Windows nécessitait d'installer le Sous-système Windows pour Linux (WSL) et de se battre avec les configurations de pilotes en passthrough. Aujourd'hui, Ollama fournit un .exe Windows natif qui s'interface directement avec DirectX et CUDA.
Step 1 Installation
- Rendez-vous sur ollama.com/download.
- Cliquez sur Windows et téléchargez le programme d'installation
.exe.
- Double-cliquez sur le programme d'installation pour le lancer.
Ollama s'installera automatiquement et placera une icône dans votre barre des tâches système (coin inférieur droit de votre barre des tâches).
Step 2 Téléchargement de votre premier modèle
Ouvrez une nouvelle fenêtre PowerShell ou Invite de commandes. Téléchargeons le modèle à 8 milliards de paramètres de Meta, d'une puissance remarquable.
Que se passe-t-il ensuite ?
- Ollama se connecte au registre.
- Il télécharge les poids du modèle (~4,7 Go) dans votre dossier local C:\Users\<YourUser>\.ollama.
- Il vous place dans une invite de discussion interactive.
Vous pouvez désormais saisir : Write a python script to scrape a website et observer votre PC générer du code instantanément.
Step 3 Limites matérielles
Les PC Windows s'appuient généralement sur des GPU discrets (VRAM) plutôt que sur une mémoire unifiée comme les Mac. Pour qu'un modèle IA s'exécute rapidement, il doit tenir intégralement dans votre VRAM.
| Votre VRAM |
Taille max du modèle |
Modèles recommandés |
| 6 Go à 8 Go |
~7B à 8B paramètres |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12 Go à 16 Go |
~13B à 14B paramètres |
Qwen 2.5 (14B), Command R |
| 24 Go (RTX 3090/4090) |
~30B paramètres |
Mixtral (8x7B) |
Si un modèle dépasse votre VRAM, Ollama déportera automatiquement les couches restantes vers votre RAM système, bien plus lente (CPU).
Step 4 Accélération GPU
Ollama détecte automatiquement votre matériel.
- Si vous disposez d'une carte NVIDIA, il utilise CUDA.
- Si vous disposez d'une carte AMD, il utilise ROCm.
Pour vérifier l'utilisation du GPU, ouvrez le Gestionnaire des tâches (Ctrl + Shift + Esc), accédez à l'onglet Performances et sélectionnez votre GPU. Envoyez une requête volumineuse à Ollama et observez vos graphiques « Mémoire GPU dédiée » et calcul « 3D » monter en flèche jusqu'à 100 %.
Step 5 L'API locale
Ollama exécute automatiquement un serveur API local en arrière-plan. Vous pouvez connecter cet endpoint à des extensions VS Code ou à des scripts Python.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Votre PC Windows est désormais un serveur IA entièrement fonctionnel et privé !