Exécuter Ollama sur Windows de manière native

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Fini les maux de tête avec WSL. Ollama s'exécute désormais nativement sur Windows en tant qu'application autonome. Il détecte automatiquement votre carte graphique NVIDIA ou AMD et accélère votre inférence IA locale dès la première utilisation.

Introduction

Par le passé, exécuter des LLM en local sur Windows nécessitait d'installer le Sous-système Windows pour Linux (WSL) et de se battre avec les configurations de pilotes en passthrough. Aujourd'hui, Ollama fournit un .exe Windows natif qui s'interface directement avec DirectX et CUDA.

Step 1 Installation

Rendez-vous sur ollama.com/download.
Cliquez sur Windows et téléchargez le programme d'installation .exe.
Double-cliquez sur le programme d'installation pour le lancer.

Ollama s'installera automatiquement et placera une icône dans votre barre des tâches système (coin inférieur droit de votre barre des tâches).

Step 2 Téléchargement de votre premier modèle

Ouvrez une nouvelle fenêtre PowerShell ou Invite de commandes. Téléchargeons le modèle à 8 milliards de paramètres de Meta, d'une puissance remarquable.

Terminal

ollama run llama3

Que se passe-t-il ensuite ? - Ollama se connecte au registre. - Il télécharge les poids du modèle (~4,7 Go) dans votre dossier local C:\Users\<YourUser>\.ollama. - Il vous place dans une invite de discussion interactive.

Vous pouvez désormais saisir : Write a python script to scrape a website et observer votre PC générer du code instantanément.

Step 3 Limites matérielles

Les PC Windows s'appuient généralement sur des GPU discrets (VRAM) plutôt que sur une mémoire unifiée comme les Mac. Pour qu'un modèle IA s'exécute rapidement, il doit tenir intégralement dans votre VRAM.

Votre VRAM	Taille max du modèle	Modèles recommandés
6 Go à 8 Go	~7B à 8B paramètres	Llama 3 (8B), Mistral (7B), Gemma (2B)
12 Go à 16 Go	~13B à 14B paramètres	Qwen 2.5 (14B), Command R
24 Go (RTX 3090/4090)	~30B paramètres	Mixtral (8x7B)

Si un modèle dépasse votre VRAM, Ollama déportera automatiquement les couches restantes vers votre RAM système, bien plus lente (CPU).

Step 4 Accélération GPU

Ollama détecte automatiquement votre matériel. - Si vous disposez d'une carte NVIDIA, il utilise CUDA. - Si vous disposez d'une carte AMD, il utilise ROCm.

Pour vérifier l'utilisation du GPU, ouvrez le Gestionnaire des tâches (Ctrl + Shift + Esc), accédez à l'onglet Performances et sélectionnez votre GPU. Envoyez une requête volumineuse à Ollama et observez vos graphiques « Mémoire GPU dédiée » et calcul « 3D » monter en flèche jusqu'à 100 %.

Step 5 L'API locale

Ollama exécute automatiquement un serveur API local en arrière-plan. Vous pouvez connecter cet endpoint à des extensions VS Code ou à des scripts Python.

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Votre PC Windows est désormais un serveur IA entièrement fonctionnel et privé !

Continue Reading

Performance