Exécuter Ollama sur Linux : Le Guide Définitif

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux est l'environnement natif du machine learning. Exécuter Ollama sur Ubuntu ou Debian vous offre la latence la plus basse absolue et la meilleure intégration possible des pilotes pour les GPU NVIDIA et AMD.

Introduction

Ollama fournit un script d'installation en 1 clic pour Linux qui non seulement télécharge le binaire, mais configure automatiquement un service en arrière-plan systemd. Cela signifie que votre API IA locale démarrera automatiquement au démarrage de votre serveur ou de votre poste de travail.

Step 1 Prérequis

Avant d'installer Ollama, assurez-vous que vos pilotes GPU sont correctement installés.

Pour les GPU NVIDIA :

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

Pour les GPU AMD : Ollama prend en charge les cartes graphiques AMD via la plateforme ROCm. Assurez-vous d'avoir les derniers pilotes amdgpu installés pour votre distribution spécifique.

Step 2 Installation

Le script d'installation officiel gère tout pour vous. Exécutez cette commande dans votre terminal :

Terminal

curl -fsSL https://ollama.com/install.sh | sh

Lors de l'installation, le script détectera automatiquement votre GPU NVIDIA ou AMD et téléchargera les bibliothèques d'accélération appropriées.

Step 3 Gestion du Service

Ollama s'exécute en tant que daemon. Vous pouvez le gérer à l'aide des commandes systemd standard :

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 4 Téléchargement et Exécution des Modèles

Une fois le service actif, vous pouvez télécharger votre premier modèle et accéder à l'interface de chat. Utilisons Llama 3 de Meta :

Terminal

ollama run llama3

Pour quitter l'invite interactive, tapez /bye ou appuyez sur Ctrl + d.

Step 5 Limites Matérielles

Du fait que Linux présente une surcharge système très faible, vous pouvez faire tenir des modèles plus volumineux dans votre VRAM par rapport à Windows.

Votre VRAM	Taille Maximale du Modèle	Modèles Recommandés
8 Go	~8B paramètres	Llama 3 (8B), Mistral (7B)
16 Go	~14B paramètres	Qwen 2.5 (14B), Command R
24 Go	~30B paramètres	Mixtral (8x7B)

Si vous dépassez votre VRAM, Ollama déchargera gracieusement les couches restantes vers votre RAM système, bien que la vitesse de génération chute de manière significative.

Step 6 Accès Réseau

Par défaut, Ollama écoute uniquement sur 127.0.0.1 (localhost). Si vous exécutez Linux sur un serveur headless et souhaitez accéder à l'API depuis votre MacBook ou votre PC Windows, vous devez le lier à l'adresse IP de votre réseau local.

Éditez le service systemd :

Terminal

sudo systemctl edit ollama

Ajoutez les lignes suivantes :

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Redémarrez le service :

Terminal

sudo systemctl restart ollama

Votre serveur IA Linux est désormais accessible depuis n'importe quel point de votre réseau local !

Continue Reading

Performance

Exécuter Ollama sur Linux : Le Guide Définitif

Introduction

Step 1 Prérequis

Step 2 Installation

Step 3 Gestion du Service

Step 4 Téléchargement et Exécution des Modèles

Step 5 Limites Matérielles

Step 6 Accès Réseau

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference