laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux est l'environnement natif du machine learning. Exécuter Ollama sur Ubuntu ou Debian vous offre la latence la plus basse absolue et la meilleure intégration possible des pilotes pour les GPU NVIDIA et AMD.
Introduction
Ollama fournit un script d'installation en 1 clic pour Linux qui non seulement télécharge le binaire, mais configure automatiquement un service en arrière-plan systemd. Cela signifie que votre API IA locale démarrera automatiquement au démarrage de votre serveur ou de votre poste de travail.
Step 1 Prérequis
Avant d'installer Ollama, assurez-vous que vos pilotes GPU sont correctement installés.
Pour les GPU NVIDIA :
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
Pour les GPU AMD :
Ollama prend en charge les cartes graphiques AMD via la plateforme ROCm. Assurez-vous d'avoir les derniers pilotes amdgpu installés pour votre distribution spécifique.
Step 2 Installation
Le script d'installation officiel gère tout pour vous. Exécutez cette commande dans votre terminal :
Terminal
curl -fsSL https://ollama.com/install.sh | sh
Lors de l'installation, le script détectera automatiquement votre GPU NVIDIA ou AMD et téléchargera les bibliothèques d'accélération appropriées.
Step 3 Gestion du Service
Ollama s'exécute en tant que daemon. Vous pouvez le gérer à l'aide des commandes systemd standard :
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 4 Téléchargement et Exécution des Modèles
Une fois le service actif, vous pouvez télécharger votre premier modèle et accéder à l'interface de chat. Utilisons Llama 3 de Meta :
Pour quitter l'invite interactive, tapez /bye ou appuyez sur Ctrl + d.
Step 5 Limites Matérielles
Du fait que Linux présente une surcharge système très faible, vous pouvez faire tenir des modèles plus volumineux dans votre VRAM par rapport à Windows.
| Votre VRAM |
Taille Maximale du Modèle |
Modèles Recommandés |
| 8 Go |
~8B paramètres |
Llama 3 (8B), Mistral (7B) |
| 16 Go |
~14B paramètres |
Qwen 2.5 (14B), Command R |
| 24 Go |
~30B paramètres |
Mixtral (8x7B) |
Si vous dépassez votre VRAM, Ollama déchargera gracieusement les couches restantes vers votre RAM système, bien que la vitesse de génération chute de manière significative.
Step 6 Accès Réseau
Par défaut, Ollama écoute uniquement sur 127.0.0.1 (localhost). Si vous exécutez Linux sur un serveur headless et souhaitez accéder à l'API depuis votre MacBook ou votre PC Windows, vous devez le lier à l'adresse IP de votre réseau local.
Éditez le service systemd :
Terminal
sudo systemctl edit ollama
Ajoutez les lignes suivantes :
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Redémarrez le service :
Terminal
sudo systemctl restart ollama
Votre serveur IA Linux est désormais accessible depuis n'importe quel point de votre réseau local !