laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux ist die native Heimat des maschinellen Lernens. Die Ausführung von Ollama auf Ubuntu oder Debian bietet Ihnen die absolut niedrigste Latenz und die bestmögliche Treiberintegration für NVIDIA- und AMD-GPUs.
Step 1 Einführung
Ollama stellt ein 1-Klick-Installationsskript für Linux bereit, das nicht nur die Binärdatei herunterlädt, sondern automatisch einen systemd-Hintergrunddienst konfiguriert. Das bedeutet, dass Ihre lokale KI-API automatisch startet, wenn Sie Ihren Server oder Desktop hochfahren.
Step 2 Voraussetzungen
Stellen Sie vor der Installation von Ollama sicher, dass Ihre GPU-Treiber korrekt installiert sind.
Für NVIDIA-GPUs:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
Für AMD-GPUs:
Ollama unterstützt AMD-Grafikkarten über die ROCm-Plattform. Stellen Sie sicher, dass Sie die neuesten amdgpu-Treiber für Ihre spezifische Distribution installiert haben.
Step 3 Installation
Das offizielle Installationsskript erledigt alles für Sie. Führen Sie dies in Ihrem Terminal aus:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
Während der Installation erkennt das Skript automatisch Ihre NVIDIA- oder AMD-GPU und lädt die entsprechenden Beschleunigungsbibliotheken herunter.
Step 4 Verwaltung des Dienstes
Ollama läuft als Daemon. Sie können es mit standardmäßigen systemd-Befehlen verwalten:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 Modelle herunterladen und ausführen
Sobald der Dienst aktiv ist, können Sie Ihr erstes Modell herunterladen und die Chat-Oberfläche starten. Verwenden wir Metas Llama 3:
Um die interaktive Eingabeaufforderung zu beenden, geben Sie /bye ein oder drücken Sie Ctrl + d.
Step 6 Hardware-Grenzen
Da Linux einen sehr geringen Betriebssystem-Overhead hat, können Sie im Vergleich zu Windows größere Modelle in Ihren VRAM einpassen.
| Ihr VRAM |
Maximale Modellgröße |
Empfohlene Modelle |
| 8GB |
~8B Parameter |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B Parameter |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B Parameter |
Mixtral (8x7B) |
Wenn Sie Ihren VRAM überschreiten, lagert Ollama die verbleibenden Schichten problemlos in Ihren System-RAM aus, obwohl die Generierungsgeschwindigkeit erheblich sinken wird.
Step 7 Netzwerkzugriff
Standardmäßig lauscht Ollama nur auf 127.0.0.1 (localhost). Wenn Sie Linux auf einem Headless-Server betreiben und über Ihr MacBook oder Ihren Windows-PC auf die API zugreifen möchten, müssen Sie es an die IP-Adresse Ihres lokalen Netzwerks binden.
Bearbeiten Sie den systemd-Dienst:
Terminal
sudo systemctl edit ollama
Fügen Sie die folgenden Zeilen hinzu:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Starten Sie den Dienst neu:
Terminal
sudo systemctl restart ollama
Ihr Linux-KI-Server ist jetzt von überall in Ihrem lokalen Netzwerk erreichbar!