Ollama auf Linux ausführen: Der ultimative Leitfaden

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux ist die native Heimat des maschinellen Lernens. Die Ausführung von Ollama auf Ubuntu oder Debian bietet Ihnen die absolut niedrigste Latenz und die bestmögliche Treiberintegration für NVIDIA- und AMD-GPUs.

Step 1 Einführung

Ollama stellt ein 1-Klick-Installationsskript für Linux bereit, das nicht nur die Binärdatei herunterlädt, sondern automatisch einen systemd-Hintergrunddienst konfiguriert. Das bedeutet, dass Ihre lokale KI-API automatisch startet, wenn Sie Ihren Server oder Desktop hochfahren.

Step 2 Voraussetzungen

Stellen Sie vor der Installation von Ollama sicher, dass Ihre GPU-Treiber korrekt installiert sind.

Für NVIDIA-GPUs:

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

Für AMD-GPUs: Ollama unterstützt AMD-Grafikkarten über die ROCm-Plattform. Stellen Sie sicher, dass Sie die neuesten amdgpu-Treiber für Ihre spezifische Distribution installiert haben.

Step 3 Installation

Das offizielle Installationsskript erledigt alles für Sie. Führen Sie dies in Ihrem Terminal aus:

Terminal

curl -fsSL https://ollama.com/install.sh | sh

Während der Installation erkennt das Skript automatisch Ihre NVIDIA- oder AMD-GPU und lädt die entsprechenden Beschleunigungsbibliotheken herunter.

Step 4 Verwaltung des Dienstes

Ollama läuft als Daemon. Sie können es mit standardmäßigen systemd-Befehlen verwalten:

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 5 Modelle herunterladen und ausführen

Sobald der Dienst aktiv ist, können Sie Ihr erstes Modell herunterladen und die Chat-Oberfläche starten. Verwenden wir Metas Llama 3:

Terminal

ollama run llama3

Um die interaktive Eingabeaufforderung zu beenden, geben Sie /bye ein oder drücken Sie Ctrl + d.

Step 6 Hardware-Grenzen

Da Linux einen sehr geringen Betriebssystem-Overhead hat, können Sie im Vergleich zu Windows größere Modelle in Ihren VRAM einpassen.

Ihr VRAM	Maximale Modellgröße	Empfohlene Modelle
8GB	~8B Parameter	Llama 3 (8B), Mistral (7B)
16GB	~14B Parameter	Qwen 2.5 (14B), Command R
24GB	~30B Parameter	Mixtral (8x7B)

Wenn Sie Ihren VRAM überschreiten, lagert Ollama die verbleibenden Schichten problemlos in Ihren System-RAM aus, obwohl die Generierungsgeschwindigkeit erheblich sinken wird.

Step 7 Netzwerkzugriff

Standardmäßig lauscht Ollama nur auf 127.0.0.1 (localhost). Wenn Sie Linux auf einem Headless-Server betreiben und über Ihr MacBook oder Ihren Windows-PC auf die API zugreifen möchten, müssen Sie es an die IP-Adresse Ihres lokalen Netzwerks binden.

Bearbeiten Sie den systemd-Dienst:

Terminal

sudo systemctl edit ollama

Fügen Sie die folgenden Zeilen hinzu:

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Starten Sie den Dienst neu:

Terminal

sudo systemctl restart ollama

Ihr Linux-KI-Server ist jetzt von überall in Ihrem lokalen Netzwerk erreichbar!

Continue Reading

Performance

Ollama auf Linux ausführen: Der ultimative Leitfaden

Step 1 Einführung

Step 2 Voraussetzungen

Step 3 Installation

Step 4 Verwaltung des Dienstes

Step 5 Modelle herunterladen und ausführen

Step 6 Hardware-Grenzen

Step 7 Netzwerkzugriff

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference