Eseguire Ollama su Linux: La Guida Definitiva

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux è la casa nativa del machine learning. Eseguire Ollama su Ubuntu o Debian offre la latenza assoluta più bassa e la migliore integrazione possibile dei driver per GPU NVIDIA e AMD.

Step 1 Introduzione

Ollama fornisce uno script di installazione con 1 clic per Linux che non solo scarica il binario, ma configura automaticamente un servizio in background systemd. Ciò significa che la tua API AI locale si avvierà automaticamente all'avvio del server o del desktop.

Step 2 Prerequisiti

Prima di installare Ollama, assicurati che i driver della tua GPU siano installati correttamente.

Per le GPU NVIDIA:

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

Per le GPU AMD: Ollama supporta le schede grafiche AMD tramite la piattaforma ROCm. Assicurati di avere i driver amdgpu più recenti installati per la tua distribuzione specifica.

Step 3 Installazione

Lo script di installazione ufficiale gestisce tutto per te. Eseguilo nel tuo terminale:

Terminal

curl -fsSL https://ollama.com/install.sh | sh

Durante l'installazione, lo script rileverà automaticamente la tua GPU NVIDIA o AMD e scaricherà le librerie di accelerazione appropriate.

Step 4 Gestione del Servizio

Ollama viene eseguito come daemon. Puoi gestirlo utilizzando i comandi systemd standard:

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 5 Scaricare ed Eseguire i Modelli

Una volta che il servizio è attivo, puoi scaricare il tuo primo modello e accedere all'interfaccia di chat. Utilizziamo Llama 3 di Meta:

Terminal

ollama run llama3

Per uscire dal prompt interattivo, digita /bye o premi Ctrl + d.

Step 6 Limiti Hardware

Poiché Linux ha un overhead del sistema operativo molto basso, puoi adattare modelli più grandi nella tua VRAM rispetto a Windows.

La tua VRAM	Dimensione Massima del Modello	Modelli Consigliati
8GB	~8B parametri	Llama 3 (8B), Mistral (7B)
16GB	~14B parametri	Qwen 2.5 (14B), Command R
24GB	~30B parametri	Mixtral (8x7B)

Se superi la tua VRAM, Ollama scaricherà automaticamente i layer rimanenti nella RAM di sistema, anche se la velocità di generazione diminuirà significativamente.

Step 7 Accesso alla Rete

Per impostazione predefinita, Ollama è in ascolto solo su 127.0.0.1 (localhost). Se stai eseguendo Linux su un server headless e vuoi accedere all'API dal tuo MacBook o PC Windows, devi associarlo all'IP della tua rete locale.

Modifica il servizio systemd:

Terminal

sudo systemctl edit ollama

Aggiungi le seguenti righe:

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Riavvia il servizio:

Terminal

sudo systemctl restart ollama

Il tuo server AI Linux è ora accessibile da qualsiasi punto della tua rete locale!

Continue Reading

Performance

Eseguire Ollama su Linux: La Guida Definitiva

Step 1 Introduzione

Step 2 Prerequisiti

Step 3 Installazione

Step 4 Gestione del Servizio

Step 5 Scaricare ed Eseguire i Modelli

Step 6 Limiti Hardware

Step 7 Accesso alla Rete

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference