laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux è la casa nativa del machine learning. Eseguire Ollama su Ubuntu o Debian offre la latenza assoluta più bassa e la migliore integrazione possibile dei driver per GPU NVIDIA e AMD.
Step 1 Introduzione
Ollama fornisce uno script di installazione con 1 clic per Linux che non solo scarica il binario, ma configura automaticamente un servizio in background systemd. Ciò significa che la tua API AI locale si avvierà automaticamente all'avvio del server o del desktop.
Step 2 Prerequisiti
Prima di installare Ollama, assicurati che i driver della tua GPU siano installati correttamente.
Per le GPU NVIDIA:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
Per le GPU AMD:
Ollama supporta le schede grafiche AMD tramite la piattaforma ROCm. Assicurati di avere i driver amdgpu più recenti installati per la tua distribuzione specifica.
Step 3 Installazione
Lo script di installazione ufficiale gestisce tutto per te. Eseguilo nel tuo terminale:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
Durante l'installazione, lo script rileverà automaticamente la tua GPU NVIDIA o AMD e scaricherà le librerie di accelerazione appropriate.
Step 4 Gestione del Servizio
Ollama viene eseguito come daemon. Puoi gestirlo utilizzando i comandi systemd standard:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 Scaricare ed Eseguire i Modelli
Una volta che il servizio è attivo, puoi scaricare il tuo primo modello e accedere all'interfaccia di chat. Utilizziamo Llama 3 di Meta:
Per uscire dal prompt interattivo, digita /bye o premi Ctrl + d.
Step 6 Limiti Hardware
Poiché Linux ha un overhead del sistema operativo molto basso, puoi adattare modelli più grandi nella tua VRAM rispetto a Windows.
| La tua VRAM |
Dimensione Massima del Modello |
Modelli Consigliati |
| 8GB |
~8B parametri |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B parametri |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B parametri |
Mixtral (8x7B) |
Se superi la tua VRAM, Ollama scaricherà automaticamente i layer rimanenti nella RAM di sistema, anche se la velocità di generazione diminuirà significativamente.
Step 7 Accesso alla Rete
Per impostazione predefinita, Ollama è in ascolto solo su 127.0.0.1 (localhost). Se stai eseguendo Linux su un server headless e vuoi accedere all'API dal tuo MacBook o PC Windows, devi associarlo all'IP della tua rete locale.
Modifica il servizio systemd:
Terminal
sudo systemctl edit ollama
Aggiungi le seguenti righe:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Riavvia il servizio:
Terminal
sudo systemctl restart ollama
Il tuo server AI Linux è ora accessibile da qualsiasi punto della tua rete locale!