Ejecuta Ollama en Linux: La Guía Definitiva

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux es el hogar nativo del aprendizaje automático. Ejecutar Ollama en Ubuntu o Debian te proporciona la latencia más baja posible y la mejor integración de controladores para GPUs NVIDIA y AMD.

Step 1 Introducción

Ollama proporciona un script de instalación con un solo clic para Linux que no solo descarga el binario, sino que también configura automáticamente un servicio en segundo plano mediante systemd. Esto significa que tu API de IA local se iniciará automáticamente al arrancar tu servidor o equipo de escritorio.

Step 2 Requisitos Previos

Antes de instalar Ollama, asegúrate de que los controladores de tu GPU estén correctamente instalados.

Para GPUs NVIDIA:

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

Para GPUs AMD: Ollama es compatible con tarjetas gráficas AMD a través de la plataforma ROCm. Asegúrate de tener instalados los controladores amdgpu más recientes para tu distribución específica.

Step 3 Instalación

El script de instalación oficial se encarga de todo. Ejecuta esto en tu terminal:

Terminal

curl -fsSL https://ollama.com/install.sh | sh

Durante la instalación, el script detectará automáticamente tu GPU NVIDIA o AMD y descargará las bibliotecas de aceleración correspondientes.

Step 4 Gestión del Servicio

Ollama se ejecuta como un demonio. Puedes gestionarlo mediante los comandos estándar de systemd:

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 5 Descarga y Ejecución de Modelos

Una vez que el servicio esté activo, puedes descargar tu primer modelo e ingresar a la interfaz de chat. Utilicemos Llama 3 de Meta:

Terminal

ollama run llama3

Para salir del prompt interactivo, escribe /bye o presiona Ctrl + d.

Step 6 Límites de Hardware

Dado que Linux tiene una sobrecarga del sistema operativo muy baja, puedes alojar modelos más grandes en tu VRAM en comparación con Windows.

Tu VRAM	Tamaño Máximo del Modelo	Modelos Recomendados
8GB	~8B parámetros	Llama 3 (8B), Mistral (7B)
16GB	~14B parámetros	Qwen 2.5 (14B), Command R
24GB	~30B parámetros	Mixtral (8x7B)

Si superas tu VRAM, Ollama transferirá de forma transparente las capas restantes a la RAM del sistema, aunque la velocidad de generación caerá de manera significativa.

Step 7 Acceso en Red

Por defecto, Ollama solo escucha en 127.0.0.1 (localhost). Si estás ejecutando Linux en un servidor sin cabeza (headless) y deseas acceder a la API desde tu MacBook o PC con Windows, necesitas vincularlo a la IP de tu red local.

Edita el servicio de systemd:

Terminal

sudo systemctl edit ollama

Agrega las siguientes líneas:

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Reinicia el servicio:

Terminal

sudo systemctl restart ollama

¡Tu servidor de IA con Linux ahora es accesible desde cualquier punto de tu red local!

Continue Reading

Performance

Ejecuta Ollama en Linux: La Guía Definitiva

Step 1 Introducción

Step 2 Requisitos Previos

Step 3 Instalación

Step 4 Gestión del Servicio

Step 5 Descarga y Ejecución de Modelos

Step 6 Límites de Hardware

Step 7 Acceso en Red

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference