laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux es el hogar nativo del aprendizaje automático. Ejecutar Ollama en Ubuntu o Debian te proporciona la latencia más baja posible y la mejor integración de controladores para GPUs NVIDIA y AMD.
Step 1 Introducción
Ollama proporciona un script de instalación con un solo clic para Linux que no solo descarga el binario, sino que también configura automáticamente un servicio en segundo plano mediante systemd. Esto significa que tu API de IA local se iniciará automáticamente al arrancar tu servidor o equipo de escritorio.
Step 2 Requisitos Previos
Antes de instalar Ollama, asegúrate de que los controladores de tu GPU estén correctamente instalados.
Para GPUs NVIDIA:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
Para GPUs AMD:
Ollama es compatible con tarjetas gráficas AMD a través de la plataforma ROCm. Asegúrate de tener instalados los controladores amdgpu más recientes para tu distribución específica.
Step 3 Instalación
El script de instalación oficial se encarga de todo. Ejecuta esto en tu terminal:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
Durante la instalación, el script detectará automáticamente tu GPU NVIDIA o AMD y descargará las bibliotecas de aceleración correspondientes.
Step 4 Gestión del Servicio
Ollama se ejecuta como un demonio. Puedes gestionarlo mediante los comandos estándar de systemd:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 Descarga y Ejecución de Modelos
Una vez que el servicio esté activo, puedes descargar tu primer modelo e ingresar a la interfaz de chat. Utilicemos Llama 3 de Meta:
Para salir del prompt interactivo, escribe /bye o presiona Ctrl + d.
Step 6 Límites de Hardware
Dado que Linux tiene una sobrecarga del sistema operativo muy baja, puedes alojar modelos más grandes en tu VRAM en comparación con Windows.
| Tu VRAM |
Tamaño Máximo del Modelo |
Modelos Recomendados |
| 8GB |
~8B parámetros |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B parámetros |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B parámetros |
Mixtral (8x7B) |
Si superas tu VRAM, Ollama transferirá de forma transparente las capas restantes a la RAM del sistema, aunque la velocidad de generación caerá de manera significativa.
Step 7 Acceso en Red
Por defecto, Ollama solo escucha en 127.0.0.1 (localhost). Si estás ejecutando Linux en un servidor sin cabeza (headless) y deseas acceder a la API desde tu MacBook o PC con Windows, necesitas vincularlo a la IP de tu red local.
Edita el servicio de systemd:
Terminal
sudo systemctl edit ollama
Agrega las siguientes líneas:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Reinicia el servicio:
Terminal
sudo systemctl restart ollama
¡Tu servidor de IA con Linux ahora es accesible desde cualquier punto de tu red local!