Execute o Ollama no Linux: O Guia Definitivo

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux é o lar nativo do aprendizado de máquina. Executar o Ollama no Ubuntu ou Debian oferece a latência absolutamente mais baixa e a melhor integração possível de drivers para GPUs NVIDIA e AMD.

Step 1 Introdução

O Ollama fornece um script de instalação com 1 clique para Linux que não apenas baixa o binário, mas também configura automaticamente um serviço em segundo plano via systemd. Isso significa que sua API de IA local iniciará automaticamente quando você reiniciar seu servidor ou desktop.

Step 2 Pré-requisitos

Antes de instalar o Ollama, certifique-se de que os drivers da sua GPU estejam instalados corretamente.

Para GPUs NVIDIA:

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

Para GPUs AMD: O Ollama oferece suporte a placas gráficas AMD por meio da plataforma ROCm. Certifique-se de ter os drivers amdgpu mais recentes instalados para sua distribuição específica.

Step 3 Instalação

O script de instalação oficial cuida de tudo para você. Execute isso no seu terminal:

Terminal

curl -fsSL https://ollama.com/install.sh | sh

Durante a instalação, o script detectará automaticamente sua GPU NVIDIA ou AMD e baixará as bibliotecas de aceleração apropriadas.

Step 4 Gerenciando o Serviço

O Ollama é executado como um daemon. Você pode gerenciá-lo usando os comandos padrão do systemd:

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 5 Baixando e Executando Modelos

Assim que o serviço estiver ativo, você pode baixar seu primeiro modelo e entrar na interface de chat. Vamos usar o Llama 3 da Meta:

Terminal

ollama run llama3

Para sair do prompt interativo, digite /bye ou pressione Ctrl + d.

Step 6 Limites de Hardware

Como o Linux tem uma sobrecarga de sistema operacional muito baixa, você consegue utilizar modelos maiores na sua VRAM em comparação ao Windows.

Sua VRAM	Tamanho Máximo do Modelo	Modelos Recomendados
8GB	~8B parâmetros	Llama 3 (8B), Mistral (7B)
16GB	~14B parâmetros	Qwen 2.5 (14B), Command R
24GB	~30B parâmetros	Mixtral (8x7B)

Se você exceder sua VRAM, o Ollama descarregará graciosamente as camadas restantes para a RAM do sistema, embora a velocidade de geração caia significativamente.

Step 7 Acesso à Rede

Por padrão, o Ollama escuta apenas em 127.0.0.1 (localhost). Se você estiver executando o Linux em um servidor headless e quiser acessar a API a partir do seu MacBook ou PC com Windows, precisará vinculá-lo ao IP da sua rede local.

Edite o serviço do systemd:

Terminal

sudo systemctl edit ollama

Adicione as seguintes linhas:

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Reinicie o serviço:

Terminal

sudo systemctl restart ollama

Seu servidor de IA com Linux agora está acessível de qualquer lugar na sua rede local!

Continue Reading

Performance

Execute o Ollama no Linux: O Guia Definitivo

Step 1 Introdução

Step 2 Pré-requisitos

Step 3 Instalação

Step 4 Gerenciando o Serviço

Step 5 Baixando e Executando Modelos

Step 6 Limites de Hardware

Step 7 Acesso à Rede

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference