Linux에서 Ollama 실행하기: 완벽 가이드

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Linux는 머신 러닝의 본고장입니다. Ubuntu 또는 Debian에서 Ollama를 실행하면 절대적으로 낮은 레이턴시와 NVIDIA 및 AMD GPU에 대한 최상의 드라이버 통합을 제공받을 수 있습니다.

Step 1 소개

Ollama는 Linux용 원클릭 설치 스크립트를 제공합니다. 이 스크립트는 바이너리를 다운로드할 뿐만 아니라 systemd 백그라운드 서비스를 자동으로 구성합니다. 즉, 서버나 데스크탑을 부팅할 때 로컬 AI API가 자동으로 시작됩니다.

Step 2 사전 요구 사항

Ollama를 설치하기 전에 GPU 드라이버가 올바르게 설치되어 있는지 확인하십시오.

NVIDIA GPU의 경우:

Terminal

# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi  # Verify drivers are working

AMD GPU의 경우: Ollama는 ROCm 플랫폼을 통해 AMD 그래픽 카드를 지원합니다. 해당 배포판에 맞는 최신 amdgpu 드라이버가 설치되어 있는지 확인하십시오.

Step 3 설치

공식 설치 스크립트가 모든 작업을 처리합니다. 터미널에서 다음을 실행하십시오:

Terminal

curl -fsSL https://ollama.com/install.sh | sh

설치 중에 스크립트는 자동으로 NVIDIA 또는 AMD GPU를 감지하고 적절한 가속 라이브러리를 다운로드합니다.

Step 4 서비스 관리

Ollama는 데몬으로 실행됩니다. 표준 systemd 명령어를 사용하여 관리할 수 있습니다:

Terminal

# Check if Ollama is running
sudo systemctl status ollama

# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama

# View live server logs
journalctl -u ollama -f

Step 5 모델 풀링 및 실행

서비스가 활성화되면 첫 번째 모델을 풀링하고 채팅 인터페이스로 진입할 수 있습니다. Meta의 Llama 3를 사용해 보겠습니다:

Terminal

ollama run llama3

대화형 프롬프트를 종료하려면 /bye를 입력하거나 Ctrl + d를 누르십시오.

Step 6 하드웨어 한계

Linux는 OS 오버헤드가 매우 낮기 때문에 Windows에 비해 더 큰 모델을 VRAM에 수용할 수 있습니다.

VRAM 용량	최대 모델 크기	권장 모델
8GB	~8B 파라미터	Llama 3 (8B), Mistral (7B)
16GB	~14B 파라미터	Qwen 2.5 (14B), Command R
24GB	~30B 파라미터	Mixtral (8x7B)

VRAM을 초과할 경우, Ollama는 나머지 레이어를 시스템 RAM으로 자동 오프로드합니다. 단, 이 경우 생성 속도가 현저히 저하됩니다.

Step 7 네트워크 접근

기본적으로 Ollama는 127.0.0.1 (로컬호스트)에서만 수신 대기합니다. 헤드리스 서버에서 Linux를 실행 중이며 MacBook 또는 Windows PC에서 API에 접근하려는 경우, 로컬 네트워크 IP에 바인딩해야 합니다.

systemd 서비스를 편집하십시오:

Terminal

sudo systemctl edit ollama

다음 줄을 추가하십시오:

Terminal

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

서비스를 재시작하십시오:

Terminal

sudo systemctl restart ollama

이제 로컬 네트워크 어디서든 Linux AI 서버에 접근할 수 있습니다!

Continue Reading

Performance

Linux에서 Ollama 실행하기: 완벽 가이드

Step 1 소개

Step 2 사전 요구 사항

Step 3 설치

Step 4 서비스 관리

Step 5 모델 풀링 및 실행

Step 6 하드웨어 한계

Step 7 네트워크 접근

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference