Windows에서 Ollama 네이티브로 실행하기

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

WSL 문제는 이제 그만. Ollama가 이제 독립 실행형 애플리케이션으로 Windows에서 네이티브로 실행됩니다. NVIDIA 또는 AMD 그래픽 카드를 자동으로 감지하고 즉시 로컬 AI 추론을 가속화합니다.

Step 1 소개

과거에는 Windows에서 로컬 LLM을 실행하려면 WSL(Windows Subsystem for Linux)을 설치하고 드라이버 패스스루 문제와 씨름해야 했습니다. 이제 Ollama는 DirectX와 CUDA에 직접 연결되는 네이티브 Windows .exe 파일을 제공합니다.

Step 2 설치

ollama.com/download로 이동합니다.
Windows를 클릭하고 .exe 설치 파일을 다운로드합니다.
설치 파일을 더블 클릭하여 실행합니다.

Ollama가 설치되면 시스템 트레이(작업 표시줄 오른쪽 하단 모서리)에 아이콘이 생성됩니다.

Step 3 첫 번째 모델 가져오기

새 PowerShell 또는 명령 프롬프트 창을 엽니다. Meta의 놀라운 성능을 자랑하는 80억 매개변수 모델을 가져와 보겠습니다.

Terminal

ollama run llama3

다음에 일어나는 일: - Ollama가 레지스트리에 연결합니다. - 약 4.7GB의 모델 가중치를 로컬 C:\Users\<YourUser>\.ollama 폴더에 다운로드합니다. - 대화형 채팅 프롬프트로 진입합니다.

이제 Write a python script to scrape a website라고 입력하면 PC가 즉시 코드를 생성하는 것을 확인할 수 있습니다.

Step 4 하드웨어 제한

Windows PC는 일반적으로 Mac의 통합 메모리와 달리 전용 GPU(VRAM)에 의존합니다. AI 모델을 빠르게 실행하려면 모델 전체가 VRAM 안에 들어맞아야 합니다.

VRAM 용량	최대 모델 크기	권장 모델
6GB ~ 8GB	~7B ~ 8B 매개변수	Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB ~ 16GB	~13B ~ 14B 매개변수	Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090)	~30B 매개변수	Mixtral (8x7B)

모델이 VRAM 용량을 초과하면 Ollama는 나머지 레이어를 훨씬 느린 시스템 RAM(CPU)으로 자동 오프로드합니다.

Step 5 GPU 가속

Ollama는 자동으로 하드웨어를 감지합니다. - NVIDIA 카드가 있는 경우 CUDA를 사용합니다. - AMD 카드가 있는 경우 ROCm을 사용합니다.

GPU 사용 여부를 확인하려면 작업 관리자(Ctrl + Shift + Esc)를 열고 성능 탭으로 이동한 후 GPU를 선택합니다. Ollama에 대용량 프롬프트를 전송하고 "전용 GPU 메모리"와 "3D" 연산 그래프가 100%로 급등하는 것을 확인합니다.

Step 6 로컬 API

Ollama는 백그라운드에서 로컬 API 서버를 자동으로 실행합니다. 이 엔드포인트를 VS Code 확장 프로그램이나 Python 스크립트에 연결할 수 있습니다.

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

이제 여러분의 Windows PC는 완전히 기능하는 프라이빗 AI 서버가 되었습니다!

Continue Reading

Performance