Windows에서 Llama.cpp 사용하기: CUDA 가이드

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

최고의 성능, 완전한 제어권, 그리고 불필요한 소프트웨어 없이 사용하고 싶다면, NVIDIA CUDA 툴킷을 이용해 소스 코드에서 직접 llama.cpp를 컴파일하는 것이 유일한 방법입니다. Windows에서 이를 수행하는 정확한 방법을 소개합니다.

Step 1 소개

llama.cpp는 거의 모든 로컬 AI 도구(Ollama 및 LM Studio 포함)를 구동하는 기반 C++ 엔진입니다. Windows 터미널에서 네이티브로 컴파일하고 실행함으로써, UI 오버헤드를 제거하고 VRAM 할당 플래그에 대한 완전한 제어권을 얻을 수 있습니다.

Step 2 사전 준비 사항

Windows에서 CUDA 지원과 함께 C++ 코드를 컴파일하는 데 필요한 빌드 도구를 설치해야 합니다.

Git for Windows를 설치합니다.
CMake를 설치합니다 (PATH에 추가되었는지 확인하세요).
Visual Studio Build Tools 2022를 설치합니다 ("C++를 사용한 데스크톱 개발" 선택).
NVIDIA CUDA 툴킷을 설치합니다 (GPU 가속에 필요).

Step 3 컴파일

Developer Command Prompt for VS 2022를 엽니다 (Windows 시작 메뉴에서 검색하세요).

저장소를 복제하고 NVIDIA GPU를 활용할 수 있도록 LLAMA_CUDA=ON 플래그를 사용하여 컴파일합니다.

Terminal

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release

컴파일이 완료되면 실행 파일은 build\bin\Release\에 위치하게 됩니다.

Step 4 가중치 다운로드

.gguf 형식의 모델을 다운로드해야 합니다. 일반 PowerShell 창에서 huggingface-cli를 사용합니다.

Terminal

pip install -U huggingface_hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 추론 실행

이제 모델과 대화해 보겠습니다. -ngl 99 플래그는 엔진에 모든 레이어를 NVIDIA GPU의 VRAM으로 오프로드하도록 지시합니다.

Terminal

.\build\bin\Release\llama-cli.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -n 512 -ngl 99 --color -i -r "User:" -p "You are a helpful AI assistant.

User: Hello!
AI:"

Step 6 로컬 서버

터미널에서 직접 OpenAI 호환 API 엔드포인트를 호스팅하려면 llama-server 실행 파일을 사용하세요:

Terminal

.\build\bin\Release\llama-server.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

고성능 CUDA 백엔드가 이제 http://127.0.0.1:8080에서 수신 대기 중입니다.

Continue Reading

Performance

Mistral 7B vs Llama 3 on Apple Silicon

Tools

Best GUI clients for Local LLMs

Advanced

Step 1 소개

Step 2 사전 준비 사항

Step 3 컴파일

Step 4 가중치 다운로드

Step 5 추론 실행

Step 6 로컬 서버

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference