Home chevron_right Windows Guides chevron_right Windows에서 Llama.cpp 사용하기: CUDA 가이드 Windows에서 Llama.cpp 사용하기: CUDA 가이드 laptop_mac macOS Sonoma Intermediate schedule 8 min read by Alex Rivera • May 14, 2024 최고의 성능, 완전한 제어권, 그리고 불필요한 소프트웨어 없이 사용하고 싶다면, NVIDIA CUDA 툴킷을 이용해 소스 코드에서 직접 llama.cpp를 컴파일하는 것이 유일한 방법입니다. Windows에서 이를 수행하는 정확한 방법을 소개합니다. Step 1 소개 llama.cpp는 거의 모든 로컬 AI 도구(Ollama 및 LM Studio 포함)를 구동하는 기반 C++ 엔진입니다. Windows 터미널에서 네이티브로 컴파일하고 실행함으로써, UI 오버헤드를 제거하고 VRAM 할당 플래그에 대한 완전한 제어권을 얻을 수 있습니다. Step 2 사전 준비 사항 Windows에서 CUDA 지원과 함께 C++ 코드를 컴파일하는 데 필요한 빌드 도구를 설치해야 합니다. Git for Windows를 설치합니다. CMake를 설치합니다 (PATH에 추가되었는지 확인하세요). Visual Studio Build Tools 2022를 설치합니다 ("C++를 사용한 데스크톱 개발" 선택). NVIDIA CUDA 툴킷을 설치합니다 (GPU 가속에 필요). Step 3 컴파일 Developer Command Prompt for VS 2022를 엽니다 (Windows 시작 메뉴에서 검색하세요). 저장소를 복제하고 NVIDIA GPU를 활용할 수 있도록 LLAMA_CUDA=ON 플래그를 사용하여 컴파일합니다. Terminalcontent_copyCopygit clone https://github.com/ggerganov/llama.cpp cd llama.cpp mkdir build cd build cmake .. -DLLAMA_CUDA=ON cmake --build . --config Release 컴파일이 완료되면 실행 파일은 build\bin\Release\에 위치하게 됩니다. Step 4 가중치 다운로드 .gguf 형식의 모델을 다운로드해야 합니다. 일반 PowerShell 창에서 huggingface-cli를 사용합니다. Terminalcontent_copyCopypip install -U huggingface_hub huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models Step 5 추론 실행 이제 모델과 대화해 보겠습니다. -ngl 99 플래그는 엔진에 모든 레이어를 NVIDIA GPU의 VRAM으로 오프로드하도록 지시합니다. Terminalcontent_copyCopy.\build\bin\Release\llama-cli.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -n 512 -ngl 99 --color -i -r "User:" -p "You are a helpful AI assistant. User: Hello! AI:" Step 6 로컬 서버 터미널에서 직접 OpenAI 호환 API 엔드포인트를 호스팅하려면 llama-server 실행 파일을 사용하세요: Terminalcontent_copyCopy.\build\bin\Release\llama-server.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080 고성능 CUDA 백엔드가 이제 http://127.0.0.1:8080에서 수신 대기 중입니다. Continue Reading Performance Mistral 7B vs Llama 3 on Apple Silicon Tools Best GUI clients for Local LLMs Advanced Quantization 101: Speed up your Inference