로컬 모델 가속¶
Backend.AI GO는 여러 전문적인 추론 엔진을 활용하여 높은 성능을 제공합니다. 이 섹션에서는 각 엔진의 작동 방식과 여러분의 하드웨어에 가장 적합한 엔진이 무엇인지 설명합니다.
추론 스택 (Inference Stack)¶
모델을 로드하면 Backend.AI GO는 "사이드카(sidecar)" 프로세스를 시작합니다. 이는 해당 모델을 실행하기 위해 전용으로 돌아가는 백그라운드 서버입니다. 이러한 구조를 통해 안정성을 확보하고, 하드웨어에 맞춰 최적화된 서로 다른 기술들을 사용할 수 있습니다.
지원되는 엔진¶
llama.cpp (크로스 플랫폼)¶
크로스 플랫폼 지원의 핵심입니다. CPU 추론에 고도로 최적화되어 있으며, NVIDIA(CUDA), AMD(ROCm), Intel 등의 GPU 가속도 지원합니다.
- 형식:
.gguf - 권장 대상: Windows, Linux, Intel 기반 Mac 사용자.
MLX (macOS 네이티브)¶
Apple의 연구팀에서 개발한 Apple Silicon용 머신러닝 프레임워크입니다. M1/M2/M3/M4 칩에서 최고의 성능과 메모리 효율을 발휘합니다.
- 형식: MLX 호환 폴더 (보통 Hugging Face에서 전용 형식으로 다운로드 가능).
- 권장 대상: Apple Silicon Mac 사용자.
vLLM (고급 사용자용 / 준비 중)¶
엔터프라이즈급 GPU에 최적화된 높은 처리량의 서빙 엔진입니다. PagedAttention 기술을 사용하여 여러 요청을 동시에 빠르게 처리할 수 있습니다.
자동 하드웨어 감지¶
Backend.AI GO는 여러분의 하드웨어(CPU, GPU, RAM)를 자동으로 감지하여 가장 적절한 설정을 선택합니다. 앱 하단의 시스템 지표(System Metrics) 대시보드를 통해 실시간 자원 사용량을 확인할 수 있습니다.