벤치마킹 (Benchmarking)¶
Backend.AI GO는 llama-bench 기반의 강력한 벤치마킹 도구를 내장하고 있습니다. 이를 통해 하드웨어 성능을 객관적으로 측정하고, 다양한 모델이나 양자화 수준 간의 효율성을 비교할 수 있습니다.
왜 벤치마킹을 하나요?¶
-
하드웨어 점검: GPU 가속(Metal/CUDA)이 제대로 작동하고 있는지 확인합니다.
-
모델 선택: 내 컴퓨터에서 속도와 품질의 균형이 가장 좋은 양자화 수준(예: Q4 vs Q8)을 결정합니다.
-
성능 추적: 드라이버 업데이트나 하드웨어 업그레이드 후 성능 변화를 모니터링합니다.
벤치마크 실행하기¶
모델(Models) 탭으로 이동하여 모델을 선택한 후, 벤치마크 아이콘(속도계 모양)을 클릭하여 도구를 엽니다.
1. 빠른 테스트 (Quick Test)¶
즉각적인 피드백을 위해 짧은 표준 테스트를 수행합니다.
-
설정: 기본값 사용 (예: 프롬프트 512 토큰, 생성 128 토큰).
-
용도: 모델이 사용 가능한 속도로 돌아가는지 빠르게 확인.
2. 전체 테스트 (Full Suite - 고급)¶
종합적인 스트레스 테스트를 위해 상세 파라미터를 설정할 수 있습니다.
| 파라미터 | 설명 | 권장 값 |
|---|---|---|
| 프롬프트 토큰 (PP) | 모델이 "읽어야" 하는 텍스트의 양입니다. | 512, 1024, 4096 |
| 생성 토큰 (TG) | 모델이 "생성해야" 하는 텍스트의 양입니다. | 128, 256 |
| 배치 크기 (Batch Size) | 한 번에 병렬 처리할 시퀀스 수입니다. | 1 (채팅용), 512+ (일괄 처리용) |
| 반복 횟수 (Repetitions) | 통계적 정확성을 위해 테스트를 반복할 횟수입니다. | 5회 이상 |
| GPU 레이어 | GPU로 오프로드할 레이어 수입니다. | -1 (전체) 권장 |
결과 해석하기¶
벤치마크는 몇 가지 핵심 지표를 제공합니다.
주요 지표¶
| 지표 | 전체 이름 | 의미 | 적정 범위 (예시) |
|---|---|---|---|
| TPS | Tokens Per Second | 모델의 전반적인 속도입니다. 높을수록 좋습니다. | > 10 t/s (읽기 편함) > 50 t/s (빠름) |
| PP 속도 | Prompt Processing | 모델이 입력을 "읽는" 속도입니다. 긴 문서 요약이나 RAG에 중요합니다. | > 100 t/s (M1) > 1000 t/s (RTX 4090) |
| TG 속도 | Text Generation | 모델이 답변을 "쓰는" 속도입니다. 채팅 체감 속도를 결정합니다. | > 20 t/s 이상이면 쾌적합니다. |
기대 성능 가이드¶
하드웨어와 모델 크기(파라미터)에 따라 성능은 크게 달라집니다.
| 하드웨어 | 모델 크기 | 예상 TG 속도 |
|---|---|---|
| Apple M5 | 1.7B (Q4) | ~100 t/s |
| Apple M4 | 1.7B (Q4) | ~75 t/s |
| Apple M5 | 32B (Q4) | ~0.62 t/s |
| NVIDIA RTX 5090 | 70B (Q4) | ~45 t/s |
| Apple M4 Max | 7B (Q4) | ~110 t/s |
| NVIDIA RTX 4090 | 70B (Q4) | ~25 t/s |
| NVIDIA RTX 3060 | 7B (Q4) | ~50 t/s |
| CPU Only (최신) | 7B (Q4) | ~2-5 t/s (매우 느림) |
* 참고: 위 수치는 참조를 위한 예시일 뿐이며, 세부 하드웨어 구성, 백그라운드 프로세스 및 발열 상태에 따라 실제 성능은 크게 다를 수 있습니다.
비교 및 기록¶
Backend.AI GO는 벤치마크 실행 기록을 자동으로 저장합니다.
-
기록 탭 (History): 과거 결과를 확인하여 성능 추이를 추적할 수 있습니다.
-
비교 (Comparison): 여러 실행 기록을 선택하여 표와 차트로 나란히 비교할 수 있습니다. 모델 크기와 속도 사이의 트레이드오프를 시각화하는 데 최적입니다.