8.3. 벤치마킹 (Benchmarking)¶
Backend.AI GO는 llama-bench 기반의 강력한 벤치마킹 도구를 내장하고 있습니다. 이를 통해 하드웨어 성능을 객관적으로 측정하고, 다양한 모델이나 양자화 수준 간의 효율성을 비교할 수 있습니다.
왜 벤치마킹을 하나요?¶
-
하드웨어 점검: GPU 가속(Metal/CUDA)이 제대로 작동하고 있는지 확인합니다.
-
모델 선택: 내 컴퓨터에서 속도와 품질의 균형이 가장 좋은 양자화 수준(예: Q4 vs Q8)을 결정합니다.
-
성능 추적: 드라이버 업데이트나 하드웨어 업그레이드 후 성능 변화를 모니터링합니다.
벤치마크 실행하기¶
모델 탭으로 이동하여 모델을 선택한 후, 벤치마크 아이콘(속도계 모양)을 클릭하여 도구를 엽니다.
1. 빠른 테스트 (Quick Test)¶

즉각적인 피드백을 위해 짧은 표준 테스트를 수행합니다.
-
설정: 기본값 사용 (예: 프롬프트 512 토큰, 생성 128 토큰).
-
용도: 모델이 사용 가능한 속도로 돌아가는지 빠르게 확인.
2. 전체 테스트 (Full Suite - 고급)¶

종합적인 스트레스 테스트를 위해 상세 파라미터를 설정할 수 있습니다.
| 파라미터 | 설명 | 권장 값 |
|---|---|---|
| 프롬프트 토큰 (PP) | 모델이 "읽어야" 하는 텍스트의 양입니다. | 512, 1024, 4096 |
| 생성 토큰 (TG) | 모델이 "생성해야" 하는 텍스트의 양입니다. | 128, 256 |
| 배치 크기 (Batch Size) | 한 번에 병렬 처리할 시퀀스 수입니다. | 1 (채팅용), 512+ (일괄 처리용) |
| 반복 횟수 (Repetitions) | 통계적 정확성을 위해 테스트를 반복할 횟수입니다. | 5회 이상 |
| GPU 레이어 | GPU로 오프로드할 레이어 수입니다. | -1 (전체) 권장 |
결과 해석하기¶
벤치마크는 몇 가지 핵심 지표를 제공합니다.
주요 지표¶
| 지표 | 전체 이름 | 의미 | 적정 범위 (예시) |
|---|---|---|---|
| TPS | Tokens Per Second | 모델의 전반적인 속도입니다. 높을수록 좋습니다. | > 10 t/s (읽기 편함) > 50 t/s (빠름) |
| PP 속도 | Prompt Processing | 모델이 입력을 "읽는" 속도입니다. 긴 문서 요약이나 RAG에 중요합니다. | > 100 t/s (M1) > 1000 t/s (RTX 4090) |
| TG 속도 | Text Generation | 모델이 답변을 "쓰는" 속도입니다. 채팅 체감 속도를 결정합니다. | > 20 t/s 이상이면 쾌적합니다. |
기대 성능 가이드¶
하드웨어와 모델 크기(파라미터)에 따라 성능은 크게 달라집니다.
| 하드웨어 | 모델 크기 | 예상 TG 속도 |
|---|---|---|
| Apple M5 | 1.7B (Q4) | ~100 t/s |
| Apple M4 | 1.7B (Q4) | ~75 t/s |
| Apple M5 | 32B (Q4) | ~0.62 t/s |
| NVIDIA RTX 5090 | 70B (Q4) | ~45 t/s |
| Apple M4 Max | 7B (Q4) | ~110 t/s |
| NVIDIA RTX 4090 | 70B (Q4) | ~25 t/s |
| NVIDIA RTX 3060 | 7B (Q4) | ~50 t/s |
| CPU Only (최신) | 7B (Q4) | ~2-5 t/s (매우 느림) |
* 참고: 위 수치는 참조를 위한 예시일 뿐이며, 세부 하드웨어 구성, 백그라운드 프로세스 및 발열 상태에 따라 실제 성능은 크게 다를 수 있습니다.
비교 및 기록¶
Backend.AI GO는 벤치마크 실행 기록을 자동으로 저장합니다.
-
기록 탭: 과거 결과를 확인하여 성능 추이를 추적할 수 있습니다.
-
비교: 여러 실행 기록을 선택하여 표와 차트로 나란히 비교할 수 있습니다. 모델 크기와 속도 사이의 트레이드오프를 시각화하는 데 최적입니다.
3. 하드웨어 프로필 (Hardware Profile)¶

다양한 설정을 테스트하여 최적의 하드웨어 구성을 찾습니다. 다음 항목을 설정할 수 있습니다:
-
스레드 수: 다양한 CPU 스레드 수(1, 2, 4, 8, 16)로 테스트하여 최적의 값을 찾습니다.
-
GPU 레이어 %: GPU로 오프로드하는 모델 레이어 비율(0%, 25%, 50%, 75%, 100%)을 다양하게 테스트합니다.
-
Flash Attention: Flash Attention을 켜고 끄며 성능에 미치는 영향을 비교합니다.
시작 전에 예상 소요 시간이 표시되므로, 이를 참고하여 계획을 세울 수 있습니다.
모델 비교 마법사¶
모델 비교 마법사는 동일한 테스트 조건에서 여러 모델을 비교할 수 있는 단계별 가이드 워크플로우를 제공합니다.
사용 방법¶
-
마법사 열기: 벤치마크 섹션으로 이동하여 모델 비교 버튼을 클릭해 마법사를 실행합니다.
-
1단계 - 모델 선택: 비교할 모델 2~4개를 선택합니다. 사양 미리보기 테이블에서 선택한 모델의 주요 정보(파일 크기, 양자화, 컨텍스트 길이)를 확인할 수 있습니다.
-
2단계 - 매개변수 설정: 모든 선택된 모델에 동일하게 적용될 테스트 매개변수를 설정합니다:
- 컨텍스트 크기: 프롬프트 토큰 수 (256~4096)
- 생성 길이: 생성할 토큰 수 (32~256)
- 반복 횟수: 통계적 정확성을 위한 테스트 실행 횟수 (1~5)
-
3단계 - 결과 확인: 비교 실행 후 다음을 포함한 나란히 비교 결과를 확인합니다:
- 사양 테이블: 파일 크기, 양자화, 형식 및 성능 지표 (PP/TG 속도)
- 성능 차트: 프롬프트 처리 및 텍스트 생성 속도를 비교하는 막대 그래프
- 최고 성능 표시: 각 지표에서 가장 빠른 모델이 강조 표시됩니다
비교 결과 이해하기¶
| 지표 | 설명 |
|---|---|
| PP 속도 | 초당 프롬프트 처리 토큰 수. 긴 입력에서 높을수록 좋습니다. |
| TG 속도 | 초당 텍스트 생성 토큰 수. 높을수록 부드러운 채팅 경험을 제공합니다. |
| GPU 레이어 | GPU로 오프로드된 레이어 수. "전체"는 완전한 GPU 가속을 의미합니다. |
| 백엔드 | 사용된 추론 백엔드 (예: Metal, CUDA, CPU). |
마법사는 각 지표에서 가장 성능이 좋은 모델을 자동으로 강조 표시하여 사용 목적에 맞는 최적의 선택을 쉽게 식별할 수 있도록 합니다.
접근성¶
벤치마크 차트는 모든 사용자를 위한 접근성 기능을 포함합니다:
- 보기 전환: 우측 상단의 토글을 사용하여 차트 보기와 테이블 보기 간 전환
- 테이블 보기: 스크린 리더와 호환되는 테이블 형식으로 벤치마크 데이터 확인
- ARIA 레이블: 모든 차트에 스크린 리더용 설명 레이블 포함
- 패턴: 색맹 사용자를 위해 색상 외에 고유한 패턴(줄무늬, 점 등)으로 데이터 시리즈 구분
- 고대비 모드: 시스템 고대비 모드 활성화 시 향상된 가시성 제공