8.3. 벤치마킹 (Benchmarking)¶

Backend.AI GO는 llama-bench 기반의 강력한 벤치마킹 도구를 내장하고 있습니다. 이를 통해 하드웨어 성능을 객관적으로 측정하고, 다양한 모델이나 양자화 수준 간의 효율성을 비교할 수 있습니다.

왜 벤치마킹을 하나요?¶

모델 탭으로 이동하여 모델을 선택한 후, 벤치마크 아이콘(속도계 모양)을 클릭하여 도구를 엽니다.

빠른 벤치마크 테스트

즉각적인 피드백을 위해 짧은 표준 테스트를 수행합니다.

전체 벤치마크 테스트

종합적인 스트레스 테스트를 위해 상세 파라미터를 설정할 수 있습니다.

벤치마크는 몇 가지 핵심 지표를 제공합니다.

지표	전체 이름	의미	적정 범위 (예시)
TPS	Tokens Per Second	모델의 전반적인 속도입니다. 높을수록 좋습니다.	> 10 t/s (읽기 편함) > 50 t/s (빠름)
PP 속도	Prompt Processing	모델이 입력을 "읽는" 속도입니다. 긴 문서 요약이나 RAG에 중요합니다.	> 100 t/s (M1) > 1000 t/s (RTX 4090)
TG 속도	Text Generation	모델이 답변을 "쓰는" 속도입니다. 채팅 체감 속도를 결정합니다.	> 20 t/s 이상이면 쾌적합니다.

하드웨어와 모델 크기(파라미터)에 따라 성능은 크게 달라집니다.

* 참고: 위 수치는 참조를 위한 예시일 뿐이며, 세부 하드웨어 구성, 백그라운드 프로세스 및 발열 상태에 따라 실제 성능은 크게 다를 수 있습니다.

Backend.AI GO는 벤치마크 실행 기록을 자동으로 저장합니다.

하드웨어 프로필 벤치마크

다양한 설정을 테스트하여 최적의 하드웨어 구성을 찾습니다. 다음 항목을 설정할 수 있습니다:

시작 전에 예상 소요 시간이 표시되므로, 이를 참고하여 계획을 세울 수 있습니다.

모델 비교 마법사는 동일한 테스트 조건에서 여러 모델을 비교할 수 있는 단계별 가이드 워크플로우를 제공합니다.

마법사 열기: 벤치마크 섹션으로 이동하여 모델 비교 버튼을 클릭해 마법사를 실행합니다.
1단계 - 모델 선택: 비교할 모델 2~4개를 선택합니다. 사양 미리보기 테이블에서 선택한 모델의 주요 정보(파일 크기, 양자화, 컨텍스트 길이)를 확인할 수 있습니다.
2단계 - 매개변수 설정: 모든 선택된 모델에 동일하게 적용될 테스트 매개변수를 설정합니다:
- 컨텍스트 크기: 프롬프트 토큰 수 (256~4096)
- 생성 길이: 생성할 토큰 수 (32~256)
- 반복 횟수: 통계적 정확성을 위한 테스트 실행 횟수 (1~5)
3단계 - 결과 확인: 비교 실행 후 다음을 포함한 나란히 비교 결과를 확인합니다:
- 사양 테이블: 파일 크기, 양자화, 형식 및 성능 지표 (PP/TG 속도)
- 성능 차트: 프롬프트 처리 및 텍스트 생성 속도를 비교하는 막대 그래프
- 최고 성능 표시: 각 지표에서 가장 빠른 모델이 강조 표시됩니다

지표	설명
PP 속도	초당 프롬프트 처리 토큰 수. 긴 입력에서 높을수록 좋습니다.
TG 속도	초당 텍스트 생성 토큰 수. 높을수록 부드러운 채팅 경험을 제공합니다.
GPU 레이어	GPU로 오프로드된 레이어 수. "전체"는 완전한 GPU 가속을 의미합니다.
백엔드	사용된 추론 백엔드 (예: Metal, CUDA, CPU).

마법사는 각 지표에서 가장 성능이 좋은 모델을 자동으로 강조 표시하여 사용 목적에 맞는 최적의 선택을 쉽게 식별할 수 있도록 합니다.

벤치마크 차트는 모든 사용자를 위한 접근성 기능을 포함합니다: