콘텐츠로 이동

벤치마킹 (Benchmarking)

Backend.AI GO는 llama-bench 기반의 강력한 벤치마킹 도구를 내장하고 있습니다. 이를 통해 하드웨어 성능을 객관적으로 측정하고, 다양한 모델이나 양자화 수준 간의 효율성을 비교할 수 있습니다.

왜 벤치마킹을 하나요?

  • 하드웨어 점검: GPU 가속(Metal/CUDA)이 제대로 작동하고 있는지 확인합니다.

  • 모델 선택: 내 컴퓨터에서 속도와 품질의 균형이 가장 좋은 양자화 수준(예: Q4 vs Q8)을 결정합니다.

  • 성능 추적: 드라이버 업데이트나 하드웨어 업그레이드 후 성능 변화를 모니터링합니다.

벤치마크 실행하기

모델(Models) 탭으로 이동하여 모델을 선택한 후, 벤치마크 아이콘(속도계 모양)을 클릭하여 도구를 엽니다.

1. 빠른 테스트 (Quick Test)

즉각적인 피드백을 위해 짧은 표준 테스트를 수행합니다.

  • 설정: 기본값 사용 (예: 프롬프트 512 토큰, 생성 128 토큰).

  • 용도: 모델이 사용 가능한 속도로 돌아가는지 빠르게 확인.

2. 전체 테스트 (Full Suite - 고급)

종합적인 스트레스 테스트를 위해 상세 파라미터를 설정할 수 있습니다.

파라미터 설명 권장 값
프롬프트 토큰 (PP) 모델이 "읽어야" 하는 텍스트의 양입니다. 512, 1024, 4096
생성 토큰 (TG) 모델이 "생성해야" 하는 텍스트의 양입니다. 128, 256
배치 크기 (Batch Size) 한 번에 병렬 처리할 시퀀스 수입니다. 1 (채팅용), 512+ (일괄 처리용)
반복 횟수 (Repetitions) 통계적 정확성을 위해 테스트를 반복할 횟수입니다. 5회 이상
GPU 레이어 GPU로 오프로드할 레이어 수입니다. -1 (전체) 권장

결과 해석하기

벤치마크는 몇 가지 핵심 지표를 제공합니다.

주요 지표

지표 전체 이름 의미 적정 범위 (예시)
TPS Tokens Per Second 모델의 전반적인 속도입니다. 높을수록 좋습니다. > 10 t/s (읽기 편함)
> 50 t/s (빠름)
PP 속도 Prompt Processing 모델이 입력을 "읽는" 속도입니다. 긴 문서 요약이나 RAG에 중요합니다. > 100 t/s (M1)
> 1000 t/s (RTX 4090)
TG 속도 Text Generation 모델이 답변을 "쓰는" 속도입니다. 채팅 체감 속도를 결정합니다. > 20 t/s 이상이면 쾌적합니다.

기대 성능 가이드

하드웨어와 모델 크기(파라미터)에 따라 성능은 크게 달라집니다.

하드웨어 모델 크기 예상 TG 속도
Apple M5 1.7B (Q4) ~100 t/s
Apple M4 1.7B (Q4) ~75 t/s
Apple M5 32B (Q4) ~0.62 t/s
NVIDIA RTX 5090 70B (Q4) ~45 t/s
Apple M4 Max 7B (Q4) ~110 t/s
NVIDIA RTX 4090 70B (Q4) ~25 t/s
NVIDIA RTX 3060 7B (Q4) ~50 t/s
CPU Only (최신) 7B (Q4) ~2-5 t/s (매우 느림)

* 참고: 위 수치는 참조를 위한 예시일 뿐이며, 세부 하드웨어 구성, 백그라운드 프로세스 및 발열 상태에 따라 실제 성능은 크게 다를 수 있습니다.

비교 및 기록

Backend.AI GO는 벤치마크 실행 기록을 자동으로 저장합니다.

  • 기록 탭 (History): 과거 결과를 확인하여 성능 추이를 추적할 수 있습니다.

  • 비교 (Comparison): 여러 실행 기록을 선택하여 표와 차트로 나란히 비교할 수 있습니다. 모델 크기와 속도 사이의 트레이드오프를 시각화하는 데 최적입니다.