콘텐츠로 이동

8.3. 벤치마킹 (Benchmarking)

Backend.AI GO는 llama-bench 기반의 강력한 벤치마킹 도구를 내장하고 있습니다. 이를 통해 하드웨어 성능을 객관적으로 측정하고, 다양한 모델이나 양자화 수준 간의 효율성을 비교할 수 있습니다.

왜 벤치마킹을 하나요?

  • 하드웨어 점검: GPU 가속(Metal/CUDA)이 제대로 작동하고 있는지 확인합니다.

  • 모델 선택: 내 컴퓨터에서 속도와 품질의 균형이 가장 좋은 양자화 수준(예: Q4 vs Q8)을 결정합니다.

  • 성능 추적: 드라이버 업데이트나 하드웨어 업그레이드 후 성능 변화를 모니터링합니다.

벤치마크 실행하기

모델 탭으로 이동하여 모델을 선택한 후, 벤치마크 아이콘(속도계 모양)을 클릭하여 도구를 엽니다.

1. 빠른 테스트 (Quick Test)

빠른 벤치마크 테스트 빠른 벤치마크 테스트

즉각적인 피드백을 위해 짧은 표준 테스트를 수행합니다.

  • 설정: 기본값 사용 (예: 프롬프트 512 토큰, 생성 128 토큰).

  • 용도: 모델이 사용 가능한 속도로 돌아가는지 빠르게 확인.

2. 전체 테스트 (Full Suite - 고급)

전체 벤치마크 테스트 전체 벤치마크 테스트

종합적인 스트레스 테스트를 위해 상세 파라미터를 설정할 수 있습니다.

파라미터 설명 권장 값
프롬프트 토큰 (PP) 모델이 "읽어야" 하는 텍스트의 양입니다. 512, 1024, 4096
생성 토큰 (TG) 모델이 "생성해야" 하는 텍스트의 양입니다. 128, 256
배치 크기 (Batch Size) 한 번에 병렬 처리할 시퀀스 수입니다. 1 (채팅용), 512+ (일괄 처리용)
반복 횟수 (Repetitions) 통계적 정확성을 위해 테스트를 반복할 횟수입니다. 5회 이상
GPU 레이어 GPU로 오프로드할 레이어 수입니다. -1 (전체) 권장

결과 해석하기

벤치마크는 몇 가지 핵심 지표를 제공합니다.

주요 지표

지표 전체 이름 의미 적정 범위 (예시)
TPS Tokens Per Second 모델의 전반적인 속도입니다. 높을수록 좋습니다. > 10 t/s (읽기 편함)
> 50 t/s (빠름)
PP 속도 Prompt Processing 모델이 입력을 "읽는" 속도입니다. 긴 문서 요약이나 RAG에 중요합니다. > 100 t/s (M1)
> 1000 t/s (RTX 4090)
TG 속도 Text Generation 모델이 답변을 "쓰는" 속도입니다. 채팅 체감 속도를 결정합니다. > 20 t/s 이상이면 쾌적합니다.

기대 성능 가이드

하드웨어와 모델 크기(파라미터)에 따라 성능은 크게 달라집니다.

하드웨어 모델 크기 예상 TG 속도
Apple M5 1.7B (Q4) ~100 t/s
Apple M4 1.7B (Q4) ~75 t/s
Apple M5 32B (Q4) ~0.62 t/s
NVIDIA RTX 5090 70B (Q4) ~45 t/s
Apple M4 Max 7B (Q4) ~110 t/s
NVIDIA RTX 4090 70B (Q4) ~25 t/s
NVIDIA RTX 3060 7B (Q4) ~50 t/s
CPU Only (최신) 7B (Q4) ~2-5 t/s (매우 느림)

* 참고: 위 수치는 참조를 위한 예시일 뿐이며, 세부 하드웨어 구성, 백그라운드 프로세스 및 발열 상태에 따라 실제 성능은 크게 다를 수 있습니다.

비교 및 기록

Backend.AI GO는 벤치마크 실행 기록을 자동으로 저장합니다.

  • 기록 탭: 과거 결과를 확인하여 성능 추이를 추적할 수 있습니다.

  • 비교: 여러 실행 기록을 선택하여 표와 차트로 나란히 비교할 수 있습니다. 모델 크기와 속도 사이의 트레이드오프를 시각화하는 데 최적입니다.

3. 하드웨어 프로필 (Hardware Profile)

하드웨어 프로필 벤치마크 하드웨어 프로필 벤치마크

다양한 설정을 테스트하여 최적의 하드웨어 구성을 찾습니다. 다음 항목을 설정할 수 있습니다:

  • 스레드 수: 다양한 CPU 스레드 수(1, 2, 4, 8, 16)로 테스트하여 최적의 값을 찾습니다.

  • GPU 레이어 %: GPU로 오프로드하는 모델 레이어 비율(0%, 25%, 50%, 75%, 100%)을 다양하게 테스트합니다.

  • Flash Attention: Flash Attention을 켜고 끄며 성능에 미치는 영향을 비교합니다.

시작 전에 예상 소요 시간이 표시되므로, 이를 참고하여 계획을 세울 수 있습니다.

모델 비교 마법사

모델 비교 마법사는 동일한 테스트 조건에서 여러 모델을 비교할 수 있는 단계별 가이드 워크플로우를 제공합니다.

사용 방법

  1. 마법사 열기: 벤치마크 섹션으로 이동하여 모델 비교 버튼을 클릭해 마법사를 실행합니다.

  2. 1단계 - 모델 선택: 비교할 모델 2~4개를 선택합니다. 사양 미리보기 테이블에서 선택한 모델의 주요 정보(파일 크기, 양자화, 컨텍스트 길이)를 확인할 수 있습니다.

  3. 2단계 - 매개변수 설정: 모든 선택된 모델에 동일하게 적용될 테스트 매개변수를 설정합니다:

    • 컨텍스트 크기: 프롬프트 토큰 수 (256~4096)
    • 생성 길이: 생성할 토큰 수 (32~256)
    • 반복 횟수: 통계적 정확성을 위한 테스트 실행 횟수 (1~5)
  4. 3단계 - 결과 확인: 비교 실행 후 다음을 포함한 나란히 비교 결과를 확인합니다:

    • 사양 테이블: 파일 크기, 양자화, 형식 및 성능 지표 (PP/TG 속도)
    • 성능 차트: 프롬프트 처리 및 텍스트 생성 속도를 비교하는 막대 그래프
    • 최고 성능 표시: 각 지표에서 가장 빠른 모델이 강조 표시됩니다

비교 결과 이해하기

지표 설명
PP 속도 초당 프롬프트 처리 토큰 수. 긴 입력에서 높을수록 좋습니다.
TG 속도 초당 텍스트 생성 토큰 수. 높을수록 부드러운 채팅 경험을 제공합니다.
GPU 레이어 GPU로 오프로드된 레이어 수. "전체"는 완전한 GPU 가속을 의미합니다.
백엔드 사용된 추론 백엔드 (예: Metal, CUDA, CPU).

마법사는 각 지표에서 가장 성능이 좋은 모델을 자동으로 강조 표시하여 사용 목적에 맞는 최적의 선택을 쉽게 식별할 수 있도록 합니다.

접근성

벤치마크 차트는 모든 사용자를 위한 접근성 기능을 포함합니다:

  • 보기 전환: 우측 상단의 토글을 사용하여 차트 보기와 테이블 보기 간 전환
  • 테이블 보기: 스크린 리더와 호환되는 테이블 형식으로 벤치마크 데이터 확인
  • ARIA 레이블: 모든 차트에 스크린 리더용 설명 레이블 포함
  • 패턴: 색맹 사용자를 위해 색상 외에 고유한 패턴(줄무늬, 점 등)으로 데이터 시리즈 구분
  • 고대비 모드: 시스템 고대비 모드 활성화 시 향상된 가시성 제공