콘텐츠로 이동

모델 설정 및 파라미터

Backend.AI GO는 모델 로딩 및 텍스트 생성 방식을 세밀하게 조정할 수 있는 다양한 설정 옵션을 제공합니다. 이 페이지에서는 사용 가능한 모든 설정을 상세히 설명합니다.

로딩 파라미터 (Loading Parameters)

모델을 메모리에 로드할 때 적용되는 설정입니다. 하드웨어 사용량과 모델의 기본 성능을 결정합니다.

하드웨어 가속

  • GPU 레이어 (GPU Layers): 모델의 몇 개의 레이어를 GPU로 오프로드할지 결정합니다.
    • 최대 (All): VRAM이 충분하다면 최상의 성능을 위해 권장됩니다.
    • 일부 (Partial): VRAM이 부족한 경우 사용합니다. 나머지는 CPU에서 실행됩니다.
    • 0: 전체를 CPU에서 실행합니다 (느림).
  • 메인 GPU (Main GPU): GPU가 여러 개인 경우, 주 연산 장치로 사용할 GPU를 선택합니다.
  • 분할 모드 (Split Mode): 다중 GPU 환경에서 모델을 여러 장치에 어떻게 분배할지 결정합니다 (예: Row Split, Layer Split).

메모리 및 컨텍스트

  • 컨텍스트 길이 (Context Length): 모델이 한 대화에서 기억할 수 있는 최대 텍스트(토큰) 양입니다.
    • 참고: 컨텍스트가 길수록 더 많은 VRAM/RAM을 사용합니다.
    • 기본값: 모델에 따라 보통 2048 또는 4096입니다.
  • 배치 크기 (Batch Size): 프롬프트 평가 시 병렬로 처리할 토큰 수입니다. 값이 높으면 긴 프롬프트 처리 속도가 빨라지지만 VRAM 사용량이 늘어납니다.
  • Flash Attention: 메모리 효율적인 어텐션 메커니즘을 활성화합니다 (호환되는 하드웨어 필요).

성능

  • 스레드 (Threads): 추론에 사용할 CPU 스레드 수입니다 (GPU로 완전히 오프로드되지 않았을 때 중요).
  • NUMA 지원: 다중 소켓 CPU 시스템을 위한 최적화 옵션입니다.

생성 파라미터 (Generation Parameters)

채팅 중 "파라미터" 서랍에서 볼 수 있는 이 설정들은 모델 답변의 창의성과 행동을 제어합니다.

창의성 및 무작위성

  • 온도 (Temperature): 출력의 무작위성을 제어합니다.
    • 낮음 (0.1 - 0.5): 집중적, 결정론적, 논리적. 코딩이나 사실적 작업에 적합.
    • 높음 (0.8 - 1.5): 창의적, 예측 불가능. 스토리텔링에 적합.
  • Top P (Nucleus Sampling): 확률이 높은 상위 토큰들의 집합 내에서만 다음 토큰을 선택하도록 제한합니다.
  • Top K: 확률이 가장 높은 K개의 토큰 중에서만 선택하도록 제한합니다.
  • Min P: 가장 확률이 높은 토큰 대비 최소 확률 임계값을 설정합니다.

반복 제어

  • 반복 페널티 (Repeat Penalty): 이미 등장한 단어에 페널티를 부여하여 텍스트가 루프에 빠지는 것을 방지합니다.
  • 존재 페널티 (Presence Penalty): 토큰이 텍스트에 한 번이라도 등장했는지 여부에 따라 페널티를 줍니다.
  • 빈도 페널티 (Frequency Penalty): 토큰이 등장한 횟수에 비례하여 페널티를 줍니다.

구조 제어

  • 시스템 프롬프트 (System Prompt): 모델의 페르소나와 제약 조건을 정의하는 상위 지침입니다 (예: "당신은 유능한 코딩 조수입니다").
  • 중단 문자열 (Stop Strings): 모델이 생성을 즉시 멈추게 할 특정 텍스트 시퀀스입니다.
  • 최대 토큰 (Max Tokens): 모델이 한 번의 응답에서 생성할 수 있는 최대 토큰 수 제한입니다.

추론 노력 (Reasoning Effort)

확장 사고(추론 모델)를 지원하는 모델의 경우, 추론 깊이를 제어할 수 있습니다:

  • 기본 추론 노력: 설정 > 추론에서 구성합니다. 옵션:

    • 없음 (꺼짐): 확장 사고 없음
    • 낮음 / 중간 / 높음 / 매우 높음: 점진적으로 깊은 추론
    • 마지막 사용 값: 가장 최근에 사용한 설정을 기억하고 적용
  • 세션별 재정의: 채팅 인터페이스에서 개별 세션의 추론 노력을 직접 조정할 수 있습니다.