2.8. 모델 설정 및 파라미터¶

Backend.AI GO는 모델 로딩 및 텍스트 생성 방식을 세밀하게 조정할 수 있는 다양한 설정 옵션을 제공합니다. 이 페이지에서는 사용 가능한 모든 설정을 상세히 설명합니다.

로딩 파라미터 (Loading Parameters)¶

모델을 메모리에 로드할 때 적용되는 설정입니다. 하드웨어 사용량과 모델의 기본 성능을 결정합니다.

하드웨어 가속¶

GPU 레이어: 모델의 몇 개의 레이어를 GPU로 오프로드할지 결정합니다.
- 최대: VRAM이 충분하다면 최상의 성능을 위해 권장됩니다.
- 일부: VRAM이 부족한 경우 사용합니다. 나머지는 CPU에서 실행됩니다.
- 0: 전체를 CPU에서 실행합니다 (느림).
메인 GPU: GPU가 여러 개인 경우, 주 연산 장치로 사용할 GPU를 선택합니다.
분할 모드: 다중 GPU 환경에서 모델을 여러 장치에 어떻게 분배할지 결정합니다 (예: Row Split, Layer Split).

메모리 및 컨텍스트¶

컨텍스트 길이: 모델이 한 대화에서 기억할 수 있는 최대 텍스트(토큰) 양입니다.
- 참고: 컨텍스트가 길수록 더 많은 VRAM/RAM을 사용합니다.
- 기본값: 모델에 따라 보통 2048 또는 4096입니다.
배치 크기: 프롬프트 평가 시 병렬로 처리할 토큰 수입니다. 값이 높으면 긴 프롬프트 처리 속도가 빨라지지만 VRAM 사용량이 늘어납니다.
Flash Attention: 메모리 효율적인 어텐션 메커니즘을 활성화합니다 (호환되는 하드웨어 필요).

성능¶

스레드: 추론에 사용할 CPU 스레드 수입니다 (GPU로 완전히 오프로드되지 않았을 때 중요).
NUMA 지원: 다중 소켓 CPU 시스템을 위한 최적화 옵션입니다.

생성 파라미터 (Generation Parameters)¶

채팅 중 "파라미터" 서랍에서 볼 수 있는 이 설정들은 모델 답변의 창의성과 행동을 제어합니다.

창의성 및 무작위성¶

온도: 출력의 무작위성을 제어합니다.
- 낮음 (0.1 - 0.5): 집중적, 결정론적, 논리적. 코딩이나 사실적 작업에 적합.
- 높음 (0.8 - 1.5): 창의적, 예측 불가능. 스토리텔링에 적합.
Top P (Nucleus Sampling): 확률이 높은 상위 토큰들의 집합 내에서만 다음 토큰을 선택하도록 제한합니다.
Top K: 확률이 가장 높은 K개의 토큰 중에서만 선택하도록 제한합니다.
Min P: 가장 확률이 높은 토큰 대비 최소 확률 임계값을 설정합니다.

반복 제어¶

반복 페널티: 이미 등장한 단어에 페널티를 부여하여 텍스트가 루프에 빠지는 것을 방지합니다.
존재 페널티: 토큰이 텍스트에 한 번이라도 등장했는지 여부에 따라 페널티를 줍니다.
빈도 페널티: 토큰이 등장한 횟수에 비례하여 페널티를 줍니다.

구조 제어¶

시스템 프롬프트: 모델의 페르소나와 제약 조건을 정의하는 상위 지침입니다 (예: "당신은 유능한 코딩 조수입니다").
중단 문자열: 모델이 생성을 즉시 멈추게 할 특정 텍스트 시퀀스입니다.
최대 토큰: 모델이 한 번의 응답에서 생성할 수 있는 최대 토큰 수 제한입니다.

추론 노력¶

확장 사고(추론 모델)를 지원하는 모델의 경우, 추론 깊이를 제어할 수 있습니다:

기본 추론 노력: 설정 > 추론에서 구성합니다. 옵션:
- 없음 (꺼짐): 확장 사고 없음
- 낮음 / 중간 / 높음 / 매우 높음: 점진적으로 깊은 추론
- 마지막 사용 값: 가장 최근에 사용한 설정을 기억하고 적용
세션별 재정의: 채팅 인터페이스에서 개별 세션의 추론 노력을 직접 조정할 수 있습니다.

기본 모델 (Default Models)¶

설정 > 기본 모델에서 각 인터페이스의 기본 모델을 구성합니다. 이를 통해 각 인터페이스를 열 때 선호하는 모델이 자동으로 선택됩니다.

사용 가능한 설정¶

채팅 기본 모델: 채팅 인터페이스를 열 때 미리 선택되는 모델입니다.
이미지 기본 모델: 이미지 생성 작업에 미리 선택되는 모델입니다.
에이전트 기본 모델: 에이전트 작업에 미리 선택되는 모델입니다.

모델 선택¶

다음 중에서 선택할 수 있습니다:

로컬 모델: 컴퓨터에 다운로드한 GGUF 모델 ("Local" 접두사로 표시)
클라우드 모델: OpenAI, Anthropic, Gemini 등 구성된 API 제공자의 모델 (제공자 이름 표시)

자동 로드 기능¶

기본값으로 설정된 로컬 모델 자동 로드: 활성화하면 기본값으로 설정된 로컬 모델이 해당 인터페이스를 열 때 자동으로 로드되어 시작됩니다.
항상 같은 모델을 사용하는 작업 흐름을 간소화하는 데 유용합니다.

디퓨전 모델 설정¶

모델 페이지에서 디퓨전(이미지 생성) 모델을 선택하고 설정을 열면 stable-diffusion.cpp(sd-server) 백엔드에 특화된 디퓨전 설정 드로어가 표시됩니다. 설정은 다섯 개의 탭으로 구성되어 있습니다.

개요 탭¶

선택한 모델에 대한 읽기 전용 정보를 표시합니다:

모델 이름, 파일 크기, 포맷, 아키텍처
디퓨전 타입 (SD 1.x, SD 2.x, SDXL, Flux 등)
퍼블리셔 및 리포지토리
파일 경로 (복사 버튼 포함)

컴포넌트 탭¶

메인 디퓨전 모델과 함께 사용되는 보조 모델 파일을 구성합니다. 일부 필드는 모델 아키텍처에 따라 표시됩니다:

VAE 모델: 고품질 디코딩을 위한 커스텀 Variational Autoencoder
CLIP-L 인코더: SDXL 및 Flux 모델용 텍스트 인코더
CLIP-G 인코더: SDXL 모델 전용 추가 텍스트 인코더
T5-XXL 인코더: Flux 모델 전용 텍스트 인코더
TAESD: 빠른(저품질) 미리보기 디코딩을 위한 초소형 오토인코더
ControlNet: 가이드 이미지 생성을 위한 모델
LoRA 디렉터리: LoRA 어댑터 파일이 포함된 디렉터리
임베딩 디렉터리: 텍스트 인버전 임베딩 파일이 포함된 디렉터리
업스케일 모델: 이미지 업스케일링을 위한 ESRGAN 모델

생성 기본값 탭¶

이미지 생성 요청의 기본값을 설정합니다:

너비 / 높이: 기본 이미지 크기 및 프리셋 버튼 (SD 1.x, SD 2.x, SDXL, Portrait, Landscape)
스텝: 디노이징 스텝 수 (1--150). 스텝이 많을수록 품질은 높아지지만 느려집니다.
CFG 스케일: Classifier-Free Guidance 스케일 (0--30). 텍스트 프롬프트에 대한 이미지의 충실도를 제어합니다.
가이던스: Flux 모델용 가이던스 값 (0--10)
샘플링 방법: 디노이징 알고리즘 (euler, euler_a, dpm++2m 등)
스케줄러: 노이즈 스케줄 타입 (discrete, karras, exponential 등)
CLIP 스킵: 건너뛸 CLIP 레이어 수 (-1 = 없음, 최대 12)
시드: 재현성을 위한 랜덤 시드 (-1 = 무작위)
배치 카운트: 한 번에 생성할 이미지 수 (1--8)
네거티브 프롬프트: 피해야 할 내용을 설명하는 기본 텍스트
강도: img2img 디노이징 강도 (0.0--1.0)

하드웨어 탭¶

추론 서버의 하드웨어 활용을 구성합니다:

스레드: 사용할 CPU 스레드 수 (-1 = 자동, 또는 1--64)
Flash Attention: 메모리 효율적 어텐션 활성화
디퓨전 Flash Attention: 디퓨전 레이어에만 적용되는 Flash Attention
VAE 타일링: VRAM 사용량을 줄이기 위해 VAE를 타일 단위로 처리
VAE 타일 크기 / 오버랩: 타일 크기와 겹침 비율
CPU 오프로드 옵션: 모델, CLIP, 또는 VAE를 CPU로 오프로드
메모리 매핑 (mmap): 메모리 매핑 파일 접근 사용
가중치 타입: 모델 가중치 정밀도 재정의 (f32, f16, q4_0 등)

고급 탭¶

특수 파라미터를 세밀하게 조정합니다:

RNG 타입: 난수 생성기 백엔드 (std_default, cuda, cpu)
Flow Shift: Flux/SD3 플로우 기반 모델의 시프트 값
LoRA 적용 모드: LoRA 가중치 적용 시점 (auto, immediately, at_runtime)
SLG 파라미터: Skip Layer Guidance 스케일, 시작 및 종료 지점
순환 패딩: 타일링 가능한 텍스처를 위한 원활한 타일링 활성화
예측 타입: 노이즈 예측 방법 (eps, v, edmv, sd3flow, fluxflow, flux2flow)

설정 변경 시 재시작 필요

컴포넌트, 하드웨어 및 고급 탭의 변경 사항은 모델을 언로드하고 다시 로드해야 적용됩니다. 생성 기본값은 요청마다 적용되므로 재시작이 필요 없습니다.