모델 실행 및 채팅¶
모델을 다운로드했다면 이제 실제로 사용해 볼 차례입니다. Backend.AI GO는 우리에게 익숙하고 반응이 빠른 현대적인 채팅 인터페이스를 제공합니다.
모델 로드하기 (Loading)¶
채팅을 시작하려면 먼저 디스크에 있는 모델 파일을 컴퓨터의 메모리(RAM 또는 VRAM)로 "로드"해야 합니다.
- 모델(Models) 탭으로 이동합니다.
- 다운로드한 모델들이 카드 형태로 표시됩니다.
- 사용하려는 모델 카드의 로드(Load) 버튼을 클릭합니다.
- 고급 설정: 로드하기 전에 카드에 있는 설정 아이콘을 클릭하여 컨텍스트 길이, GPU 오프로딩 등의 파라미터를 조정할 수 있습니다.
- 모든 설정 옵션에 대한 자세한 설명은 모델 설정 및 파라미터 페이지를 참조하세요.
- 진행 표시줄을 확인하세요. 표시줄이 초록색으로 변하고 "Loaded"라고 표시되면 준비가 완료된 것입니다!
채팅 인터페이스¶
사이드바의 채팅(Chat) 아이콘을 클릭하여 메인 화면으로 들어갑니다.
대화 관리¶
- 새 대화: 사이드바의 "+" 버튼을 클릭하여 새로운 대화를 시작합니다.
- 히스토리: 이전 대화들은 사이드바에 자동으로 저장되어 언제든 다시 볼 수 있습니다.
- 검색: 사이드바 상단의 검색창을 사용하여 과거 대화 내용을 키워드로 찾을 수 있습니다.
주요 기능¶
- 마크다운 지원: 모델의 답변에서 굵은 글씨, 목록, 표 등이 깔끔하게 표시됩니다.
- 코드 하이라이팅: 프로그래밍 코드는 가독성 좋게 표시되며 "복사" 버튼을 제공합니다.
- LaTeX 지원: 수학 공식이 깔끔하게 렌더링됩니다.
- 사고 블록(Thinking Blocks): DeepSeek와 같은 추론 모델들이 내부적으로 생각하는 과정을 보여줄 때, Backend.AI GO는 이를 별도의 접이식 블록으로 표시해 줍니다.
채팅 파라미터 이해하기¶
채팅 화면 우측 상단의 설정(톱니바퀴) 아이콘을 클릭하여 모델의 반응 방식을 미세 조정할 수 있습니다:
- 온도(Temperature): "창의성"을 조절합니다. 낮을수록(0.1) 일관되고 예측 가능하며, 높을수록(0.8+) 더 창의적이고 무작위적인 답변을 내놓습니다.
- Top P: 무작위성을 제어하는 또 다른 방법입니다.
- 반복 페널티(Repeat Penalty): 모델이 같은 말을 반복하는 현상을 방지합니다.
- 시스템 프롬프트: 모델에게 "성격"이나 특정 지침을 부여합니다 (예: "당신은 코딩 전문가입니다" 또는 "해적처럼 말하세요").
모델 언로드(Unload)¶
사용을 마쳤거나 다른 모델로 바꾸고 싶을 때: 1. 다시 모델(Models) 탭으로 이동합니다. 2. 언로드(Unload) 버튼을 클릭합니다. 3. 이렇게 하면 다른 작업을 위해 시스템의 RAM/VRAM 자원을 반환하게 됩니다.