2.3. 모델 실행 및 채팅¶

모델을 다운로드했다면 이제 실제로 사용해 볼 차례입니다. Backend.AI GO는 우리에게 익숙하고 반응이 빠른 현대적인 채팅 인터페이스를 제공합니다.

모델 로드하기 (Loading)¶

모델 목록

채팅을 시작하려면 먼저 디스크에 있는 모델 파일을 컴퓨터의 메모리(RAM 또는 VRAM)로 "로드"해야 합니다.

모델 탭으로 이동합니다.
다운로드한 모델들이 카드 형태로 표시됩니다.
사용하려는 모델 카드의 로드 버튼을 클릭합니다.
고급 설정: 로드하기 전에 카드에 있는 설정 아이콘을 클릭하여 컨텍스트 길이, GPU 오프로딩 등의 파라미터를 조정할 수 있습니다.
- 모든 설정 옵션에 대한 자세한 설명은 모델 설정 및 파라미터 페이지를 참조하세요.
진행 표시줄을 확인하세요. 표시줄이 초록색으로 변하고 "Loaded"라고 표시되면 준비가 완료된 것입니다!

모델 구조 보기¶

각 모델 카드에는 모델의 내부 아키텍처를 상세히 보여주는 모델 구조 뷰어가 포함되어 있습니다. 모델 카드의 구조 아이콘을 클릭하면 모달이 열립니다.

개요¶

모델 구조 개요

개요 섹션에는 다음 정보가 표시됩니다:

모델 개요: 아키텍처 유형 (예: GEMMA3N), 텐서 수, 레이어 수.
양자화: 압축 방식 (예: Q4KM), 압축 비율, 원본 대비 양자화 비트 수, 품질 대 크기 트레이드오프 시각화.
차원: 임베딩 크기, 어휘 크기, 컨텍스트 길이를 비례 막대로 표시.

모델 플로우 및 레이어 스택¶

모델 플로우 및 레이어 스택

모델 플로우 섹션에서는 다음을 시각화합니다:

모델 플로우: 입력 토큰에서 임베딩, 트랜스포머 레이어, 출력, 어휘까지의 데이터 파이프라인.
레이어 스택: 입력 임베딩, 개별 트랜스포머 레이어, 출력 헤드를 포함한 레이어 계층 구조.
KV 캐시: 컨텍스트 용량, 예상 KV 캐시 크기, 메모리 추정 상세 (레이어당 크기, 헤드 차원, 정밀도).

트랜스포머 레이어 상세¶

트랜스포머 레이어 및 어텐션 상세

트랜스포머 레이어를 클릭하면 다음이 표시됩니다:

멀티헤드 어텐션: Q/V 헤드 수, KV 헤드 수, 헤드 차원, GQA 비율.
그룹 쿼리 어텐션 (GQA): 쿼리 헤드가 어떻게 그룹화되어 KV 헤드를 공유하는지를 시각적 다이어그램으로 보여주어, 모델의 어텐션 효율성을 이해하는 데 도움을 줍니다.

위치 인코딩 및 정규화¶

위치 인코딩 및 정규화

이 섹션에서는 모델의 위치 인코딩 및 정규화 파라미터를 보여줍니다:

위치 인코딩 (RoPE): Rotary Position Embedding의 동작 원리를 설명하며, 위치 기반 회전 시각화와 주파수 스펙트럼을 표시합니다.
정규화: 레이어 정규화에 사용되는 RMS 엡실론 값.

채팅 인터페이스¶

사이드바의 채팅 아이콘을 클릭하여 메인 화면으로 들어갑니다.

대화 관리¶

새 대화: 사이드바의 "+" 버튼을 클릭하여 새로운 대화를 시작합니다.
히스토리: 이전 대화들은 사이드바에 자동으로 저장되어 언제든 다시 볼 수 있습니다.
검색: 사이드바 상단의 검색창을 사용하여 과거 대화 내용을 키워드로 찾을 수 있습니다.

주요 기능¶

마크다운 지원: 모델의 답변에서 굵은 글씨, 목록, 표 등이 깔끔하게 표시됩니다.
코드 하이라이팅: 프로그래밍 코드는 가독성 좋게 표시되며 "복사" 버튼을 제공합니다.
LaTeX 지원: 수학 공식이 깔끔하게 렌더링됩니다.
사고 블록: DeepSeek와 같은 추론 모델들이 내부적으로 생각하는 과정을 보여줄 때, Backend.AI GO는 이를 별도의 접이식 블록으로 표시해 줍니다.

채팅 파라미터 이해하기¶

채팅 화면 우측 상단의 설정(톱니바퀴) 아이콘을 클릭하여 모델의 반응 방식을 미세 조정할 수 있습니다:

온도: "창의성"을 조절합니다. 낮을수록(0.1) 일관되고 예측 가능하며, 높을수록(0.8+) 더 창의적이고 무작위적인 답변을 내놓습니다.
Top P: 무작위성을 제어하는 또 다른 방법입니다.
반복 페널티: 모델이 같은 말을 반복하는 현상을 방지합니다.
시스템 프롬프트: 모델에게 "성격"이나 특정 지침을 부여합니다 (예: "당신은 코딩 전문가입니다" 또는 "해적처럼 말하세요").

헤더의 모델 상태 표시¶

모델이 로드되면 헤더에 모델 상태 표시기가 나타나며 다음 정보를 보여줍니다:

모델 이름: 현재 로드된 모델의 표시 이름
메모리 사용량: 모델이 사용 중인 RAM/VRAM 용량 (예: "2.3 GB")
컨텍스트 사용량: 컨텍스트 토큰 사용량을 시각적 막대로 표시 (예: "0/8K")

빠른 작업 팝오버¶

상태 표시기를 클릭하면 상세 팝오버가 열리며 다음 정보를 제공합니다:

전체 모델 경로: 디스크에서 모델 파일의 위치
메모리 상세: 시스템 전체 메모리 대비 사용량을 진행 막대로 표시
컨텍스트 상세: 토큰 사용량과 백분율
로드 시간: 모델이 로드된 시점 (상대 시간, 예: "2시간 전")
가동 시간: 모델이 실행된 시간
모델 언로드: 모델 탭으로 이동하지 않고 빠르게 리소스 해제
모델 설정: 모델 설정으로 바로 이동

이 기능을 통해 애플리케이션 어디에서든 로드된 모델을 편리하게 모니터링하고 관리할 수 있습니다.

모델 언로드¶

사용을 마쳤거나 다른 모델로 바꾸고 싶을 때:

다시 모델 탭으로 이동합니다.
언로드 버튼을 클릭합니다.
또는 헤더의 모델 상태를 클릭하고 팝오버에서 모델 언로드를 선택합니다.

이렇게 하면 다른 작업을 위해 시스템의 RAM/VRAM 자원을 반환하게 됩니다.

일괄 작업¶

모델이 많을 경우, Backend.AI GO는 여러 모델을 한 번에 관리할 수 있는 일괄 작업 기능을 제공합니다.

모델 관리

선택 모드 진입¶

모델 탭으로 이동합니다.
페이지 헤더의 선택 버튼을 클릭하여 선택 모드로 진입합니다.
모델 카드에 선택을 위한 체크박스가 표시됩니다.

모델 선택¶

모델 카드를 클릭하여 선택을 토글합니다.
Shift+클릭으로 모델 범위를 선택합니다 (마지막으로 선택한 모델부터 클릭한 모델까지).
Cmd/Ctrl+클릭 (macOS/Windows/Linux)으로 개별 모델 선택을 토글합니다.
모두 선택을 사용하여 표시된 모든 모델을 선택합니다.
선택 해제를 사용하여 선택을 취소합니다.

일괄 삭제¶

삭제할 모델을 선택합니다.
하단의 플로팅 작업 바에서 삭제 버튼을 클릭합니다.
삭제할 모델 목록이 표시된 확인 대화상자가 나타납니다.
삭제를 클릭하여 확인합니다. 진행률 표시줄이 삭제 상태를 보여줍니다.
삭제에 실패한 항목이 있으면 오류 요약이 표시됩니다.

선택 모드 종료¶

선택 종료를 클릭하거나 Escape 키를 눌러 선택 모드를 종료하고 일반 보기로 돌아갑니다.

모델 패키지 내보내기 및 가져오기¶

Backend.AI GO는 모델을 모든 메타데이터와 함께 내보내고 가져올 수 있는 휴대용 .baimodel 패키지 형식을 지원합니다. 이 기능은 다음과 같은 경우에 유용합니다:

컴퓨터 간 모델 전송
동료와 모델 공유
설정과 함께 모델 백업

모델 내보내기¶

모델 탭으로 이동합니다.
내보내려는 모델을 찾습니다.
마우스 오른쪽 버튼을 클릭(또는 터치 기기에서 길게 누르기)하여 컨텍스트 메뉴를 엽니다.
패키지로 내보내기를 선택합니다.
내보내기 대화상자에서:
- 모델 정보와 파일 크기를 확인합니다.
- 비전 모델의 경우, 선택적으로 mmproj(멀티모달 프로젝터) 파일을 포함할 수 있습니다.
- .baimodel 패키지의 저장 위치를 선택합니다.
내보내기를 클릭하여 시작합니다. 진행률 표시줄이 패키징 상태를 보여줍니다.

내보낸 패키지에는 다음이 포함됩니다:

원본 형식의 모델 파일
모델 메타데이터가 포함된 패키지 매니페스트
무결성 검증을 위한 SHA256 체크섬

패키지 가져오기¶

모델 탭으로 이동합니다.
헤더의 패키지 가져오기 버튼을 클릭합니다.
가져오려는 .baimodel 파일을 선택합니다.
가져오기 대화상자에 다음이 표시됩니다:
- 패키지 검증 상태
- 모델 정보 (이름, 형식, 크기)
- 경고 또는 오류 사항
가져오기를 클릭하여 패키지를 추출합니다.
모델이 모델 디렉토리에 배치되고 모델 목록에 나타납니다.

패키지 기능¶

무결성 검증: 내보내기 시 SHA256 체크섬이 계산되고 가져오기 시 검증되어 데이터 무결성을 보장합니다.
보안 검사: 패키지는 경로 탐색 공격, 심볼릭 링크, ZIP 폭탄 시도에 대해 검증됩니다.
진행률 추적: 내보내기와 가져오기 작업 모두 단계, 속도, 예상 남은 시간을 포함한 상세 진행률을 표시합니다.
원자적 작업: 내보내기는 실패 시 부분 패키지가 생성되지 않도록 원자적 파일 쓰기를 사용합니다.