콘텐츠로 이동

자주 묻는 질문 (FAQ)

1. 일반

Backend.AI GO는 무엇인가요?

Backend.AI GO는 고성능 AI 모델(LLM)을 여러분의 개인 컴퓨터에서 로컬로 실행할 수 있게 해주는 데스크톱 애플리케이션입니다. 클라우드 서비스에 의존하지 않고 채팅, 모델 관리, 에이전트 기능을 제공합니다.

완전히 무료인가요?

네. 애플리케이션 자체는 무료이며 오픈 소스(Apache 2.0)입니다. 로컬 모델을 다운로드하고 실행하는 것 또한 무료입니다. OpenAI나 Anthropic 같은 유료 클라우드 서비스를 연결하여 사용할 때만 해당 서비스 업체에 비용을 지불하면 됩니다.

인터넷 연결이 꼭 필요한가요?

모델을 다운로드하거나 클라우드 통합 기능을 사용할 때만 필요합니다. 일단 모델을 다운로드하면, 오프라인 상태에서도 완전히 자유롭게 대화할 수 있습니다.

제 데이터는 안전한가요? (프라이버시)

네. 로컬 모델(Gemma 3, Qwen3 등)을 사용할 때, 대화 내용과 문서는 절대 컴퓨터 밖으로 나가지 않습니다. 모든 처리는 사용자의 CPU와 GPU 내에서만 이루어집니다.

예외: 클라우드 통합

"클라우드 통합" 기능(예: GPT-5.2 또는 Claude 4.5와 대화하기)을 명시적으로 사용하는 경우에만, 프롬프트와 첨부된 문서가 처리를 위해 해당 공급자의 API로 전송됩니다.

상업적 용도로 사용할 수 있나요?

, Backend.AI GO 애플리케이션 자체에 대해서는 가능합니다. 하지만 각 AI 모델은 저마다의 라이선스(예: Llama 3 커뮤니티 라이선스, Apache 2.0 등)를 가지고 있습니다. 사용하려는 특정 모델의 라이선스를 Hugging Face에서 꼭 확인해 주세요.

로그인이 필요한가요?

아니요. Backend.AI GO는 계정 등록 없이 로컬에서 바로 작동합니다.

모바일 앱도 있나요?

현재는 데스크톱(Windows, macOS, Linux) 전용 애플리케이션입니다.

2. 설치 및 업데이트

지원하는 운영체제는 무엇인가요?

  • Windows: Windows 10 (1809 버전 이상) 및 Windows 11 (64비트).
  • macOS: macOS 13 (Ventura) 이상 (Apple Silicon 필수).
  • Linux: Ubuntu 22.04+ 및 주요 배포판 (AppImage/Debian).

자동 업데이트를 지원하나요?

네, 앱 시작 시 업데이트를 확인하고 새 버전이 있으면 알림을 보냅니다.

설치 경로를 변경할 수 있나요?

Windows 설치 시 경로를 선택할 수 있으며, macOS는 앱을 원하는 폴더로 이동하면 됩니다.

리눅스에서 권한 문제가 발생해요.

AppImage를 사용하는 경우 실행 권한을 부여해야 합니다: chmod +x Backend.AI-GO.AppImage.

백신 프로그램이 바이러스로 오진해요.

새로운 오픈 소스 소프트웨어에서 종종 발생하는 일입니다. 저희 빌드는 서명되어 있지만, 일부 엄격한 보안 프로그램이 차단할 수 있습니다. 예외 처리를 하거나 백신 업체에 오진 신고를 해주시면 됩니다.

제거(Uninstall)는 어떻게 하나요?

  • Windows: "프로그램 추가/제거" 메뉴를 이용하세요.
  • macOS: 앱을 휴지통으로 드래그하세요.
  • Linux: AppImage 파일을 삭제하세요.

주의: 앱을 삭제해도 다운로드한 모델이나 대화 기록은 유지됩니다. 완전히 지우려면 데이터 폴더를 수동으로 삭제해야 합니다.

3. 하드웨어 및 성능

최소 사양은 어떻게 되나요?

  • RAM: 8GB (7B Q4 같은 작은 모델용). 16GB 이상을 권장합니다.
  • 저장공간: 모델 저장을 위해 최소 20GB 이상의 여유 공간.
  • 운영체제: macOS 13 (Ventura) 이상 (Apple Silicon 필수), Windows 10/11, 또는 Linux.

권장하는 그래픽 카드는 무엇인가요?

NVIDIA GPU (RTX 5090, DGX Spark 이상) 또는 AMD AI Max 395+ (Strix Halo) APU 사용을 강력히 권장합니다. VRAM이 많을수록(128GB+) 더 큰 모델을 돌릴 수 있습니다.

AMD 그래픽 카드도 지원하나요?

네. Linux에서는 ROCm을 완벽 지원합니다. Windows에서는 Vulkan을 통해 지원하지만, NVIDIA/CUDA 환경이 더 원활합니다.

Apple Silicon (M1-M5) 성능은 어떤가요?

매우 훌륭합니다. Backend.AI GO는 MLXMetal을 사용하여 Mac에서 최상의 효율을 냅니다. M3 Max나 M4 Pro 칩은 고성능 데스크톱 GPU에 버금가는 추론 속도를 보여줍니다.

왜 AI 답변 속도가 느린가요?

로컬 추론 속도는 하드웨어 성능에 크게 좌우됩니다.

  • PC: 일반 CPU만으로 실행하면 속도가 느릴 수 있습니다 (초당 2~5 토큰). GPU 사용을 권장합니다.
  • : 더 작은 모델(예: 4B/8B)이나 더 많이 양자화된 버전(Q4_K_M)을 사용해 보세요.

70B, 100B+, 200B+ 모델도 돌릴 수 있나요?

RAM/VRAM이 충분하다면 가능합니다.

  • Mac: 48GB 이상의 통합 메모리를 가진 M 시리즈 Mac이 이상적입니다. Qwen3-235b-a22b와 같은 거대 모델을 위해서는 128GB 이상의 RAM이 필요할 수 있습니다.
  • PC: 약 40GB 이상의 VRAM(예: RTX Pro 6000, DGX Spark, 또는 RTX 5090 2장)이 필요합니다. 또는 128GB 통합 메모리를 갖춘 AMD AI Max 395+ 시스템을 사용하면 70B는 물론 Solar-Open-100B, gpt-oss-120B, 그리고 235B급 모델도 쉽게 구동할 수 있습니다.

노트북 배터리가 너무 빨리 닳아요.

AI 추론은 연산량이 많은 작업입니다. 장시간 사용 시에는 전원을 연결하는 것이 좋습니다.

팬 소음이 너무 심해요.

정상입니다. AI가 CPU/GPU를 많이 사용하므로 시스템 냉각을 위해 팬이 빠르게 돌아갑니다.

4. 모델 관리

어떤 모델을 받아야 하나요? (초보자 추천)

최상의 경험을 위해 용도와 하드웨어 사양에 맞는 모델을 선택하는 것을 추천합니다:

  • 일반 용도: Qwen3-8B-Instruct 또는 Gemma 3-4B-Instruct.
  • 코딩: Qwen3-Coder-7B (동급 최강의 성능) 또는 Codestral-22B (80개 이상의 언어에 최적화).
  • 속도 중시 (저사양): Qwen3-4B 또는 Gemma 3-4B.
  • 고성능 (거대 모델): gpt-oss-120B, Solar-Open-100B, 또는 Qwen3-235b-a22b. 이 모델들은 높은 VRAM(32GB+)이나 128GB 이상의 RAM을 요구합니다.
  • 전문가/기업용: GLM-4.7 또는 Kimi K2 1T. 이러한 초거대 모델들은 Backend.AI 클러스터에 연결하여 사용하는 것이 가장 좋습니다.

GGUF와 MLX의 차이는 무엇인가요?

  • GGUF: CPU와 대부분의 GPU에서 실행되는 범용 포맷입니다. Windows/Linux 사용자에게 추천합니다.
  • MLX: Apple Silicon Mac에 특화된 최적화 포맷입니다. Mac 사용자에게 강력 추천합니다.

"양자화(Quantization)" (Q4, Q8, FP16)가 무엇인가요?

메모리를 아끼기 위해 모델의 정밀도를 줄이는 기술입니다.

  • Q4_K_M (4-bit): 추천. 속도와 품질의 균형이 가장 좋습니다.
  • Q8_0 (8-bit): 품질은 더 좋지만, 메모리를 2배 더 차지합니다.
  • FP16: 원본 품질입니다. 보통 소비자용 하드웨어에서는 너무 큽니다.

다운로드한 모델은 어디에 저장되나요?

기본적으로 운영체제의 앱 데이터 폴더에 저장됩니다. 설정 > 저장소(Storage) 메뉴에서 경로를 확인하고 변경할 수 있습니다.

모델을 외장 하드에 저장할 수 있나요?

네. 설정에서 모델 저장 경로를 외장 하드의 폴더로 변경하면 됩니다.

직접 가지고 있는 .gguf 파일을 불러올 수 있나요?

네. 모델(Models) 탭에서 가져오기(Import) 버튼을 누르면 됩니다.

모델을 삭제했는데 용량이 안 늘어납니다.

휴지통을 확인해 보세요. 또한 목록에서만 지워지고 실제 파일이 남아있는지 파일 탐색기로 확인해 보시기 바랍니다.

5. 채팅 및 기능

한국어로 대화할 수 있나요?

네. 최신 모델들(Qwen, Llama 3, Gemma)은 한국어를 포함한 다국어를 잘 지원합니다.

이미지를 인식할 수 있나요?

네. Backend.AI GO는 멀티모달 모델(Llama-3.2-Vision, Qwen-VL 등)과 클라우드 비전 모델(GPT-5.2, Claude 4.5)을 지원합니다. 채팅창에 이미지를 드래그 앤 드롭하여 대화를 나눠보세요.

PDF 요약이 가능한가요?

현재는 PDF 텍스트를 복사해서 붙여넣는 방식으로 가능합니다. PDF 파일 직접 업로드 기능은 추후 업데이트 예정입니다.

대화 기록은 어디에 저장되나요?

대화 기록은 사용자의 기기에 대화별로 개별적인 JSON 파일로 로컬 저장됩니다. 우리는 사용자의 대화 기록에 접근할 수 없습니다.

대화 내용을 내보낼 수 있나요?

네, 대화 메뉴에서 마크다운(Markdown)이나 JSON 형식으로 내보낼 수 있습니다.

코드를 실행해 볼 수 있나요?

네. 에이전트 모드에서 코드 실행(Code Execution) 도구를 켜면, AI가 파이썬 코드를 작성하고 실행하여 계산이나 시각화 작업을 수행할 수 있습니다.

인터넷 검색이 가능한가요?

네. 에이전트 모드에서 "웹 검색(Web Search)" 도구를 활성화하면 됩니다. 이를 통해 모델이 Google이나 DuckDuckGo를 검색하여 최신 정보에 기반한 답변을 할 수 있습니다.

음성 대화(Voice Mode)를 지원하나요?

음성 입출력 기능은 현재 실험적 베타 단계이며 곧 정식 출시될 예정입니다.

6. 에이전트 및 도구

에이전트가 무엇인가요?

단순히 말만 하는 것이 아니라 실제로 "행동"을 하는 AI 모드입니다. 목표를 달성하기 위해 계획을 세우고 도구를 사용합니다.

어떤 모델이 툴 콜링을 지원하나요?

모델 카드에 "Tool" 태그가 붙은 모델을 찾으세요. Gemma 3, Qwen3, Llama 3.1, GPT-4o 등이 가장 잘 작동합니다.

에이전트가 제 파일을 마음대로 지우나요? (보안)

Backend.AI GO는 위험 권한 시스템을 갖추고 있습니다. 파일 삭제 같은 위험한 작업은 실행 전에 반드시 사용자의 명시적인 승인을 받습니다. 승인 없이는 실행되지 않습니다.

"생각(Thinking)" 과정을 볼 수 있나요?

네. 추론 모델(DeepSeek-R1 등)을 사용하면 채팅창에 사고 블록(Thinking Block)이 나타납니다. 이를 클릭하여 펼치면 AI의 속마음을 엿볼 수 있습니다.

커스텀 도구를 만들 수 있나요?

현재는 내장 도구만 사용 가능합니다. 파이썬/JS 플러그인을 통한 커스텀 도구 지원은 향후 계획되어 있습니다.

에이전트가 무한 루프에 빠졌어요.

성능이 낮은 모델에서 발생할 수 있습니다. 중지(Stop) 버튼을 누르고 질문을 구체적으로 바꾸거나, 더 똑똑한 모델(7B -> 70B 또는 클라우드 모델)로 변경해 보세요.

7. 클라우드 연동

OpenAI API 키는 어디서 받나요?

OpenAI Platform 웹사이트에 가입하고 키를 생성하면 됩니다.

클라우드 모델은 돈이 드나요?

네. Backend.AI GO 자체는 무료지만, OpenAI나 Anthropic 같은 제공자는 토큰 사용량에 따라 요금을 청구합니다. 요금은 해당 업체에 직접 지불하며 저희는 수수료를 떼지 않습니다.

회사 내부 API에 연결할 수 있나요?

네. OpenAI 호환 (OpenAI Compatible) 공급자 옵션을 사용하세요. OpenAI 형식을 지원하는 모든 엔드포인트(예: http://internal-server:8000/v1)에 연결할 수 있습니다.

원격 vLLM 서버에는 어떻게 연결하나요?

공급자 추가에서 vLLM을 선택하고 서버의 IP 주소와 포트를 입력하세요 (예: http://192.168.1.50:8000/v1).

API 키는 안전한가요?

네. 키는 운영체제의 보안 키체인(macOS Keychain, Windows 자격 증명 관리자)에 암호화되어 저장되며, 저희 서버로 전송되지 않습니다.

8. 문제 해결

모델 로딩이 멈춘 것 같아요.

대용량 모델을 RAM에 올리는 데는 시간이 걸립니다. 3분 이상 걸린다면 RAM 부족일 수 있습니다. 더 작은 모델을 시도해 보세요.

"OOM (Out Of Memory)" 에러가 떠요.

모델이 컴퓨터 사양에 비해 너무 큽니다. 양자화 수준을 높이거나(Q4_K_M), 파라미터 수가 적은 모델(7B)로 바꾸세요.

모델이 영어로만 대답해요.

시스템 프롬프트에 "당신은 유능한 비서이며 한국어로 유창하게 대답합니다"라고 적어주세요.

버그를 찾았어요. 어디에 알리나요?

GitHub 저장소의 Issue 탭에 제보해 주시면 감사하겠습니다.

개발에 기여하고 싶어요!

환영합니다! GitHub의 기여 가이드(Contribution Guide)를 참고해 주세요.