멀티노드 개요¶
Backend.AI GO는 단순한 독립형 애플리케이션을 넘어, 더 거대한 컴퓨팅 메쉬(Mesh)의 한 노드(Node)로 작동하도록 설계되었습니다. 이러한 아키텍처를 통해 로컬 하드웨어의 한계를 넘어 다른 Backend.AI GO 인스턴스, Continuum Router 또는 엔터프라이즈급 Backend.AI 클러스터에 연결하여 확장이 가능합니다.
왜 멀티노드인가요?¶
로컬 추론은 프라이버시와 낮은 지연 시간(latency) 면에서 훌륭하지만, 사용자의 하드웨어 사양(VRAM, 연산 능력)에 제약을 받습니다. 멀티노드 기능을 사용하면 다음과 같은 이점을 얻을 수 있습니다:
- 더 큰 모델 사용: 로컬 GPU 메모리에 들어가지 않는 거대 모델을 서버나 클러스터로 오프로딩하여 실행할 수 있습니다.
- 처리량 확장: 여러 노드에 추론 요청을 분산하여 더 많은 동시 요청을 처리할 수 있습니다.
- 중앙 집중식 관리: Backend.AI GO를 클라이언트로 사용하여 강력한 중앙 서버의 자원을 손쉽게 관리하고 활용할 수 있습니다.
노드 유형¶
Backend.AI GO 생태계에는 세 가지 주요 연결 유형이 있습니다:
- 로컬 노드 (Local Node): 현재 Backend.AI GO가 실행 중인 사용자 컴퓨터입니다. 자체적인 Continuum Router를 실행하고 로컬 모델을 관리합니다.
- 피어 노드 (Peer Node): Backend.AI GO가 실행 중인 또 다른 컴퓨터입니다. 이 컴퓨터에 직접 연결하여 이미 로드된 모델을 공유받아 사용할 수 있습니다.
- Backend.AI 클러스터: Backend.AI Core로 관리되는 엔터프라이즈급 클러스터입니다. 대규모 확장성, 사용자 관리, 강력한 보안 기능을 제공합니다.
작동 원리¶
Backend.AI GO는 메쉬 네트워킹(Mesh Networking) 접근 방식을 사용합니다.
- Continuum Router: 모든 노드의 중심에는 Continuum Router가 있습니다. 이는 API 게이트웨이 역할을 하며, 사용자의 프롬프트를 적절한 백엔드(로컬 프로세스, 원격 피어, 또는 클라우드 API)로 라우팅합니다.
- 통합 API: 모델이 내 노트북에서 실행되든, 데이터센터의 H100 클러스터에서 실행되든, Backend.AI GO는 이를 동일하게 취급합니다. 사용자는 드롭다운에서 모델을 선택하기만 하면 되며, 시스템이 알아서 라우팅을 처리합니다.
- 보안: 클러스터와의 연결은 HMAC-SHA256 인증(Access Key 및 Secret Key)을 통해 안전하게 보호됩니다.
시작하기¶
컴퓨팅 능력을 확장하려면 다음 문서를 참고하세요:
- 수동 등록: 원격 노드나 클러스터를 직접 등록하는 방법.
- 자동 발견 (Auto-Discovery): 연결된 노드에서 사용 가능한 자원(서비스)을 자동으로 찾는 방법.