10.5. 용어 사전¶

Backend.AI GO, Lablup 생태계, 그리고 AI 인프라 전반에서 사용되는 용어, 약어 및 개념을 정리한 종합 가이드입니다.

A¶

Agent (에이전트)¶

단순한 텍스트 생성을 넘어, 계획을 수립하고 도구(웹 검색, 코드 실행 등)를 사용하여 자율적으로 사용자의 목표를 달성하는 AI 시스템입니다. ReAct 참조.

Alignment (정렬)¶

AI 모델의 행동과 출력이 인간의 가치와 의도(유익함, 해끼치지 않음, 정직함 등)에 부합하도록 조정하는 과정입니다.

API (응용 프로그램 인터페이스)¶

소프트웨어 애플리케이션들이 서로 통신할 수 있게 해주는 규칙들의 집합입니다. Backend.AI GO는 OpenAI 호환 API를 제공하여 다른 앱들이 로컬 모델을 사용할 수 있게 합니다.

Attention Mechanism (어텐션 메커니즘)¶

트랜스포머 아키텍처의 핵심 혁신입니다. 모델이 새로운 단어를 생성할 때 입력 텍스트의 다른 부분에 다양한 정도의 "주목(Attention)"을 할 수 있게 하여, 문맥의 긴 의존성을 파악하게 합니다.

Auto-Regressive (자기회귀)¶

이전에 생성된 토큰들을 다음 토큰 생성의 문맥으로 사용하여, 한 번에 하나씩 순차적으로 텍스트를 생성하는 LLM의 특성입니다.

B¶

Backend.AI¶

Lablup의 플래그십 AI 인프라스트럭처 운영체제(OS)입니다. 대규모 GPU 클러스터를 오케스트레이션하며, 엔터프라이즈급 AI 훈련 및 서빙을 위한 자원 할당, 멀티 테넌시, 스케줄링을 관리합니다.

Backend.AI FastTrack¶

Backend.AI 위에 구축된 MLOps 플랫폼입니다. 직관적인 파이프라인을 사용하여 데이터 처리부터 훈련, 배포, 모니터링까지 AI 개발의 전 주기를 자동화합니다.

Backend.AI GO¶

여러분이 사용하고 있는 이 데스크톱 애플리케이션입니다. 개인용 AI 런타임이자 Backend.AI 클러스터의 클라이언트로서, 소비자용 하드웨어에 LLM 기능을 제공합니다.

Batch Size (배치 크기)¶

GPU가 동시에 처리하는 개별 프롬프트(또는 데이터 샘플)의 수입니다. 배치 크기가 클수록 처리량(Throughput)은 향상되지만 더 많은 VRAM이 필요합니다.

Beam Search (빔 서치)¶

각 단계에서 가장 확률이 높은 단어 하나만 선택하는 대신, 여러 개의 가능한 경로(문장)를 동시에 탐색하고 그중 가장 유망한 것을 유지하는 텍스트 생성 전략입니다.

C¶

Chain of Thought (CoT, 생각의 사슬)¶

최종 답변을 내놓기 전에 중간 추론 단계를 먼저 생성하도록 유도하는 프롬프팅 기법입니다. 논리 및 수학 문제 해결 능력을 획기적으로 향상시킵니다.

ChatML¶

"User", "Assistant", "System" 간의 대화를 구조화하기 위해 많은 오픈 소스 모델(Qwen, Yi 등)에서 사용하는 인기 있는 프롬프트 형식(템플릿)입니다.

Checkpoint (체크포인트)¶

훈련 중 특정 시점의 모델 가중치 스냅샷입니다. 이를 통해 훈련을 재개하거나 모델을 추론에 사용할 수 있습니다.

Cloud Integration (클라우드 통합)¶

외부 API 제공자(OpenAI, Anthropic, 원격 vLLM)에 연결하여 로컬 모델과 함께 사용할 수 있게 해주는 Backend.AI GO의 기능입니다.

Context Window (컨텍스트 윈도우)¶

LLM의 "단기 기억" 용량입니다. 모델이 한 번에 처리할 수 있는 텍스트 양(토큰 단위)을 제한합니다. 대화가 이 제한을 넘어가면 모델은 앞부분 내용을 잊어버립니다.

Continuous Batching (연속 배칭)¶

이전 요청이 끝나자마자 전체 배치가 완료되길 기다리지 않고 즉시 새 요청을 GPU 처리 대기열에 삽입하는 고급 서빙 기술입니다. vLLM과 PALI에서 사용되며 지연 시간을 획기적으로 줄여줍니다.

CUDA (Compute Unified Device Architecture)¶

NVIDIA의 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다. NVIDIA GPU에서 AI 워크로드를 실행하기 위한 산업 표준입니다.

D¶

Decoding Strategy (디코딩 전략)¶

텍스트 생성 시 다음 토큰을 선택하는 방법입니다. Greedy Search, Temperature Sampling, Top-K, Top-P 등이 있습니다.

DeepSeek¶

코딩과 추론 작업에서 종종 독점 모델에 필적하는 고성능 오픈 소스 모델을 내놓는 것으로 유명한 연구 조직 및 모델 제품군입니다.

Docker (도커)¶

애플리케이션을 컨테이너라는 격리된 환경에서 개발, 배포, 실행할 수 있게 해주는 플랫폼입니다. Backend.AI는 클러스터 내의 사용자 및 환경을 격리하기 위해 도커 컨테이너를 사용합니다.

E¶

Embedding (임베딩)¶

텍스트(단어, 문장, 문서)를 숫자의 나열(벡터)로 표현하는 방식입니다. 의미가 비슷한 텍스트는 비슷한 임베딩 벡터를 가집니다. RAG 시스템의 핵심입니다.

Epoch (에폭)¶

머신러닝 훈련 과정에서 전체 훈련 데이터셋을 한 번 훑는 주기를 말합니다.

F¶

Fine-tuning (파인 튜닝 / 미세 조정)¶

사전 훈련된 모델(기반 모델)을 특정 작업이나 도메인에 더 잘 맞도록 특정 데이터셋으로 추가 훈련시키는 과정입니다.

Flash Attention¶

GPU의 느린 메인 메모리(HBM)에 대한 읽기/쓰기 작업을 줄여 어텐션 메커니즘을 훨씬 더 빠르고 메모리 효율적으로 만드는 알고리즘입니다.

Floating Point (부동소수점 - FP16, FP32, BF16)¶

모델 가중치를 표현하는 데이터 타입입니다.

FP32 (단정밀도): 표준 32비트.
FP16 (반정밀도): 16비트, 메모리를 절반만 사용.
BF16 (Bfloat16): 머신러닝에 최적화된 포맷으로, FP32와 같은 동적 범위를 가지지만 정밀도는 낮춤.

Foundation Model (파운데이션 모델 / 기반 모델)¶

방대한 양의 데이터로 훈련되어 다양한 다운스트림 작업(예: 파인 튜닝을 통해)에 적용될 수 있는 대규모 모델입니다.

G¶

GGUF (GPT-Generated Unified Format)¶

Georgi Gerganov가 설계한 모델 가중치 저장용 바이너리 파일 형식입니다. 빠른 로딩(mmap)과 CPU/GPU 하이브리드 추론을 지원하며, 로컬 AI의 표준으로 자리 잡았습니다.

GPU (Graphics Processing Unit)¶

이미지 생성을 가속화하기 위해 메모리를 조작하도록 설계된 특수 전자 회로입니다. 병렬 처리 구조 덕분에 AI 연산에 이상적입니다.

Gradient Descent (경사 하강법)¶

신경망을 훈련시키는 최적화 알고리즘입니다. 예측 오차(손실)를 최소화하기 위해 반복적으로 모델의 가중치를 조정합니다.

H¶

Hallucination (할루시네이션 / 환각)¶

LLM이 문법적으로는 그럴듯하고 확신에 차 있지만, 사실관계가 틀리거나 터무니없는 내용을 생성하는 현상입니다.

HBM (High Bandwidth Memory)¶

현대 GPU(NVIDIA H100 등)에서 사용되는 고속 메모리 인터페이스입니다. LLM 추론 속도는 종종 HBM의 속도(대역폭)에 의해 결정됩니다.

Hugging Face¶

"AI 업계의 GitHub". 커뮤니티가 모델, 데이터셋, 데모를 공유하는 플랫폼입니다. Backend.AI GO는 Hugging Face와 연동되어 모델을 쉽게 다운로드할 수 있습니다.

I¶

Inference (추론)¶

훈련된 모델을 사용하여 예측(텍스트 생성, 이미지 인식 등)을 수행하는 단계입니다. Backend.AI GO에서 모델과 채팅하는 것이 바로 추론입니다.

Instruction Tuning (지시 튜닝)¶

모델이 사용자의 명령을 따르고 비서처럼 행동하는 법을 배우도록 (지시, 출력) 쌍으로 구성된 데이터셋으로 파인 튜닝하는 기법입니다.

K¶

KV Cache (Key-Value Cache)¶

추론 중 사용되는 메모리 최적화 기술입니다. 과거 토큰들에 대한 어텐션 키(Key)와 값(Value)을 캐시에 저장하여, 새 토큰을 생성할 때마다 다시 계산하지 않도록 합니다. 이 캐시를 효율적으로 관리하는 것이 성능의 핵심입니다.

L¶

Latency (지연 시간)¶

프롬프트를 전송한 후 모델이 첫 번째 토큰을 생성하기까지 걸리는 시간(Time to First Token, TTFT)입니다.

Layer (레이어 / 층)¶

신경망의 구성 요소입니다. LLM은 수많은 레이어(예: 32개, 80개)가 쌓여 구성됩니다.

Llama (Large Language Model Meta AI)¶

Meta가 공개한 오픈 소스 기반 모델 시리즈입니다. Llama 2와 Llama 3는 오픈 웨이트 모델의 표준을 정립했습니다.

llama.cpp¶

Georgi Gerganov가 개발한 오픈 소스 프로젝트로, 양자화 등의 기술을 사용하여 일반 소비자용 하드웨어(Mac, PC)에서 LLM을 고효율로 실행할 수 있게 해줍니다.

LLM (Large Language Model, 거대 언어 모델)¶

인간의 언어를 이해하고 생성하기 위해 방대한 텍스트 데이터로 훈련된 수십억 개의 파라미터를 가진 딥러닝 모델입니다. 예: Gemma 3, Qwen3, gpt-oss, GPT-5.2, Claude 4.5.

LoRA (Low-Rank Adaptation)¶

파라미터 효율적인 파인 튜닝 기법입니다. 모든 모델 가중치를 업데이트하는 대신(비용이 많이 듦), 작고 학습 가능한 분해 행렬을 모델에 주입하여 훨씬 빠르고 가볍게 파인 튜닝을 수행합니다.

M¶

MLOps (Machine Learning Operations)¶

머신러닝 모델을 안정적이고 효율적으로 배포 및 유지 관리하기 위한 일련의 관행입니다. Backend.AI FastTrack은 MLOps 플랫폼입니다.

MLX¶

Apple Silicon을 위한 Apple의 머신러닝 배열 프레임워크입니다. 통합 메모리를 활용하여 M 시리즈 Mac에서 고도로 최적화된 모델 실행을 가능하게 합니다.

Model Parallelism (모델 병렬화)¶

단일 GPU에 담기에는 너무 큰 모델을 실행하기 위해 사용하는 기술입니다. 모델을 여러 GPU에 나누어 담습니다 (텐서 병렬화, 파이프라인 병렬화).

텍스트, 이미지, 오디오, 비디오 등 서로 다른 유형의 미디어를 동시에 처리하고 생성할 수 있는 AI 모델의 능력입니다.

N¶

Neuron (뉴런)¶

생물학적 뉴런에서 영감을 받은 신경망의 기본 단위입니다. 입력을 받아 가중치를 적용하고 편향을 더한 뒤 활성화 함수를 통과시켜 결과를 내보냅니다.

NPU (Neural Processing Unit)¶

머신러닝 연산을 가속화하기 위해 특별히 설계된 프로세서입니다 (예: Apple Silicon의 Neural Engine).

O¶

Overfitting (과적합)¶

모델이 훈련 데이터를 (노이즈까지 포함하여) 너무 과도하게 학습하여, 새로운 데이터에 대한 일반화 능력이 떨어지는 모델링 오류입니다.

Backend.AI 기반의 인퍼런스 서비스 구축을 위한 토탈 스위트입니다. 단순한 엔진이 아니라 다음 요소들을 결합한 포괄적인 플랫폼입니다: * 엔진: Backend.AI Core. * 서빙: Backend.AI Deployment와 결합된 다양한 인퍼런스 엔진들. * 모델 관리: 온프레미스 환경에서 AI 모델을 서빙하고 업데이트하기 위한 Reservoir AI. * 라우팅: 효율적인 트래픽 관리를 위한 Continuum Router. * 인터페이스: 웹 기반 생성형 AI 서비스 인터페이스(AI:DOL) 및 데스크탑용 로컬 인퍼런스 앱(AI:GO).

PALANG¶

PALI에 Backend.AI FastTrack(MLOps 파이프라인), 파인튜닝을 위한 데이터셋, 그리고 파인튜닝 서비스가 추가된 확장 패키지입니다. 원시 데이터에서부터 배포된 도메인 특화 AI 서비스까지 구축하는 데 필요한 모든 것을 제공합니다.

PagedAttention¶

vLLM에서 도입하고 PALI에서도 사용되는 메모리 관리 알고리즘입니다. KV 캐시를 비연속적인 블록(페이지)으로 나누어 저장함으로써 메모리 파편화를 거의 없애고 배치 크기를 크게 늘립니다.

Parameter (파라미터 / 매개변수)¶

훈련 중에 학습되는 모델의 내부 변수(가중치와 편향)입니다. 파라미터 수(예: 7B, 70B, 120B, 235B)는 모델의 용량과 지능을 나타내는 대략적인 지표입니다.

Perplexity (퍼플렉시티)¶

언어 모델이 텍스트 샘플을 얼마나 잘 예측하는지 평가하는 지표입니다. 점수가 낮을수록 모델이 텍스트에 대해 덜 "놀란다"(즉, 예측을 잘한다)는 의미입니다.

Prompt Engineering (프롬프트 엔지니어링)¶

LLM이 원하는 결과를 생성하도록 입력(프롬프트)을 정교하게 다듬는 기술입니다.

Q¶

Quantization (양자화)¶

모델 가중치의 정밀도를 낮추는 과정입니다 (예: 16비트에서 4비트 정수로). 품질 손실을 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높입니다. Q4KM이 인기 있는 포맷입니다.

R¶

RAG (Retrieval-Augmented Generation, 검색 증강 생성)¶

응답을 생성하기 전에 외부 지식 베이스(사용자의 문서 등)에서 관련 정보를 검색하여 LLM을 보강하는 기술입니다. 할루시네이션을 줄이고 모델이 사설 데이터를 활용할 수 있게 합니다.

ReAct (Reasoning + Acting)¶

AI 에이전트를 구축하는 패러다임입니다. 모델이 "추론(Reasoning, 무엇을 할지 생각)"과 "행동(Acting, 도구 사용)"을 번갈아 수행하며 다단계 문제를 해결합니다.

RLHF (Reinforcement Learning from Human Feedback)¶

인간의 선호도에 맞춰 LLM을 정렬하는 훈련 기법입니다. 인간이 모델의 출력에 점수를 매기고, 보상 모델을 훈련시켜 LLM이 더 나은 응답을 생성하도록 유도합니다.

ROCm (Radeon Open Compute)¶

AMD의 GPU 컴퓨팅을 위한 개방형 소프트웨어 플랫폼으로, NVIDIA CUDA의 대응 기술입니다.

S¶

Sampling (샘플링)¶

모델이 생성한 확률 분포에서 다음 토큰을 무작위로 선택하는 과정입니다.

Seed (시드)¶

난수 생성기를 초기화하는 데 사용되는 숫자입니다. 같은 설정에서 같은 시드를 사용하면 모델은 항상 같은 결과를 출력합니다 (결정론적 동작).

Speculative Decoding (추측 디코딩)¶

작고 빠른 "초안(Draft)" 모델이 몇 개의 토큰을 미리 생성하고, 큰 "타겟" 모델이 이를 병렬로 검증하는 최적화 기법입니다. 품질 손실 없이 추론 속도를 2~3배 높일 수 있습니다.

System Prompt (시스템 프롬프트)¶

모델의 페르소나, 행동 방식, 제약 조건을 정의하기 위해 모델에게 주는 초기 지시사항입니다 (예: "당신은 유능한 코딩 조수입니다").

T¶

Temperature (온도)¶

모델 출력의 무작위성을 제어하는 파라미터입니다. 온도가 높으면(예: 1.0) 창의적이고 다양한 출력이 나오며, 낮으면(예: 0.1) 집중적이고 결정론적인 출력이 나옵니다.

Tensor (텐서)¶

다차원 숫자 배열입니다. 딥러닝에서 사용되는 가장 기본적인 데이터 구조입니다.

Throughput (처리량)¶

시스템이 토큰을 처리하는 속도이며, 보통 초당 토큰 수 (TPS)로 측정됩니다. 다수의 사용자를 서빙할 때 높은 처리량이 필수적입니다.

Token (토큰)¶

LLM의 텍스트 처리 기본 단위입니다. 단어, 단어의 일부, 또는 문자가 될 수 있습니다. 대략적으로 영어 단어 750개는 1,000 토큰 정도입니다.

Tool Calling (도구 사용)¶

LLM이 구조화된 출력(JSON 등)을 생성하여 외부 함수(도구)를 호출하는 능력입니다. 이를 통해 웹 검색이나 파일 조작 같은 행동을 수행할 수 있습니다.

Transformer (트랜스포머)¶

2017년 구글이 발표한("Attention Is All You Need") 딥러닝 아키텍처로, NLP 분야를 혁신했습니다. 셀프 어텐션 메커니즘을 사용하여 데이터 시퀀스를 처리합니다.

U¶

Unified Memory (통합 메모리)¶

CPU와 GPU가 고속 메모리 풀을 공유하는 아키텍처(특히 Apple Silicon)입니다. 데이터 복사가 필요 없고, PC의 전용 VRAM에 들어가지 않는 거대 모델도 로드할 수 있게 해줍니다.

V¶

vLLM¶

높은 처리량과 메모리 효율성을 자랑하는 오픈 소스 LLM 서빙 엔진입니다. PagedAttention을 처음 도입했으며 프로덕션 서빙에 널리 사용됩니다.

VRAM (Video RAM)¶

그래픽 카드의 전용 메모리입니다. 로컬에서 거대 모델을 실행할 때 가장 큰 병목이 되는 자원입니다.

W¶

Weights (가중치)¶

신경망의 학습 가능한 파라미터입니다. 모델 파일(.gguf 등)을 다운로드한다는 것은 본질적으로 이 가중치를 다운로드하는 것입니다.

Z¶

Zero-shot Learning (제로샷 러닝)¶

모델이 명시적으로 훈련받지 않은 작업을, 프롬프트의 지시사항을 이해하는 것만으로 수행해내는 능력입니다.