토큰(token) :: IT Language

토큰(token)

정보기술연구모임 2025. 5. 17. 08:41

2025. 5. 17. 08:41

728x90

LLM에서 토큰의 의미

LLM(Large Language Model, 대형 언어 모델)에서 **토큰(token)**은 텍스트를 이해하고 생성하는 데 사용되는 기본 단위입니다.
토큰은 한 단어, 단어의 일부, 구두점, 공백 등 다양한 형태로 나뉠 수 있으며, 모델이 텍스트를 처리할 때 문장을 일정 규칙에 따라 잘게 쪼개어 만든 최소 단위입니다1 2 58.

토큰의 예시

영어 문장 "ChatGPT is great!"는 다음과 같이 토큰화될 수 있습니다:
- "Chat", "G", "PT", " is", " great", "!"
한국어 문장 "안녕하세요, 저는 ChatGPT입니다."는 다음과 같이 나눌 수 있습니다:
- "안녕하세요", ",", " ", "저는", " ", "ChatGPT", "입니다", "."2 8

토큰의 역할과 중요성

텍스트 처리의 기본 단위
LLM은 입력받은 텍스트를 토큰 단위로 분리(토큰화)한 뒤, 각 토큰에 고유한 ID를 할당해 데이터를 처리합니다15.
생성과 예측
모델은 토큰 시퀀스를 기반으로 다음에 올 토큰을 예측하고, 이를 반복해 문장을 생성합니다15.
모델의 한계와 비용
LLM은 한 번에 처리할 수 있는 최대 토큰 수(문맥 창)가 정해져 있으며, 토큰 수에 따라 응답 시간과 비용이 결정됩니다26.

요약

토큰은 LLM에서 텍스트를 쪼갠 최소 단위(단어, 조각, 구두점 등)입니다.
모델은 토큰 단위로 텍스트를 이해하고, 예측하며, 생성합니다.
토큰의 개수는 모델의 처리 한계, 속도, 비용 등에 직접적인 영향을 미칩니다2 68.

Citations:

728x90

'IT 자료 > Artificial intelligence' 카테고리의 다른 글

RAG(Retrieval-Augmented Generation, 검색 증강 생성) (0)	2025.05.24
AI 코딩 에이전트 주요 솔루션 (0)	2025.05.23
ONNX (Open Neural Network Exchange) (0)	2025.05.17
LoRA(Low-Rank Adaption of Large Language) (1)	2025.05.11
PEFT(Parameter-Efficient Fine-Tuning) (0)	2025.05.11

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바