728x90
LLM에서 토큰의 의미
LLM(Large Language Model, 대형 언어 모델)에서 **토큰(token)**은 텍스트를 이해하고 생성하는 데 사용되는 기본 단위입니다.
토큰은 한 단어, 단어의 일부, 구두점, 공백 등 다양한 형태로 나뉠 수 있으며, 모델이 텍스트를 처리할 때 문장을 일정 규칙에 따라 잘게 쪼개어 만든 최소 단위입니다1258.
토큰의 예시
- 영어 문장 "ChatGPT is great!"는 다음과 같이 토큰화될 수 있습니다:
- "Chat", "G", "PT", " is", " great", "!"
- 한국어 문장 "안녕하세요, 저는 ChatGPT입니다."는 다음과 같이 나눌 수 있습니다:
토큰의 역할과 중요성
- 텍스트 처리의 기본 단위
LLM은 입력받은 텍스트를 토큰 단위로 분리(토큰화)한 뒤, 각 토큰에 고유한 ID를 할당해 데이터를 처리합니다15. - 생성과 예측
모델은 토큰 시퀀스를 기반으로 다음에 올 토큰을 예측하고, 이를 반복해 문장을 생성합니다15. - 모델의 한계와 비용
LLM은 한 번에 처리할 수 있는 최대 토큰 수(문맥 창)가 정해져 있으며, 토큰 수에 따라 응답 시간과 비용이 결정됩니다26.
요약
Citations:
- https://learn.microsoft.com/ko-kr/dotnet/ai/conceptual/understanding-tokens
- https://datasciencebeehive.tistory.com/131
- https://blog.naver.com/rainbow-brain/223387331292
- https://brunch.co.kr/@@gDYF/5
- https://ai-inform.tistory.com/entry/%ED%86%A0%ED%81%B0%EC%9D%B4%EB%9E%80-%ED%86%A0%ED%81%B0-%EC%89%AC%EC%9A%B4-%EC%84%A4%EB%AA%85-LLM
- https://www.toolify.ai/ko/ai-news-kr/k6unbbfur1mcutcsahslqzredqurig12-419002
- https://contents.premium.naver.com/chatgpt/buff/contents/230904233157149tv
- https://wb-life100.co.kr/84
- https://kr.linkedin.com/pulse/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5-%EA%B8%B0%EC%82%AC-%EC%9D%BD%EA%B8%B0-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0%EC%99%80-%ED%86%A0%ED%81%B0%EC%9D%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80-hyewon-song
728x90
'IT 자료 > Artificial intelligence' 카테고리의 다른 글
| RAG(Retrieval-Augmented Generation, 검색 증강 생성) (0) | 2025.05.24 |
|---|---|
| AI 코딩 에이전트 주요 솔루션 (0) | 2025.05.23 |
| ONNX (Open Neural Network Exchange) (0) | 2025.05.17 |
| LoRA(Low-Rank Adaption of Large Language) (1) | 2025.05.11 |
| PEFT(Parameter-Efficient Fine-Tuning) (0) | 2025.05.11 |