Code&Data Insights

[NLP] Large Language Model (LLM) 본문

Artificial Intelligence/Natural Language Processing

[NLP] Large Language Model (LLM)

paka_corn 2024. 3. 23. 23:24

Large Language Model (LLM) 

: 자연어 처리를 위해 방대한 양의 데이터로 학습된 인공지능 모델로 인간과 유사한 텍스트를 처리, 이해 및 생성하도록 설계된 고급 AI 시스템.

A type of deep learning model trained on massive amounts of text data to learn the patterns and structures of language. They can perform language-related tasks, including text generation, translation, summarization, sentiment analysis, and more.

 

- LLMs work by training on diverse language data, learning patterns, and relationships, enabling them to understand and generate human-like text.

 

- 주요 작동 단계 

(1) inputs : 토큰화된 단어의 집합 

(2) transformer : 일련의 토큰을 입력으로 받아들이고 다른 일련의 토큰을 출력하는 인코더(특징을 학습하고 문맥을 이해) -디코더 아키텍처

(3) output : 다음 단어 예측

 

 

LLM's Architecture 

: 딥러닝의 원리를 기반으로 작동하여 신경망 아키텍처를 활용해 인간의 언어를 처리하고 이해

 

Tokenization

Tokenization : Input으로 주어진 단어를 숫자로 변환하는 것(신경망의 입력은 항상 숫자이므로 텍스트를 숫자로 변환해야 함

=> 모델에 따라 token의 의미는 달라질 수 있음 (단어, 단어의 부분, 캐릭터, etc) 

 

 

Generative pre-trained transformer (GPT)

A series of large language models developed by OpenAI. They are designed to understand language by leveraging a combination of two concepts: training and transformers.

 

 

 

 

 

Transformer

 

 

 

 

 

 

Reference 

https://www.geeksforgeeks.org/large-language-model-llm/

https://www.aporia.com/learn/exploring-architectures-and-capabilities-of-foundational-llms/

Comments