상세 컨텐츠

본문 제목

LLM의 주요 개념과 진화 과정 (2/3회)

정보통신

by ICT찐찐찐 2024. 6. 25. 01:00

본문

금일은 LLM(대형 언어 모델, Large Language Model)의 두번째 회차로서 LLM 진화에 대하여 살펴보겠습니다.

LLM의 주요 개념과 진화 과정 (2/3회)

 

LLM의 진화 (1)

대규모 언어 모델인 LLM의 진화는 현재 진행형입니다. OpenAI는 ChatGPT 3.5에 이어 ChatGPT 4, 최근에는 모든 것의 의미인 omni를 뜻하는 ChatGPT 4o가 발표되고 서비스 되고 있습니다. 그리고 Google도 검색 기능을 포함한 Google 제품 전반에 LLM Gemini를 적용하겠다고 합니다. 현재 이러한 LLM의 모든 기원은 Transformer 아키텍처로부터 시작되었습니다.

 

Transformer 아키텍처

Transformer는 단어를 벡터로 표현하고, 이 벡터 값을 사용하여 단어 간의 관계를 분석합니다. 벡터는 컴퓨터가 텍스트를 이해할 수 있게 수치화하는 것입니다. 주요 구성 요소로는 Self-Attention 메커니즘, Encoder, Decoder가 있습니다.
Self-Attention은 입력 시퀀스의 다양한 부분에 가중치를 부여하여 중요한 정보에 집중하는 메커니즘입니다. 문맥에 따라 집중할 단어를 결정하며, 이를 통해 문장 내 단어의 문맥적 역할을 이해하는 데 도움을 줍니다. 예를 들어, “나는 책을 읽었다”라는 문장에서 Self-Attention은 “책”과 “읽었다”라는 단어 간의 관계를 파악하여 의미를 이해하는 데 도움을 줍니다.

그림.2 The Transformer-model architecture, 출처: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

 

 

Encoder는 정보의 손실 압축을 담당하는 구조로, 외부 정보를 AI에 입력하는 과정입니다. 예를 들어, 번역 시스템에서 원문 텍스트를 입력 받아 그 의미를 압축하여 이해하는 단계가 Encoder의 역할입니다. 성능이 뛰어난 Encoder는 AI의 추상화 능력과 이해력을 높입니다. 반면 Decoder는 압축된 정보를 끄집어 내어 표현하는 과정으로, AI의 표현력을 향상시킵니다. 다시 번역 시스템을 예로 들면, Decoder는 압축된 의미를 목표 언어로 표현하는 역할을 합니다. Encoder의 성능이 높아지면 AI의 이해력이 좋아지고, Decoder의 성능이 높아지면 AI의 표현력이 좋아집니다. BERT는 Encoder를 다단으로 연결한 구조이고, GPT는 Decoder 연결한 구조를 가집니다.

그림. 3 BERT와 GPT 개념도, 출처(책) : 프롬프트 엔지니어링 <반병현>

 

 

BERT와 GPT의 경쟁

BERT는 두 문장 사이의 관계를 이해하는 데 중점을 두고 Google에서 개발한 모델입니다. 예를 들어, “사과를 먹었습니다”와 “사과가 맛있어요”의 관계를 이해함으로써 맥락을 이해할 수 있습니다. 반면 GPT는 다음 단어를 예측하여 문장을 생성합니다. 예를 들어, "오늘 아침에 커피를 마셨다"라는 문장이 주어지면 GPT는 "나는 커피를 마셨다"와 같은 후속 문장을 생성할 수 있습니다.
2018년에는 OpenAI의 GPT와 Google의 BERT가 비슷한 시기에 발표됩니다. BERT는 성능 측면에서 GPT를 크게 능가했습니다. 당시 BERT는 자연어 처리 분야의 선도적인 모델로 여겨졌고, BERT에 비해 성능이 낮은 GPT에 대한 연구에는 별 관심이 없었습니다.

OpenAI의 GPT 등장

OpenAI의 야심찬 AI 기술은 몇 달 만에 Google의 BERT에 의해 빠르게 압도되었습니다. 그러나 BERT 논문에서는 AI 양을 두 배로 늘려도 성능은 5%만 향상된다고 언급했습니다. 간단히 말해서, 두 배 더 큰 AI를 만들고 운영하려면 두 배 더 비싼 컴퓨터가 필요합니다. 맹목적으로 AI의 규모를 늘리고 성능을 추가하는 것보다 더 스마트한 AI 디자인을 고안하는 것이 더 효율적입니다. 그러나 OpenAI는 다르게 생각하고 3년에 걸쳐 GPT 규모를 늘리기 시작했고, 2020년 BERT보다 583배 더 큰 AI인 GPT-3를 발표하게 되었습니다. OpenAI의 챗봇 서비스인 ChatGPT는 GPT-3를 기반으로 합니다. 효율성에 대해서는 논란의 여지가 있지만 성능은 부인할 수 없을 정도로 강력합니다. 상식을 뛰어넘는 규모의 AI를 초거대 AI라고 부릅니다. LLM은 또한 초기 거대 AI로 간주됩니다.

 

기존 자원 대비 효율성 측면에서 LLM 모델의 선두주자인 BERT는 이때부터 GPT에 밀리게 됩니다. AI 산업에 그림자가 드리워지기 시작한 것은 이 무렵이라고 합니다. 거대 AI인 LLM을 만들려면 최소 1000억 원이 필요하고, 다른 기업과 경쟁할 수 있는 속도로 AI를 개발하려면 약 3000억 원 상당의 장비가 필요하게 된 것입니다. LLM의 진화 과정을 보여주는 아래 LLM Evolutionary Tree를 보면 좌측 가지의 BERT보다 우측 가지의 GPT가 더 대중화되고 있음을 알 수 있습니다.

그림. 4 LLM evolutionary tree. Credit : JingfengYang on GitHub

 

 

Open-Source와 Closed-Source LLM의 경쟁

OpenAI의 GPT가 LLM의 주류가 되면서 시장 환경은 Open-Source와 Closed-Source LLM이라는 두 가지 진영으로 나누어졌습니다. 이 분할은 더 적은 컴퓨팅 리소스를 사용하여 ChatGPT와 유사한 성능을 달성할 수 있는 더 작은 LLM(sLLM)을 생성하고자 하는 접근에서 비롯되었습니다. Open-Source LLM은 공개적으로 액세스하고 편집할 수 있는 모델로 주목할 만한 예로는 Meta의 LLaMA 및 Stanford University의 Alpaca 모델이 있습니다. 이러한 모델은 대중에게 무료로 제공되는 동시에 ChatGPT와 유사한 성능을 제공하는 것을 목표로 합니다. 반면 Closed-Source LLM은 유료로 탁월한 성능을 제공하는 모델로 OpenAI의 ChatGPT와 경쟁하고 있는 Google의 Gemini가 대표적입니다.

 

 

표 .1 Open-Source vs Closed-Source 비교

구분 Open-Source Closed-Source
장점 - Closed-Source 유사한 성능
- 높은 보안
- 낮은 개발 비용
- 뛰어난 성능
- API 방식의 편리한 사용성
단점 - 개발 난이도 높음
- 사용 위한 대규모 GPU서버 필요
- 보장할 수 없는 보안
- API 호출 비용

 

마지막 연재에서도 LLM 진화 내용이 계속 이어집니다.

 

 

 

정보통신기술사 김석중

반응형

관련글 더보기