상세 컨텐츠

본문 제목

AI의 진화 거대 멀티모달 모델 LMM(Large Multimodal Model)

정보통신

by ICT찐찐찐 2024. 8. 30. 01:08

본문

최근에 기존 '대형언어모델(LLM)'과 차별화되고 있는 AI 진화 거대 멀티모달 모델인 '대형멀티모달모델(LMM)'에 대하여 살펴보겠습니다.

AI의 진화 거대 멀티모달 모델 LMM(Large Multimodal Model)

 

 

생성형AI는 ChatGPT를 시작으로 큰 관심을 받으며 창작의 영역까지도 넘보는 대규모 멀티모달 모델 LMM으로 진화하고 있습니다.

모달(Modal)이란 ‘양상’, ‘양태’를 의미하는데요, 어떤 현상이 나타나는 ‘양상’, ‘양태’를 이해하는 방식을 말합니다. 이름 그대로 LMM은 텍스트뿐만 아니라 시각(이미지), 청각(소리), 등의 다양한 정보를 이해하여 처리하는 작업을 수행합니다. LLM(Large Language Model)이 텍스트 처리와 생성에 특화되어있다면 LMM은 다양한 형태의 데이터를 처리, 생성할 수 있습니다.


GPT-4와 함께 텍스트, 이미지, 오디오 등을 이해할 수 있는 구글의 제미니(Gemini), AI가 이미지 내에서 특정 물체를 이해하고 분석하는 메타의 샘(SAM), 텍스트 입력을 기반으로 동영상을 제작하는 소라(Sora) 등이 대표적인 LMM입니다.

Single-modal AI model vs Multimodal AI model (Armand Ruiz, Mar 16, 2023, https://www.nocode.ai/what-is-multimodal-ai/)

 

언어-비전(Language-Vision) 분야에서의 LMM의 대표적인 LLaVA 모델을 통해 LMM의 아키텍처를 간단하게 살펴보겠습니다.

LLaVA Architecture (Liu, Haotian, et al. "Visual instruction tuning." Advances in neural information processing systems 36 (2024).)

 

LLaVA는 이미지 데이터를 텍스트 Feature로 변환하는 인코더, LLM, 비전인코더-LLM 연결 구조로 구성되어 있습니다. LLaVA의 구조는 입력된 이미지를 비전인코더를 통해 비전 정보를 담고 있는 형태로 만들어 진 후 LLM에 적합한 형태로 변환됩니다. 이후 비전 정보와 함께 입력된 질의 사항에 대한 답변을 LLM을 통해 생성(vision-language cross-modal connector 등을 활용)합니다. LLaVA의 기본 구조는 이후 다양한 LMM에 적용되고 있습니다.

가트너 ‘Hype Cycle for Generative AI, 2023’에서 ‘Multimodal Gen AI’는 기술 출현(Technology Trigger) 단계로 향후 약 2~5년 이내에 기술적 안정기에 도달할 것으로 전망하고 있습니다.

Hype Cycle for generative AI (Gartner, 2023.10.11.)

 

LMM은 더 다양한 모달리티 데이터를 복합적으로 이해, 판단하여 활용을 가능하게 하는 방향으로 진화하고 있으며 앞으로 다양한 산업군에서 활용될 것으로 생각됩니다. 추후 기회가 되면 언어-비전분야에 활용되고 있는 알고리즘과 동향에 대해 다뤄보도록 하겠습니다.


[참고 자료 및 사이트]
IITP, 2024.8. ICT Brief
https://www.nocode.ai/what-is-multimodal-ai/
https://blog-ko.superb-ai.com/about-multimodal-ai-that-learns-language-and-vision-data-together/

 

 

 

정보통신기술사 정보라

반응형

관련글 더보기