xGen-MM (BLIP-3): 시각적 데이터와 텍스트 데이터를 처리하는 대형 멀티모달 모델(LMM)을 개발하여 성능을 향상시키는 것을 목표로 하는 프레임워크입니다. 주요 내용을 정리하면 다음과 같습니다:1. 연구 배경대형 멀티모달 모델(LMM)은 시각 및 언어 능력을 통합하는 모델로 빠르게 발전하고 있습니다. BLIP-2와 같은 모델이 초기에는 이 분야에서 성과를 거두었으나, 데이터셋의 크기와 다양성이 제한적이었고, 아키텍처가 확장성에 걸림돌이 되었습니다. 이러한 문제를 해결하기 위해 xGen-MM (BLIP-3)가 도입되었으며, 이는 Salesforce의 이전 기초 AI 모델(xGen)을 기반으로 개발되었습니다.2. 주요 기여xGen-MM은 BLIP-2 프레임워크를 다음과 같이 개선합니다:데이터 규모..