AI와 머신러닝

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

thebasics 2024. 9. 7. 20:00

xGen-MM (BLIP-3): 시각적 데이터와 텍스트 데이터를 처리하는 대형 멀티모달 모델(LMM)을 개발하여 성능을 향상시키는 것을 목표로 하는 프레임워크입니다. 주요 내용을 정리하면 다음과 같습니다:

1. 연구 배경

대형 멀티모달 모델(LMM)은 시각 및 언어 능력을 통합하는 모델로 빠르게 발전하고 있습니다. BLIP-2와 같은 모델이 초기에는 이 분야에서 성과를 거두었으나, 데이터셋의 크기와 다양성이 제한적이었고, 아키텍처가 확장성에 걸림돌이 되었습니다. 이러한 문제를 해결하기 위해 xGen-MM (BLIP-3)가 도입되었으며, 이는 Salesforce의 이전 기초 AI 모델(xGen)을 기반으로 개발되었습니다.

2. 주요 기여

xGen-MM은 BLIP-2 프레임워크를 다음과 같이 개선합니다:

  • 데이터 규모 및 다양성 증가: MINT-1T라는 1조 토큰 규모의 데이터셋과 BLIP3-KALE라는 고품질 캡션 데이터셋을 도입하여 모델이 더 넓은 범위의 이미지-텍스트 데이터를 학습할 수 있도록 했습니다.
  • Q-Former를 비전 토큰 샘플러로 대체: BLIP-2에서 사용되던 복잡한 Q-Former 아키텍처는 더 확장 가능한 perceiver resampler로 대체되어 훈련을 간소화하고 효율성을 높였습니다.
  • 통합 훈련 목표: BLIP-2에서 사용된 다중 목표(ITM, ITC, ITG 손실)를 단일 오토레그레시브 텍스트 토큰 손실로 통합하여 훈련 과정을 간소화했습니다.

3. 모델 아키텍처

xGen-MM 아키텍처는 시각 입력을 처리하기 위해 비전 트랜스포머(ViT)와 비전 토큰 샘플러(perceiver resampler)를 사용합니다. 모델 입력으로는 이미지와 텍스트 같은 멀티모달 데이터가 있으며, 각각 별도로 토큰화된 후 사전 학습된 대형 언어 모델(LLM)에서 처리됩니다. 이 모델은 동적 이미지 인코딩을 사용하여 이미지를 패치로 나누고 각각 별도로 인코딩함으로써 해상도를 유지합니다.

4. 훈련 및 미세 조정

xGen-MM은 약 1,000억 개의 멀티모달 토큰에서 사전 학습되며, 이미지 해상도는 384x384 픽셀로 인코딩됩니다. 사전 학습 후 모델은 사용자 쿼리를 더 잘 이해할 수 있도록 지도 학습(SFT)를 통해 미세 조정됩니다. 또한 다중 이미지 미세 조정을 통해 이미지와 텍스트가 섞인 입력을 효과적으로 처리할 수 있도록 합니다.

추가적으로, 모델은 직접 선호 최적화(DPO) 및 안전성 미세 조정(post-training)을 거쳐, 환각(hallucination)과 같은 유해한 행동을 줄이고 사용자와의 상호작용을 개선합니다.

5. 데이터셋

  • MINT-1T: HTML, PDF, ArXiv에서 수집된 1조 토큰 규모의 멀티모달 데이터셋.
  • BLIP3-OCR-200M: 문서와 같은 텍스트가 많은 이미지를 처리할 수 있도록 조밀한 OCR 주석이 포함된 대규모 데이터셋.
  • BLIP3-GROUNDING-50M: 물체 탐지와 세그멘테이션과 같은 작업을 위한 시각적 기능을 학습할 수 있도록 50백만 개 이미지로 구성된 대규모 데이터셋.

6. 성능 및 평가

xGen-MM은 시각적 질문 응답(VQA), 광학 문자 인식(OCR), 문서 이해 등의 다양한 작업에서 경쟁력 있는 성능을 보여줍니다. 특히 인컨텍스트 학습이 필요한 작업에서 뛰어난 성과를 보이며, 단일 이미지 및 다중 이미지 벤치마크에서 모두 높은 성과를 기록합니다. OCR 및 시각적 정보 연결 작업에서 대규모 특화 데이터셋 덕분에 성능이 크게 향상되었습니다.

7. 후속 최적화

xGen-MM은 두 가지 후속 최적화 단계를 거칩니다:

  • 직접 선호 최적화(DPO): 모델의 진실성을 높이고 환각을 줄이기 위한 훈련.
  • 안전성 미세 조정: VLGuard와 같은 데이터셋을 사용하여 안전성을 개선하고 유해한 출력을 줄입니다.

8. 더 넓은 영향

xGen-MM은 모델, 데이터셋, 미세 조정 코드를 오픈 소스로 공개함으로써 대규모 멀티모달 연구를 더 접근 가능하게 만들어 다양한 과제에서 혁신을 촉진합니다. 특히 문서 이해, 시각적 인식, 멀티모달 인컨텍스트 학습 같은 작업에서 활용될 수 있습니다. 또한 안전성 조정 프로토콜을 포함하여 AI의 책임 있는 배포를 장려합니다.


참고자료:

  1. xGen-MM (BLIP-3) 프로젝트 페이지
  2. BLIP-2: 언어-이미지 사전 학습 부트스트래핑 논문
  3. 직접 선호 최적화(DPO) 논문

xGen-MM (BLIP-3) 프레임워크는 확장 가능한 LMM을 훈련하는 데 있어 중요한 진전을 보여주며, 최적화된 아키텍처와 대규모 데이터셋, 간소화된 훈련 목표를 통해 더 나은 멀티모달 성능을 발휘합니다.

출처: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
https://arxiv.org/pdf/2408.08872


xGen-MM (BLIP-3): A framework for developing large multimodal models (LMMs), aiming to improve the performance of models that handle both visual and textual data. Here’s a detailed summary of the key points:

1. Research Background

Large multimodal models (LMMs) have seen rapid progress, with various proprietary and open-source models being developed to integrate vision and language capabilities. While models like BLIP-2 made early strides in this area, their datasets were limited in size and diversity, and their architecture posed obstacles to scalability. To address these challenges, xGen-MM (BLIP-3) was introduced, building on Salesforce's previous efforts in foundation AI models such as xGen.

2. Key Contributions

xGen-MM enhances the BLIP-2 framework by:

  • Increasing data scale and diversity: It introduces large-scale datasets like MINT-1T, a trillion-token dataset, and BLIP3-KALE, a high-quality dense caption dataset. This improves the model's ability to learn from a broader range of image-text data.
  • Replacing Q-Former with a Vision Token Sampler: The complex Q-Former architecture used in BLIP-2 is replaced by a more scalable perceiver resampler, which simplifies training and improves efficiency.
  • Unified Training Objective: The multiple objectives (ITM, ITC, and ITG losses) in BLIP-2 are replaced by a single auto-regressive loss for text tokens, streamlining the training process.

3. Model Architecture

The xGen-MM architecture uses a Vision Transformer (ViT) paired with a vision token sampler (perceiver resampler) to handle visual inputs. The input to the model includes multimodal data, such as images and text, which are tokenized separately and then processed by a pre-trained large language model (LLM). The model uses dynamic image encoding, splitting images into patches and encoding each separately to preserve resolution.

4. Training and Fine-Tuning

xGen-MM is pre-trained on approximately 100 billion multimodal tokens, with images encoded at resolutions of 384x384 pixels. After pre-training, the model undergoes supervised fine-tuning (SFT) on instruction-following datasets to improve its understanding of user queries. The model also undergoes multi-image fine-tuning to handle interleaved image-text inputs effectively.

Additionally, the model undergoes post-training with Direct Preference Optimization (DPO) and safety fine-tuning to mitigate harmful behaviors like hallucinations and improve user interaction.

5. Datasets

  • MINT-1T: A trillion-token multimodal dataset sourced from HTML, PDF, and ArXiv.
  • BLIP3-OCR-200M: A dataset with dense OCR annotations, curated to enhance the model's ability to handle text-rich images.
  • BLIP3-GROUNDING-50M: A large-scale dataset for grounding visual features to semantic concepts, essential for tasks like object detection and segmentation.

6. Performance and Evaluation

xGen-MM shows competitive performance across a wide range of tasks, including Visual Question Answering (VQA), optical character recognition (OCR), and document understanding. The model excels in tasks requiring in-context learning and performs well on both single-image and multi-image benchmarks. The model also demonstrates significant improvements in OCR and grounding tasks, thanks to the large-scale specialized datasets.

7. Post-Training Optimization

xGen-MM goes through two stages of post-training:

  • Direct Preference Optimization (DPO): Aimed at enhancing the model’s truthfulness and reducing hallucinations.
  • Safety Fine-Tuning: Improves the model’s safety and reduces harmful outputs by training on datasets like VLGuard, which contains unsafe image-text pairs.

8. Broader Impact

By open-sourcing the models, datasets, and fine-tuning code, xGen-MM aims to make large-scale multimodal research more accessible to the community, promoting innovation in tasks such as document understanding, visual perception, and multimodal in-context learning. The inclusion of safety-tuning protocols helps mitigate ethical risks, promoting responsible deployment of AI.


References:

  1. xGen-MM (BLIP-3) Project Page
  2. BLIP-2: Bootstrapping Language-Image Pre-training
  3. Direct Preference Optimization (DPO) Paper

The xGen-MM (BLIP-3) framework demonstrates advancements in training scalable LMMs, enabling better multimodal capabilities through optimized architecture, large-scale datasets, and simplified training objectives.

Source: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
https://arxiv.org/pdf/2408.08872

반응형