1. 연구 배경 및 목적최근 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 성공으로 텍스트와 이미지를 결합하여 더 나은 시각적 인식 능력을 갖춘 모델의 필요성이 부각되었습니다. 이 논문은 MLLMs에서 이미지 처리 인코더, 즉 비전 인코더를 혼합하여 시각 정보를 처리하는 방법을 연구하고, 이를 통해 고해상도 이미지 분석이나 문서 인식과 같은 해상도 민감 작업에서의 성능 향상을 목표로 합니다.2. EAGLE 모델의 주요 특징다중 비전 인코더 사용: 다양한 비전 인코더를 혼합하여 시각 인식 성능을 향상시키는 전략을 사용합니다.단순한 퓨전 전략: 비전 인코더 간의 단순한 채널 결합(channel concatenation) 전략이 복잡한 혼합 전략만큼이나 효..