2604 lines
1.3 MiB
2604 lines
1.3 MiB
[38;5;12m [39m[38;2;255;187;0m[1m[4m👁️🗨️Awesome VLM Architectures [0m[38;5;14m[1m[4m![0m[38;2;255;187;0m[1m[4mAwesome[0m[38;5;14m[1m[4m (https://awesome.re/badge.svg)[0m[38;2;255;187;0m[1m[4m (https://awesome.re)[0m
|
||
[38;5;12m![39m[38;5;14m[1mVLM[0m[38;5;12m (https://github.com/gokayfem/Awesome-VLM-Architectures/assets/88277926/5c9ee091-1f37-4d92-8398-a7d4e006c014)[39m
|
||
|
||
[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mModels[0m[38;5;14m[1m [0m[38;5;14m[1m(VLMs)[0m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msimultaneously.[39m[38;5;12m [39m[38;5;12mThey[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mperform[39m[38;5;12m [39m[38;5;14m[1mVisual[0m[38;5;14m[1m [0m[38;5;14m[1mQuestion[0m[38;5;14m[1m [0m[38;5;14m[1mAnswering[0m[38;5;14m[1m [0m[38;5;14m[1m(VQA)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mcaptioning[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mText-To-Image[0m[38;5;14m[1m [0m[38;5;14m[1msearch[0m[38;5;12m [39m[38;5;12mkind[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12mutilize[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m
|
||
[38;5;12mlike[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfusing[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcross-attention,[39m[38;5;12m [39m[38;5;12mmasked-language[39m[38;5;12m [39m[38;5;12mmodeling,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mmatching[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrelate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msemantics[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mrepository[39m[38;5;12m [39m[38;5;12mcontains[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mfamous[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(VLMs),[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m
|
||
[38;5;12mabout[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12marchitectures,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocedures,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;14m[1mClick[0m[38;5;14m[1m [0m[38;5;14m[1mto[0m[38;5;14m[1m [0m[38;5;14m[1mexpand[0m[38;5;14m[1m [0m[38;5;14m[1mfor[0m[38;5;14m[1m [0m[38;5;14m[1mfurther[0m[38;5;14m[1m [0m[38;5;14m[1mdetails[0m[38;5;14m[1m [0m[38;5;14m[1mfor[0m[38;5;14m[1m [0m[38;5;14m[1mevery[0m[38;5;14m[1m [0m[38;5;14m[1marchitecture[0m
|
||
[38;5;12m- 📙 [39m
|
||
|
||
[38;2;255;187;0m[4mContents[0m
|
||
|
||
[38;5;12m- [39m[38;5;14m[1mArchitectures[0m[38;5;12m (#architectures)[39m
|
||
[38;5;12m- [39m[38;5;14m[1mImportant References[0m[38;5;12m (#important-references)[39m
|
||
|
||
[38;2;255;187;0m[4mModels[0m
|
||
|
||
[38;5;14m[1mLLaVA[0m[38;5;12m [39m[38;5;12m(#llava-large-language-and-vision-assistant---visual-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLLaVA[0m[38;5;14m[1m [0m[38;5;14m[1m1.5[0m[38;5;12m [39m[38;5;12m(#llava-15-improved-baselines-with-visual-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLLaVA[0m[38;5;14m[1m [0m[38;5;14m[1m1.6[0m[38;5;12m [39m[38;5;12m(#llava-16-llava-next-improved-reasoning-ocr-and-world-knowledge)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPaliGemma[0m[38;5;12m [39m
|
||
[38;5;12m(#paligemma-a-versatile-and-transferable-3b-vision-language-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPaliGemma[0m[38;5;14m[1m [0m[38;5;14m[1m2[0m[38;5;12m [39m[38;5;12m(#paligemma-2-a-family-of-versatile-vlms-for-transfer)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mAIMv2[0m[38;5;12m [39m[38;5;12m(#aimv2-multimodal-autoregressive-pre-training-of-large-vision-encoders)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mApollo[0m[38;5;12m [39m
|
||
[38;5;12m(#apollo-an-exploration-of-video-understanding-in-large-multimodal-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mARIA[0m[38;5;12m [39m[38;5;12m(#aria-an-open-multimodal-native-mixture-of-experts-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mEVE[0m[38;5;12m [39m[38;5;12m(#eve-unveiling-encoder-free-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mEVEv2[0m[38;5;12m [39m
|
||
[38;5;12m(#evev2-improved-baselines-for-encoder-free-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mJanus-Pro[0m[38;5;12m [39m[38;5;12m(#janus-pro-unified-multimodal-understanding-and-generation-with-data-and-model-scaling)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLLaVA-CoT[0m[38;5;12m [39m[38;5;12m(#llava-cot-let-vision-language-models-reason-step-by-step)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m
|
||
[38;5;14m[1mLLM2CLIP[0m[38;5;12m [39m[38;5;12m(#llm2clip-powerful-language-model-unlocks-richer-visual-representation)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMaya[0m[38;5;12m [39m[38;5;12m(#maya-an-instruction-finetuned-multilingual-multimodal-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMiniMax-01[0m[38;5;12m [39m[38;5;12m(#minimax-01-scaling-foundation-models-with-lightning-attention)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mNVLM[0m[38;5;12m [39m
|
||
[38;5;12m(#nvlm-open-frontier-class-multimodal-llms)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mOmniVLM[0m[38;5;12m [39m[38;5;12m(#omnivlm-a-token-compressed-sub-billion-parameter-vision-language-model-for-efficient-on-device-inference)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPixtral[0m[38;5;14m[1m [0m[38;5;14m[1m12B[0m[38;5;12m [39m[38;5;12m(#pixtral-12b-a-cutting-edge-open-multimodal-language-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSa2VA[0m[38;5;12m [39m
|
||
[38;5;12m(#sa2va-marrying-sam2-with-llava-for-dense-grounded-understanding-of-images-and-videos)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mTarsier2[0m[38;5;12m [39m[38;5;12m(#tarsier2-advancing-large-vision-language-models-from-detailed-video-description-to-comprehensive-video-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mUI-TARS[0m[38;5;12m [39m
|
||
[38;5;12m(#ui-tars-pioneering-automated-gui-interaction-with-native-agents)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mVideoChat-Flash[0m[38;5;12m [39m[38;5;12m(#videochat-flash-hierarchical-compression-for-long-context-video-modeling)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mVideoLLaMA[0m[38;5;14m[1m [0m[38;5;14m[1m3[0m[38;5;12m [39m
|
||
[38;5;12m(#videollama-3-frontier-multimodal-foundation-models-for-image-and-video-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLlama[0m[38;5;14m[1m [0m[38;5;14m[1m3.2-Vision[0m[38;5;12m [39m[38;5;12m(#llama-32-vision-enhanced-multimodal-capabilities-built-on-llama-3)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSmolVLM[0m[38;5;12m [39m
|
||
[38;5;12m(#smolvlm-a-small-efficient-and-open-source-vision-language-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mIDEFICS[0m[38;5;12m [39m[38;5;12m(#idefics)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mIDEFICS2[0m[38;5;12m [39m[38;5;12m(#idefics2)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mIDEFICS3-8B[0m[38;5;12m [39m[38;5;12m(#idefics3-8b-building-and-better-understanding-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mInternLM-XComposer2[0m[38;5;12m [39m
|
||
[38;5;12m(#internlm-xcomposer2-mastering-free-form-text-image-composition-and-comprehension-in-vision-language-large-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mInternLM-XComposer2-4KHD[0m[38;5;12m [39m
|
||
[38;5;12m(#internlm-xcomposer2-4khd-a-pioneering-large-vision-language-model-handling-resolutions-from-336-pixels-to-4k-hd)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mInternLM-XComposer-2.5[0m[38;5;12m [39m
|
||
[38;5;12m(#internlm-xcomposer-25-a-versatile-large-vision-language-model-supporting-long-contextual-input-and-output)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mInternVL[0m[38;5;14m[1m [0m[38;5;14m[1m2.5[0m[38;5;12m [39m[38;5;12m(#internvl-25-expanding-performance-boundaries-of-open-source-multimodal-models-with-model-data-and-test-time-scaling)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m
|
||
[38;5;14m[1mDeepSeek-VL[0m[38;5;12m [39m[38;5;12m(#deepseek-vl-towards-real-world-vision-language-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mDeepSeek-VL2[0m[38;5;12m [39m[38;5;12m(#deepseek-vl2-mixture-of-experts-vision-language-models-for-advanced-multimodal-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMANTIS[0m[38;5;12m [39m
|
||
[38;5;12m(#mantis-mastering-multi-image-understanding-through-interleaved-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mQwen-VL[0m[38;5;12m [39m[38;5;12m(#qwen-vl-a-versatile-vision-language-model-for-understanding-localization-text-reading-and-beyond)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mQwen2-VL[0m[38;5;12m [39m
|
||
[38;5;12m(#qwen2-vl-a-powerful-open-source-vision-language-model-for-image-and-video-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mQwen2.5-VL[0m[38;5;12m [39m[38;5;12m(#qwen25-vl-enhanced-vision-language-capabilities-in-the-qwen-series)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mmoondream1[0m[38;5;12m [39m[38;5;12m(#moondream1-and-moondream2)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mmoondream2[0m[38;5;12m [39m
|
||
[38;5;12m(#moondream1-and-moondream2)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMoondream-next[0m[38;5;12m [39m[38;5;12m(#moondream-next-compact-vision-language-model-with-enhanced-capabilities)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSPHINX-X[0m[38;5;12m [39m[38;5;12m(#sphinx-x-scaling-data-and-parameters-for-a-family-of-multi-modal-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mBLIP[0m[38;5;12m [39m
|
||
[38;5;12m(#blip-bootstrapping-language-image-pre-training)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mBLIP-2[0m[38;5;12m [39m[38;5;12m(#blip-2-bootstrapping-language-image-pre-training-with-frozen-image-encoders-and-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mxGen-MM[0m[38;5;14m[1m [0m[38;5;14m[1m(BLIP-3)[0m[38;5;12m [39m
|
||
[38;5;12m(#xgen-mm-blip-3-an-open-source-framework-for-building-powerful-and-responsible-large-multimodal-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mInstructBLIP[0m[38;5;12m [39m[38;5;12m(#instructblip-towards-general-purpose-vision-language-models-with-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mKOSMOS-1[0m[38;5;12m [39m
|
||
[38;5;12m(#kosmos-1-language-is-not-all-you-need-aligning-perception-with-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mKOSMOS-2[0m[38;5;12m [39m[38;5;12m(#kosmos-2-grounding-multimodal-large-language-models-to-the-world)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mConvLLaVA[0m[38;5;12m [39m
|
||
[38;5;12m(#convllava-hierarchical-backbones-as-visual-encoder-for-large-multimodal-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mParrot[0m[38;5;12m [39m[38;5;12m(#parrot-multilingual-visual-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mOMG-LLaVA[0m[38;5;12m [39m[38;5;12m(#omg-llava-bridging-image-level-object-level-pixel-level-reasoning-and-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mEVLM[0m[38;5;12m [39m
|
||
[38;5;12m(#evlm-an-efficient-vision-language-model-for-visual-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSlowFast-LLaVA[0m[38;5;12m [39m[38;5;12m(#slowfast-llava-a-strong-training-free-baseline-for-video-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mNous-Hermes-2-Vision[0m[38;5;14m[1m [0m[38;5;14m[1m-[0m[38;5;14m[1m [0m[38;5;14m[1mMistral[0m[38;5;14m[1m [0m[38;5;14m[1m7B[0m[38;5;12m [39m[38;5;12m(#nous-hermes-2-vision---mistral-7b)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m
|
||
[38;5;14m[1mTinyGPT-V[0m[38;5;12m [39m[38;5;12m(#tinygpt-v-efficient-multimodal-large-language-model-via-small-backbones)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mCoVLM[0m[38;5;12m [39m[38;5;12m(#covlm-composing-visual-entities-and-relationships-in-large-language-models-via-communicative-decoding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mGLaMM[0m[38;5;12m [39m
|
||
[38;5;12m(#glamm-pixel-grounding-large-multimodal-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mCOSMO[0m[38;5;12m [39m[38;5;12m(#cosmo-contrastive-streamlined-multimodal-model-with-interleaved-pre-training)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFireLLaVA[0m[38;5;12m [39m[38;5;12m(#firellava)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mu-LLaVA[0m[38;5;12m [39m[38;5;12m(#u-llava-unifying-multi-modal-tasks-via-large-language-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMoE-LLaVA[0m[38;5;12m [39m
|
||
[38;5;12m(#moe-llava-mixture-of-experts-for-large-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mBLIVA[0m[38;5;12m [39m[38;5;12m(#bliva-a-simple-multimodal-llm-for-better-handling-of-text-rich-visual-questions)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMobileVLM[0m[38;5;12m [39m
|
||
[38;5;12m(#mobilevlm-a-fast-strong-and-open-vision-language-assistant-for-mobile-devices)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFROZEN[0m[38;5;12m [39m[38;5;12m(#frozen-multimodal-few-shot-learning-with-frozen-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFlamingo[0m[38;5;12m [39m[38;5;12m(#flamingo-a-visual-language-model-for-few-shot-learning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mOpenFlamingo[0m[38;5;12m [39m
|
||
[38;5;12m(#openflamingo-an-open-source-framework-for-training-large-autoregressive-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPaLI[0m[38;5;12m [39m[38;5;12m(#pali-a-jointly-scaled-multilingual-language-image-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPaLI-3[0m[38;5;12m [39m[38;5;12m(#pali-3-vision-language-models-smaller-faster-stronger)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mPaLM-E[0m[38;5;12m [39m
|
||
[38;5;12m(#palm-e-an-embodied-multimodal-language-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMiniGPT-4[0m[38;5;12m [39m[38;5;12m(#minigpt-4-enhancing-vision-language-understanding-with-advanced-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMiniGPT-v2[0m[38;5;12m [39m
|
||
[38;5;12m(#minigpt-v2-large-language-model-as-a-unified-interface-for-vision-language-multi-task-learning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLLaVA-Plus[0m[38;5;12m [39m[38;5;12m(#llava-plus-learning-to-use-tools-for-creating-multimodal-agents)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mBakLLaVA[0m[38;5;12m [39m[38;5;12m(#bakllava)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mCogVLM[0m[38;5;12m [39m
|
||
[38;5;12m(#cogvlm-visual-expert-for-pretrained-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mCogVLM2[0m[38;5;12m [39m[38;5;12m(#cogvlm2-enhanced-vision-language-models-for-image-and-video-understanding)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFerret[0m[38;5;12m [39m[38;5;12m(#ferret-refer-and-ground-anything-anywhere-at-any-granularity)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFuyu-8B[0m[38;5;12m [39m
|
||
[38;5;12m(#fuyu-8b-a-multimodal-architecture-for-ai-agents)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mOtterHD[0m[38;5;12m [39m[38;5;12m(#otterhd-a-high-resolution-multi-modality-model)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSPHINX[0m[38;5;12m [39m[38;5;12m(#sphinx-the-joint-mixing-of-weights-tasks-and-visual-embeddings-for-multi-modal-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mEagle[0m[38;5;14m[1m [0m[38;5;14m[1m2[0m[38;5;12m [39m
|
||
[38;5;12m(#eagle-2-building-post-training-data-strategies-from-scratch-for-frontier-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mEAGLE[0m[38;5;12m [39m[38;5;12m(#eagle-exploring-the-design-space-for-multimodal-llms-with-mixture-of-encoders)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mVITA[0m[38;5;12m [39m
|
||
[38;5;12m(#vita-towards-open-source-interactive-omni-multimodal-llm)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLLaVA-OneVision[0m[38;5;12m [39m[38;5;12m(#llava-onevision-easy-visual-task-transfer)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMiniCPM-o-2.6[0m[38;5;12m [39m[38;5;12m(#minicpm-o-26-a-gpt-4o-level-mllm-for-vision-speech-and-multimodal-live-streaming)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMiniCPM-V[0m[38;5;12m [39m
|
||
[38;5;12m(#minicpm-v-a-gpt-4v-level-mllm-on-your-phone)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mINF-LLaVA[0m[38;5;12m [39m[38;5;12m(#inf-llava-high-resolution-image-perception-for-multimodal-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mFlorence-2[0m[38;5;12m [39m[38;5;12m(#florence-2-a-deep-dive-into-its-unified-architecture-and-multi-task-capabilities)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m
|
||
[38;5;14m[1mMULTIINSTRUCT[0m[38;5;12m [39m[38;5;12m(#multiinstruct-improving-multi-modal-zero-shot-learning-via-instruction-tuning)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMouSi[0m[38;5;12m [39m[38;5;12m(#mousi-poly-visual-expert-vision-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mLaVIN[0m[38;5;12m [39m
|
||
[38;5;12m(#lavin-cheap-and-quick-efficient-vision-language-instruction-tuning-for-large-language-models)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mCLIP[0m[38;5;12m [39m[38;5;12m(#clip-contrastive-language-image-pre-training)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mMetaCLIP[0m[38;5;12m [39m[38;5;12m(#metaclip-demystifying-clip-data)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mAlpha-CLIP[0m[38;5;12m [39m
|
||
[38;5;12m(#alpha-clip-a-clip-model-focusing-on-wherever-you-want)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mGLIP[0m[38;5;12m [39m[38;5;12m(#glip-grounded-language-image-pre-training)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mImageBind[0m[38;5;12m [39m[38;5;12m(#imagebind-one-embedding-space-to-bind-them-all)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mSigLIP[0m[38;5;12m [39m[38;5;12m(#siglip-sigmoid-loss-for-language-image-pre-training)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;14m[1mViT[0m[38;5;12m [39m
|
||
[38;5;12m(#vit-an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale)[39m[38;5;12m [39m
|
||
|
||
[38;2;255;187;0m[4mArchitectures[0m
|
||
|
||
[38;5;14m[1m[4mLLaVA: Large Language and Vision Assistant - Visual Instruction Tuning[0m
|
||
|
||
[38;5;12mLLaVA seamlessly integrates a pre-trained language model (Vicuna) with a visual encoder (CLIP) using a simple linear layer, creating a robust architecture capable of effectively processing and understanding language-image instructions.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2304.08485-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2304.08485)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/haotian-liu/LLaVA)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://llava.hliu.cc/)[39m[38;5;12m [39m
|
||
[38;5;12mHaotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee[39m
|
||
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;14m[1mLLaVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mheart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLaVA's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mstrengths[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mintricate[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnoteworthy[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1msimple[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbridges[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mword[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m
|
||
[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mprocedure.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mfocused[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mfiltered[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msynchronize[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mword[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mSubsequently,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m
|
||
[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mchatbot[39m[38;5;12m [39m[38;5;12mfunctionalities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mScience[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12maim[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mprowess.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12munderpinned[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m
|
||
[38;5;12mdata[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mGPT-4,[39m[38;5;12m [39m[38;5;12mconverting[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mformats[39m[38;5;12m [39m[38;5;12mconducive[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minnovatively[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mtrainable[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mmatrix[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mconverting[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m
|
||
[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mdimensional[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mencode[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcohesively.The[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mdeployed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mLLaVA's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mevaluation[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mstrategically[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbolster[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mFiltered[39m[38;5;12m [39m[38;5;12mCC3M[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA-Instruct-158K[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mGPT-4[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mScienceQA[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mplays[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12massessing[39m[38;5;12m [39m[38;5;12mLLaVA's[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12madvance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mLLaVA 1.5: Improved Baselines with Visual Instruction Tuning[0m
|
||
|
||
[38;5;12mLLaVA 1.5 enhances its multimodal understanding by replacing its initial linear projection with a more powerful multi-layer perceptron (MLP), enabling a deeper integration of visual features from CLIP-ViT-L-336px and linguistic data.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2310.03744-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2310.03744) [39m
|
||
[38;5;12mHaotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee[39m
|
||
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mLLaVA[0m[38;5;14m[1m [0m[38;5;14m[1m1.5[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12miteration[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrefined[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP-ViT-L-336px[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mmulti-layer[0m[38;5;14m[1m [0m[38;5;14m[1mperceptron[0m[38;5;14m[1m [0m[38;5;14m[1m(MLP)[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mboosts[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mleap[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture's[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP-ViT-L[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12mconnection,[39m[38;5;12m [39m[38;5;12mwork[39m[38;5;12m [39m[38;5;12msynergistically[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12minputs.Training[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mhave[39m[38;5;12m [39m[38;5;12mbeen[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12munprecedented[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m11[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mfeature[39m
|
||
[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12macademic[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mshift[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques,[39m[38;5;12m [39m[38;5;14m[1mreplacing[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1moriginal[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mvision-language[0m[38;5;14m[1m [0m[38;5;14m[1mconnector[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mimprovement[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeeper[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mMoreover,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12madoption[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mMLP-based[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mconnector[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m
|
||
[38;5;12mstrengthens[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmerge[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12meffectively,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mcloser[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace.The[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mVQA-v2,[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12macademic-task-oriented[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12menriched[39m[38;5;12m [39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregion-level[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12melevating[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12m1.5's[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstandards[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m
|
||
[38;5;12macademic-task-oriented[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12madvancements,[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mpushes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfuture[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mLLaVA 1.6: LLaVA-NeXT Improved reasoning, OCR, and world knowledge[0m
|
||
|
||
[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12madvances[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mLLaVA-1.5[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mprocessing,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdata-efficient[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrefined[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m
|
||
[38;5;12mprocess.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://llava-vl.github.io/blog/2024-01-30-llava-next/) [39m
|
||
[38;5;12mHaotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, Yong Jae Lee[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mLLaVA-NeXT[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12mforward[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mevolution[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundations[39m[38;5;12m [39m[38;5;12mlaid[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mLLaVA-1.5.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12menhancements[39m[38;5;12m [39m[38;5;12maimed[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution,[39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12moptical[39m[38;5;12m [39m[38;5;12mcharacter[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12m(OCR),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge,[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mretaining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mminimalist[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata-efficient[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m
|
||
[38;5;12msupporting[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m672x672,[39m[38;5;12m [39m[38;5;12m336x1344,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m1344x336[39m[38;5;12m [39m[38;5;12mpixels.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mimprovement[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mwhich,[39m[38;5;12m [39m[38;5;12mcoupled[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mmixture,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mbolsters[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSGLang,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mdesign's[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mefficiency.Training[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12mrequires[39m[38;5;12m [39m[38;5;12mless[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m
|
||
[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12msamples,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mpre-trained[0m[38;5;14m[1m [0m[38;5;14m[1mconnector[0m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mLLaVA-1.5[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mtransfer.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mremarkably[39m[38;5;12m [39m[38;5;12mswift,[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12m32[39m[38;5;12m [39m[38;5;12mA100[39m[38;5;12m [39m[38;5;12mGPUs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcompletes[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mapproximately[39m[38;5;12m [39m[38;5;12mone[39m[38;5;12m [39m[38;5;12mday,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtestament[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfollowing.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mtechniques,[39m[38;5;12m [39m[38;5;12mknown[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12m'AnyRes',[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12mresolutions,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding.The[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLAION-GPT-V,[39m[38;5;12m [39m[38;5;12mShareGPT-4V,[39m[38;5;12m [39m[38;5;12mDocVQA,[39m[38;5;12m [39m[38;5;12mSynDog-EN,[39m[38;5;12m [39m[38;5;12mChartQA,[39m[38;5;12m [39m[38;5;12mDVQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mAI2D,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maugment[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomprehension[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcharts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiagrams.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m
|
||
[38;5;12mselection[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12melevate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mimprovements,[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintersection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12munprecedented[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mapplication[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcontexts.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mPaliGemma: A Versatile and Transferable 3B Vision-Language Model[0m
|
||
|
||
[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompact,[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12measily[39m[38;5;12m [39m[38;5;12mtransferable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma-2B[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m40[39m[38;5;12m [39m
|
||
[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mremote-sensing,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmaximizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdensity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12msignal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mcheckpoints[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12mimage[39m
|
||
[38;5;12mresolutions.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12measily[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvaluable[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mresearchers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpractitioners[39m[38;5;12m [39m[38;5;12mexploring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVLMs.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2407.07726-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2407.07726)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m
|
||
[38;5;12m(https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/big-vision/paligemma)[39m[38;5;12m [39m
|
||
[38;5;12mLucas[39m[38;5;12m [39m[38;5;12mBeyer,[39m[38;5;12m [39m[38;5;12mAndreas[39m[38;5;12m [39m[38;5;12mSteiner,[39m[38;5;12m [39m[38;5;12mAndré[39m[38;5;12m [39m[38;5;12mSusano[39m[38;5;12m [39m[38;5;12mPinto,[39m[38;5;12m [39m[38;5;12mAlexander[39m[38;5;12m [39m[38;5;12mKolesnikov,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mSalz,[39m[38;5;12m [39m[38;5;12mMaxim[39m[38;5;12m [39m[38;5;12mNeumann,[39m[38;5;12m [39m[38;5;12mIbrahim[39m[38;5;12m [39m[38;5;12mAlabdulmohsin,[39m[38;5;12m [39m[38;5;12mMichael[39m[38;5;12m [39m[38;5;12mTschannen,[39m[38;5;12m [39m[38;5;12mEmanuele[39m[38;5;12m [39m[38;5;12mBugliarello,[39m[38;5;12m [39m[38;5;12mThomas[39m[38;5;12m [39m[38;5;12mUnterthiner,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mKeysers,[39m[38;5;12m [39m[38;5;12mSkanda[39m[38;5;12m [39m[38;5;12mKoppula,[39m[38;5;12m [39m[38;5;12mFangyu[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mAdam[39m[38;5;12m [39m
|
||
[38;5;12mGrycner,[39m[38;5;12m [39m[38;5;12mAlexey[39m[38;5;12m [39m[38;5;12mGritsenko,[39m[38;5;12m [39m[38;5;12mNeil[39m[38;5;12m [39m[38;5;12mHoulsby,[39m[38;5;12m [39m[38;5;12mManoj[39m[38;5;12m [39m[38;5;12mKumar,[39m[38;5;12m [39m[38;5;12mKeran[39m[38;5;12m [39m[38;5;12mRong,[39m[38;5;12m [39m[38;5;12mJulian[39m[38;5;12m [39m[38;5;12mEisenschlos,[39m[38;5;12m [39m[38;5;12mRishabh[39m[38;5;12m [39m[38;5;12mKabra,[39m[38;5;12m [39m[38;5;12mMatthias[39m[38;5;12m [39m[38;5;12mBauer,[39m[38;5;12m [39m[38;5;12mMatko[39m[38;5;12m [39m[38;5;12mBošnjak,[39m[38;5;12m [39m[38;5;12mXi[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mMatthias[39m[38;5;12m [39m[38;5;12mMinderer,[39m[38;5;12m [39m[38;5;12mPaul[39m[38;5;12m [39m[38;5;12mVoigtlaender,[39m[38;5;12m [39m[38;5;12mIoana[39m[38;5;12m [39m[38;5;12mBica,[39m[38;5;12m [39m[38;5;12mIvana[39m[38;5;12m [39m[38;5;12mBalazevic,[39m[38;5;12m [39m[38;5;12mJoan[39m[38;5;12m [39m[38;5;12mPuigcerver,[39m[38;5;12m [39m[38;5;12mPinelopi[39m[38;5;12m [39m[38;5;12mPapalampidi,[39m
|
||
[38;5;12mOlivier[39m[38;5;12m [39m[38;5;12mHenaff,[39m[38;5;12m [39m[38;5;12mXi[39m[38;5;12m [39m[38;5;12mXiong,[39m[38;5;12m [39m[38;5;12mRadu[39m[38;5;12m [39m[38;5;12mSoricut,[39m[38;5;12m [39m[38;5;12mJeremiah[39m[38;5;12m [39m[38;5;12mHarmsen,[39m[38;5;12m [39m[38;5;12mXiaohua[39m[38;5;12m [39m[38;5;12mZhai[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtransferable[39m[38;5;12m [39m[38;5;12m3-billion[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mapplicability[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIts[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mSigLIP-So400m[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mknown[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mexceptional[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mdespite[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12msize,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma-2B[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mautoregressive[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12mfamily.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m
|
||
[38;5;12menables[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mranging[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mremote-sensing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mPaliGemma's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mextracted[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvocabulary[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPaliGemma's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12memphasis[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m"density[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12msignal,"[39m[38;5;12m [39m[38;5;12mprioritizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mskills[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m
|
||
[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mstarts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mindividual[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mpublicly[39m[38;5;12m [39m[38;5;12mavailable[39m[38;5;12m [39m[38;5;12mcheckpoints,[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mNotably,[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m
|
||
[38;5;12mdeviates[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12mpractice[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpretraining,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrelational[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mcaptioning.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mincrease[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhigher-resolution[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbenefit[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mfiner[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdetails.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12mcheckpoints[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(224px,[39m[38;5;12m [39m[38;5;12m448px,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m896px),[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mcheckpoints[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12measily[39m[38;5;12m [39m[38;5;12mtransferred[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mPaliGemma's[39m[38;5;12m [39m[38;5;12mtransferability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdemonstrated[39m[38;5;12m [39m
|
||
[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m30[39m[38;5;12m [39m[38;5;12macademic[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12minvolving[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mNLVR2[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mshort-video[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madapt[39m[38;5;12m [39m[38;5;12mquickly[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mhighlights[39m
|
||
[38;5;12mits[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmakes[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvaluable[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mexploring[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVLMs.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mnature,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstraightforward[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipe,[39m[38;5;12m [39m[38;5;12mencourages[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mexperimentation[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mcommunity,[39m[38;5;12m [39m[38;5;12mdriving[39m[38;5;12m [39m[38;5;12mprogress[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneral-purpose[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12msystems.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mPaliGemma 2: A Family of Versatile VLMs for Transfer[0m
|
||
|
||
[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mupgraded[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(VLMs)[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSigLIP-So400m[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12moffers[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12m(3B,[39m[38;5;12m [39m[38;5;12m10B,[39m[38;5;12m [39m[38;5;12m28B)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(224px²,[39m[38;5;12m [39m[38;5;12m448px²,[39m[38;5;12m [39m
|
||
[38;5;12m896px²),[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mtransfer.[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mOCR-related[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mtable/molecular/music[39m[38;5;12m [39m[38;5;12mscore[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlong-form[39m[38;5;12m [39m[38;5;12mcaptioning.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.03555-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.03555)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48) [39m
|
||
[38;5;12mAndreas[39m[38;5;12m [39m[38;5;12mSteiner,[39m[38;5;12m [39m[38;5;12mAndré[39m[38;5;12m [39m[38;5;12mSusano[39m[38;5;12m [39m[38;5;12mPinto,[39m[38;5;12m [39m[38;5;12mMichael[39m[38;5;12m [39m[38;5;12mTschannen,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mKeysers,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mYonatan[39m[38;5;12m [39m[38;5;12mBitton,[39m[38;5;12m [39m[38;5;12mAlexey[39m[38;5;12m [39m[38;5;12mGritsenko,[39m[38;5;12m [39m[38;5;12mMatthias[39m[38;5;12m [39m[38;5;12mMinderer,[39m[38;5;12m [39m[38;5;12mAnthony[39m[38;5;12m [39m[38;5;12mSherbondy,[39m[38;5;12m [39m[38;5;12mShangbang[39m[38;5;12m [39m[38;5;12mLong,[39m[38;5;12m [39m[38;5;12mSiyang[39m[38;5;12m [39m[38;5;12mQin,[39m[38;5;12m [39m[38;5;12mReeve[39m[38;5;12m [39m[38;5;12mIngle,[39m[38;5;12m [39m[38;5;12mEmanuele[39m[38;5;12m [39m[38;5;12mBugliarello,[39m[38;5;12m [39m[38;5;12mSahar[39m[38;5;12m [39m[38;5;12mKazemzadeh,[39m[38;5;12m [39m[38;5;12mThomas[39m[38;5;12m [39m
|
||
[38;5;12mMesnard,[39m[38;5;12m [39m[38;5;12mIbrahim[39m[38;5;12m [39m[38;5;12mAlabdulmohsin,[39m[38;5;12m [39m[38;5;12mLucas[39m[38;5;12m [39m[38;5;12mBeyer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mXiaohua[39m[38;5;12m [39m[38;5;12mZhai[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mclosely[39m[38;5;12m [39m[38;5;12mfollows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mPaliGemma.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mSigLIP-So400m[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmapped[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mlinear[0m[48;2;30;30;40m[38;5;13m[3m [0m
|
||
[48;2;30;30;40m[38;5;13m[3mprojection[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mautoregressively[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moutput.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcomes[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mvariants[39m[38;5;12m [39m[38;5;12m(2B,[39m[38;5;12m [39m[38;5;12m9B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m27B[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mcomponent,[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12m3B,[39m[38;5;12m [39m[38;5;12m10B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m28B[39m[38;5;12m [39m[38;5;12mtotal[39m[38;5;12m [39m[38;5;12mparameters)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(224x224,[39m[38;5;12m [39m[38;5;12m448x448,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m896x896[39m[38;5;12m [39m[38;5;12mpixels).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12manalysis[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minterplay[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msize,[39m[38;5;12m [39m[38;5;12mresolution,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mgets[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mautoregressively[39m[38;5;12m [39m[38;5;12mcompletes[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12manswer.[39m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12m2's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfollows[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mPaliGemma:[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m1:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mSigLIP-So400m[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mcheckpoints[39m[38;5;12m [39m
|
||
[38;5;12mare[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mjointly[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mexamples.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12m224px².[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m2:[0m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mcontinues[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12m50[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mexamples[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12m448px²[39m[38;5;12m [39m[38;5;12mresolution,[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12m10[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mexamples[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12m896px².[39m[38;5;12m [39m[38;5;12mTasks[39m[38;5;12m [39m
|
||
[38;5;12mbenefiting[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mupweighted.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m3:[0m[38;5;12m [39m[38;5;12mFine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcheckpoints[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtarget[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12m(VQA),[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12minstance[39m[38;5;12m [39m[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mNotably,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mrelies[39m[38;5;12m [39m[38;5;12mheavily[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mmachine-generated[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mlabels[0m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mpublicly[39m[38;5;12m [39m[38;5;12mavailable[39m[38;5;12m [39m[38;5;12mspecialist[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mavoiding[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mthe[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3muse[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mof[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mlarge[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mcommercial[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mVLMs[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlabel[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;14m[1mGemma[0m[38;5;14m[1m [0m[38;5;14m[1m2[0m[38;5;14m[1m [0m[38;5;14m[1mLanguage[0m[38;5;14m[1m [0m[38;5;14m[1mModels:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mupgrade[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mrecent[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mreplacing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mGemma[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mPaliGemma.[39m[38;5;12m [39m[38;5;14m[1mResolution[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1mSize[0m[38;5;14m[1m [0m[38;5;14m[1mScaling:[0m[38;5;12m [39m[38;5;12mPaliGemma[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12msystematically[39m[38;5;12m [39m[38;5;12mexplores[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimpact[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m
|
||
[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcontribution,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mprior[39m[38;5;12m [39m[38;5;12mwork[39m[38;5;12m [39m[38;5;12mdid[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mjointly[39m[38;5;12m [39m[38;5;12mstudy[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mfactors[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mconsistent[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipes.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mAIMv2: Multimodal Autoregressive Pre-training of Large Vision Encoders[0m
|
||
|
||
[38;5;12mAIMv2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mgeneralist[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mautoregressively[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m
|
||
[38;5;12mlocalization,[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mclassification,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2411.14402-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2411.14402)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/apple/ml-aim)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/apple/aimv2-large-patch14-224) [39m
|
||
[38;5;12mEnrico Fini, Mustafa Shukor, David Haldimann, Sai Aitharaju, Alexander Toshev, Marcin Eichner, Moin Nabi, Xiujun Li, Philipp Dufter, Michal Klein, Victor G. Turrisi da Costa, Louis Béthune, Zhe Gan, Alaaeldin El-Nouby[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mAIMv2[39m[38;5;12m [39m[38;5;12m(Autoregressive[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12mv2)[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mextends[39m[38;5;12m [39m[38;5;12mautoregressive[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msetting,[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcausal[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdecoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mraw[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12m(using[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mattention),[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mautoregressively[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12m(using[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mMSE[39m[38;5;12m [39m[38;5;12mloss)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m
|
||
[38;5;12mtokens[39m[38;5;12m [39m[38;5;12m(using[39m[38;5;12m [39m[38;5;12mcross-entropy[39m[38;5;12m [39m[38;5;12mloss).[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtreated[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle,[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mjoint[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12malways[39m[38;5;12m [39m[38;5;12mprepended[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mbeginning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mresembles[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mAIM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLMs,[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12msolely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mautoregressive[39m[38;5;12m [39m[38;5;12mobjective.[39m[38;5;12m [39m[38;5;12mThere[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mno[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12minter-batch[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mexcessively[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m
|
||
[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mrequired.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcontrasts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12mCLIP,[39m[38;5;12m [39m[38;5;12mSigLIP),[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mchallenging[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtrain[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscale.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpublicly[39m[38;5;12m [39m[38;5;12mavailable[39m[38;5;12m [39m[38;5;12m(DFN-2B,[39m[38;5;12m [39m[38;5;12mCOYO)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m
|
||
[38;5;12m(HQITP),[39m[38;5;12m [39m[38;5;12mcomprising[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12malt-text[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mcaptions.[39m[38;5;12m [39m[38;5;12mAIMv2[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mproperties,[39m[38;5;12m [39m[38;5;12mconsistently[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mincreased[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mvariants[39m[38;5;12m [39m[38;5;12mranging[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m300[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m
|
||
[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12moptimization[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mbidirectional[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mOther[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mchoices[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mincorporation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSwiGLU[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mRMSNorm,[39m[38;5;12m [39m
|
||
[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mrecent[39m[38;5;12m [39m[38;5;12msuccesses[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling.[39m[38;5;12m [39m[38;5;12mAIMv2[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mperforms[39m[38;5;12m [39m[38;5;12mfavorably[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12m.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mexhibits[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mopen-vocabulary[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mexpression[39m[38;5;12m [39m[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12msurpassing[39m[38;5;12m [39m[38;5;12mDINOv2.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mtrunk.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madaptation[39m
|
||
[38;5;12mto[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mflexibility.[39m[38;5;12m [39m[38;5;12mPost-training[39m[38;5;12m [39m[38;5;12mstrategies,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12madaptation,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mAblation[39m[38;5;12m [39m[38;5;12mstudies[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimportance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mjoint[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mmodeling,[39m[38;5;12m [39m
|
||
[38;5;12mvalidate[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mchoices,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexplore[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mcharacteristics.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mApollo: An Exploration of Video Understanding in Large Multimodal Models[0m
|
||
|
||
|
||
[38;5;12mApollo[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LMMs)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12m"Scaling[39m[38;5;12m [39m[38;5;12mConsistency"[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexploring[39m[38;5;12m [39m[38;5;12mvideo-specific[39m[38;5;12m [39m[38;5;12maspects[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m
|
||
[38;5;12msampling,[39m[38;5;12m [39m[38;5;12marchitectures,[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcomposition,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mschedules.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mart,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mApollo-3B[39m[38;5;12m [39m[38;5;12moutperforms[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.10360-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.10360)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://apollo-lmms.github.io/) [39m
|
||
[38;5;12mOrr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mApollo[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQwen2.5[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LLMs)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m1.5B,[39m[38;5;12m [39m[38;5;12m3B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mSigLIP-SO400M[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mInternVideo2[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mFeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m
|
||
[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minterpolated[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12mchannel-wise[39m[38;5;12m [39m[38;5;12mbefore[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver[39m[38;5;12m [39m[38;5;12mResampler,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12m32[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mframe.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m[38;5;12mempirically[39m[38;5;12m [39m[38;5;12mfound[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mchoices.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m3-stage[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;12mCritically,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconcept[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m"Scaling[39m[38;5;12m [39m[38;5;12mConsistency,"[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mdecisions[39m[38;5;12m [39m[38;5;12mmade[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12msize)[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m
|
||
[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mexperimentation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12madvocates[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mframes-per-second[39m[38;5;12m [39m[38;5;12m(fps)[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mopposed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12muniform[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12msampling,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msuperiority.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12m8-32[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mframe.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mbenchmark,[39m[38;5;12m [39m[38;5;12mApolloBench,[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mevaluation[39m[38;5;12m [39m[38;5;12mtime[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12m41x[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mcorrelation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mperception.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mexploration[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mToken[39m[38;5;12m [39m[38;5;12mResampling[39m[38;5;12m [39m[38;5;12mshowing[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m
|
||
[38;5;12mPerceiver[39m[38;5;12m [39m[38;5;12mresampling[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgood[39m[38;5;12m [39m[38;5;12mperformace.[39m[38;5;12m [39m[38;5;12mToken[39m[38;5;12m [39m[38;5;12mIntegration[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mdiscussed:[39m[38;5;12m [39m[38;5;12mAdding[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12m(text,[39m[38;5;12m [39m[38;5;12mlearned,[39m[38;5;12m [39m[38;5;12metc.)[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mframes[39m
|
||
[38;5;12mor[39m[38;5;12m [39m[38;5;12mclips[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12msufficient[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mintegration.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mStages[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mdisscussed,[39m[38;5;12m [39m[38;5;12mconcluding[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mprogressively[39m[38;5;12m [39m[38;5;12munfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mleads[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdynamics.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mVideo[39m[38;5;12m [39m[38;5;12mEncoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdiscussed.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mconcludes[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mFinetuning[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mperformance,[39m
|
||
[38;5;12mespecially on reasoning and domain-specific tasks. Data Composition is also studied. It concludes that Data mixture matters, and including a moderate amount of text data and maintaining a[39m
|
||
[38;5;12mslight video-heavy mix leads to optimal performance.[39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mARIA: An Open Multimodal Native Mixture-of-Experts Model[0m
|
||
|
||
[38;5;12mARIA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mopen-source,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mMixture-of-Experts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mcode,[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mclass.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mutilization,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m4-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mhandling,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m
|
||
[38;5;12mfollowing.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2410.05993-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2410.05993)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/rhymes-ai/Aria)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/blog/RhymesAI/aria) [39m
|
||
[38;5;12mDongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Fan Zhou, Chengen Huang, Yanpeng Li, Chongyan Zhu, Xiaoyi Ren, Chao Li, Yifan Ye, Peng Liu, Lihuan Zhang, Hanshu Yan, Guoyin Wang, Bei Chen, Junnan Li[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mARIA's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcentered[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mMixture-of-Experts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12mdecoder,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mdecoders.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mactivates[39m[38;5;12m [39m[38;5;12m3.5B[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m3.9B[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtoken,[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtotal[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12m24.9B[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12m66[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mshared[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12mknowledge,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m6[39m[38;5;12m [39m[38;5;12mactivated[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrouter.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12m(438M[39m[38;5;12m [39m[38;5;12mparameter)[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(medium,[39m[38;5;12m [39m[38;5;12mhigh,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12multra-high),[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mFFN[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mconvert[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mwhich[39m
|
||
[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMoE.[39m[38;5;12m [39m[38;5;12mARIA's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m4-stage[39m[38;5;12m [39m[38;5;12mpipeline:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12m(6.4T[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12m8K[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwindow);[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12m(400B[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text,[39m[38;5;12m [39m
|
||
[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mtranscriptions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQA);[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mlong-context[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12m(extending[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m64K[39m[38;5;12m [39m[38;5;12mtokens);[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(4)[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mpost-training[39m[38;5;12m [39m[38;5;12m(instruction[39m[38;5;12m [39m[38;5;12mfollowing[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m20B[39m[38;5;12m [39m[38;5;12mtokens).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m
|
||
[38;5;12mcuration[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mrigorous,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mde-duplication,[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mfiltering,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mclustering.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12minfrastructure[39m[38;5;12m [39m[38;5;12mavoids[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mparallelism,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mparallelism[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mZeRO-1[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mparallelism,[39m[38;5;12m [39m
|
||
[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mcontributes[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtensor[39m[38;5;12m [39m[38;5;12mparallelism.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mload-balancing[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mz-loss[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mstabilize[39m[38;5;12m [39m[38;5;12mtraining.[39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mthat,[39m[38;5;12m [39m[38;5;12mdespite[39m[38;5;12m [39m[38;5;12mhaving[39m[38;5;12m [39m[38;5;12mmodality-generic[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12mARIA[39m[38;5;12m [39m[38;5;12mnaturally[39m[38;5;12m [39m[38;5;12mdevelops[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mspecialization[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpre-training.[39m[38;5;12m [39m[38;5;12mAnalysis[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mactivation[39m[38;5;12m [39m[38;5;12mshows[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mspecialization[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mvideo,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPDF[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mARIA[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mshows[39m[38;5;12m [39m[38;5;12mexcellent[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mlong-context[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12msurpassing[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcompeting[39m[38;5;12m [39m[38;5;12mfavorably[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mEVE: Unveiling Encoder-Free Vision-Language Models[0m
|
||
|
||
[38;5;12mEVE[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mencoder-free[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12meliminating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mcompetitive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mencoder-based[39m[38;5;12m [39m[38;5;12mVLMs[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12m35M[39m[38;5;12m [39m[38;5;12mpublicly[39m[38;5;12m [39m[38;5;12maccessible[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12marbitrary[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2406.11832-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2406.11832)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/baaivision/EVE)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/BAAI/EVE-7B-HD-v1.0) [39m
|
||
[38;5;12mHaiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mEVE[0m[38;5;14m[1m [0m[38;5;14m[1m(Encoder-free[0m[38;5;14m[1m [0m[38;5;14m[1mVision-language[0m[38;5;14m[1m [0m[38;5;14m[1mmodEl)[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcompletely[39m[38;5;12m [39m[38;5;12mremoving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mtypically[39m[38;5;12m [39m[38;5;12mfound[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mVLMs.[39m[38;5;12m [39m[38;5;12mInstead,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12m(based[39m[38;5;12m [39m[38;5;12mon[39m
|
||
[38;5;12mVicuna-7B).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;14m[1mPatch[0m[38;5;14m[1m [0m[38;5;14m[1mEmbedding[0m[38;5;14m[1m [0m[38;5;14m[1mLayer[0m[38;5;14m[1m [0m[38;5;14m[1m(PEL)[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mdirectly,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mPatch[0m[38;5;14m[1m [0m[38;5;14m[1mAligning[0m[38;5;14m[1m [0m[38;5;14m[1mLayer[0m[38;5;14m[1m [0m[38;5;14m[1m(PAL)[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(CLIP-ViT-L/14)[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m
|
||
[38;5;12mupdating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mitself.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mEVE[39m[38;5;12m [39m[38;5;12mdoes[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mnot[0m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;14m[1mPEL[0m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mconvolution[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maverage[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcreate[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mmaps[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12m(CA1)[39m[38;5;12m [39m
|
||
[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlimited[39m[38;5;12m [39m[38;5;12mreceptive[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mrow[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrepresent[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mstructure.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;14m[1mPAL[0m[38;5;12m [39m[38;5;12maligns[39m[38;5;12m [39m[38;5;12mEVE's[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen,[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m
|
||
[38;5;12m(CLIP-ViT-L/14).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdone[39m[38;5;12m [39m[38;5;12mhierarchically,[39m[38;5;12m [39m[38;5;12maggregating[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlayer-wise[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12m(CA3)[39m[38;5;12m [39m[38;5;12mmechanism.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mMean[39m[38;5;12m [39m[38;5;12mSquared[39m[38;5;12m [39m[38;5;12mError[39m[38;5;12m [39m[38;5;12m(MSE)[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mEVE's[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder's[39m[38;5;12m [39m
|
||
[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mencourages[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12m"implicit"[39m[38;5;12m [39m[38;5;12msupervision[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mImportantly,[39m[38;5;12m [39m[38;5;12mPAL[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3monly[0m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12moccurs[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;14m[1mLLM-guided[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mPre-training:[0m[38;5;12m [39m[38;5;12mOnly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mPEL[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPAL[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtrained,[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(Vicuna-7B).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msubset[39m[38;5;12m [39m[38;5;12m(16M)[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtotal[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;14m[1mGenerative[0m[38;5;14m[1m [0m[38;5;14m[1mPre-training:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(including[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained,[39m[38;5;12m [39m
|
||
[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12m33M[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mBoth[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprediction[39m[38;5;12m [39m[38;5;12m(cross-entropy[39m[38;5;12m [39m[38;5;12mloss)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12m(MSE[39m[38;5;12m [39m[38;5;12mloss)[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mused.[39m[38;5;12m [39m[38;5;14m[1mSupervised[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12m(LLaVA-mix-665K[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mothers).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m
|
||
[38;5;12minnovations[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mallow[39m[38;5;12m [39m[38;5;12mEVE[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mwork[39m[38;5;12m [39m[38;5;12mwell[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mare:[39m[38;5;12m [39m[38;5;14m[1mLLM-Centric[0m[38;5;14m[1m [0m[38;5;14m[1mPre-alignment:[0m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpreventing[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcollapse[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maccelerating[39m[38;5;12m [39m[38;5;12mconvergence.[39m[38;5;12m [39m[38;5;12mAligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mbefore[0m[38;5;12m [39m[38;5;12mfully[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12messential.[39m[38;5;12m [39m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mRecognition[0m[38;5;14m[1m [0m[38;5;14m[1mCapability[0m[38;5;14m[1m [0m[38;5;14m[1mvia[0m[38;5;14m[1m [0m[38;5;14m[1mExtra[0m[38;5;14m[1m [0m[38;5;14m[1mSupervision:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mPAL[39m[38;5;12m [39m[38;5;12mprovides[39m[38;5;12m [39m[38;5;12msupervision[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;14m[1mFlexible[0m[38;5;14m[1m [0m[38;5;14m[1mInput[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mHandling:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mnaturally[39m[38;5;12m [39m[38;5;12mhandles[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12marbitrary[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresolutions,[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mneeding[39m[38;5;12m [39m[38;5;12mresizing,[39m[38;5;12m [39m[38;5;12mpadding,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mpartitioning.[39m[38;5;12m [39m[38;5;12mNo[39m[38;5;12m [39m[38;5;12mreliance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder:[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mmodel.[39m
|
||
[38;5;12mEVE uses a curated dataset of 33M publicly available image-text pairs for pre-training, with captions generated by Emu2 and LLaVA-1.5. Supervised fine-tuning utilizes datasets like LLaVA-mix-665K, AI2D, DocVQA, and others.[39m
|
||
|
||
|
||
[38;5;12mOkay, let's break down the information from the provided paper on EVEv2 and create a feature extraction similar to your examples.[39m
|
||
|
||
[38;5;14m[1m[4mEVEv2: Improved Baselines for Encoder-Free Vision-Language Models[0m
|
||
|
||
[38;5;12mEVEv2[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mencoder-free[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(VLMs),[39m[38;5;12m [39m[38;5;12maddressing[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m"Divide-and-Conquer"[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmaximizes[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12minter-modality[39m[38;5;12m [39m
|
||
[38;5;12minterference,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mefficiency.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2406.11832-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://github.com/baaivision/EVE/blob/main/EVEv2/images/EVEv2.0.pdf)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/baaivision/EVE/blob/main/EVEv2/README.md)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/BAAI/EVE-7B-HD-v2.0) [39m
|
||
[38;5;12mHaiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mEVEv2[39m[38;5;12m [39m[38;5;12mdeparts[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mencoder-based[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(like[39m[38;5;12m [39m[38;5;12mCLIP),[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mdirectly[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mwithin[0m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM).[39m[38;5;12m [39m[38;5;12mKey[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m
|
||
[38;5;12minclude:[39m[38;5;12m [39m[38;5;14m[1mDivide-and-Conquer:[0m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation.[39m[38;5;12m [39m[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmixing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mthroughout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mEVEv2[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mmodality-specific[0m[38;5;12m [39m[38;5;12mcomponents.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmeans[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmatrices[39m[38;5;12m [39m[38;5;12m(query,[39m[38;5;12m [39m[38;5;12mkey,[39m[38;5;12m [39m[38;5;12mvalue),[39m[38;5;12m [39m
|
||
[38;5;12mLayer[39m[38;5;12m [39m[38;5;12mNormalization[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFeed-Forward[39m[38;5;12m [39m[38;5;12mNetworks[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12minterference[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mlearning.[39m[38;5;12m [39m[38;5;12mIt's[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfully[39m[38;5;12m [39m[38;5;12msparse,[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;14m[1mPatch[0m[38;5;14m[1m [0m[38;5;14m[1mEmbedding[0m[38;5;14m[1m [0m[38;5;14m[1mLayer:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mminimalist[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m
|
||
[38;5;12membedding[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mfrom[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mscratch[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mavoids[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minductive[39m[38;5;12m [39m[38;5;12mbiases[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mconvolutional[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12m(Conv1[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mConv2)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches.[39m[38;5;12m [39m[38;5;14m[1mLossless[0m[38;5;14m[1m [0m[38;5;14m[1mEncoding:[0m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12msome[39m[38;5;12m [39m[38;5;12mencoder-free[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m
|
||
[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mtokenization[39m[38;5;12m [39m[38;5;12m(which[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mlose[39m[38;5;12m [39m[38;5;12minformation),[39m[38;5;12m [39m[38;5;12mEVEv2[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlossless[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;14m[1mLLM[0m[38;5;14m[1m [0m[38;5;14m[1mAdaptation:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mLLMs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mexperiments[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mVicuna-7B[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQwen2-7B.[39m
|
||
[38;5;14m[1mMulti-Stage[0m[38;5;14m[1m [0m[38;5;14m[1mTraining:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mfour-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused:[39m[38;5;12m [39m[38;5;14m[1mLLM-guided[0m[38;5;14m[1m [0m[38;5;14m[1mPre-aligning:[0m[38;5;12m [39m[38;5;12mOnly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mre-captioned[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(EVE-recap-10M).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfrozen.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mestablishes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbasic[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mPerception[0m[38;5;14m[1m [0m[38;5;14m[1mLearning:[0m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtrained,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mprogressively[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mweights[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mstill[39m[38;5;12m [39m[38;5;12mfrozen.[39m[38;5;12m [39m[38;5;14m[1mVision-Text[0m[38;5;14m[1m [0m[38;5;14m[1mFully[0m[38;5;14m[1m [0m[38;5;14m[1malligning:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mupdate.[39m[38;5;12m [39m[38;5;14m[1mSupervised[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning[0m[38;5;14m[1m [0m[38;5;14m[1m(SFT):[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;14m[1mDenseFusion++:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnew,[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mengine[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mscratch.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mexperts.[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mEfficiency:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mEVEv2[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mless[0m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m
|
||
[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mencoder-based[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mthanks[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12marchitecture.[39m
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mJanus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling[0m
|
||
|
||
[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mJanus[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mexpanding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msize,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mtext-to-image[39m[38;5;12m [39m[38;5;12minstruction-following,[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mstability.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2501.17811-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2501.17811)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/deepseek-ai/Janus)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/deepseek-ai/Janus-Pro-7B) [39m
|
||
[38;5;12mXiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12mmaintains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mJanus,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mdecouples[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mautoregressive[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12m(SigLIP)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m
|
||
[38;5;12m(VQ[39m[38;5;12m [39m[38;5;12mtokenizer).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mextracts[39m[38;5;12m [39m[38;5;12msemantic[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mflattened[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmapped[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12m"understanding[39m[38;5;12m [39m[38;5;12madaptor."[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mconverts[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mIDs,[39m[38;5;12m [39m[38;5;12mflattened[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmapped[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m"generation[39m[38;5;12m [39m
|
||
[38;5;12madaptor."[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbuilt-in[39m[38;5;12m [39m[38;5;12mprediction[39m[38;5;12m [39m[38;5;12mhead[39m[38;5;12m [39m[38;5;12m(from[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrandomly[39m[38;5;12m [39m[38;5;12minitialized[39m[38;5;12m [39m[38;5;12mprediction[39m[38;5;12m [39m[38;5;12mhead[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12mlie[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m
|
||
[38;5;12mareas:[39m[38;5;12m [39m[38;5;14m[1mOptimized[0m[38;5;14m[1m [0m[38;5;14m[1mTraining[0m[38;5;14m[1m [0m[38;5;14m[1mStrategy:[0m[38;5;12m [39m[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1mI:[0m[38;5;12m [39m[38;5;12mFocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12madaptors[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mhead[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mImageNet,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12minitialization.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1mII:[0m[38;5;12m [39m[38;5;12mUnified[39m[38;5;12m [39m[38;5;12mpretraining,[39m[38;5;12m [39m
|
||
[38;5;12mupdating[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mexcept[0m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mremoves[0m[38;5;12m [39m[38;5;12mImageNet[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12m"normal"[39m[38;5;12m [39m[38;5;12mtext-to-image[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1mIII:[0m[38;5;12m [39m[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mupdating[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mratio[39m[38;5;12m [39m[38;5;12m(multimodal:text:text-to-image)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12madjusted[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m7:3:10[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m5:1:4,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12msacrificing[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mScaling:[0m[38;5;12m [39m[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mexpands[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m
|
||
[38;5;14m[1mMultimodal[0m[38;5;14m[1m [0m[38;5;14m[1mUnderstanding:[0m[38;5;12m [39m[38;5;12mAdds[39m[38;5;12m [39m[38;5;12m~90[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mDeepSeek-VL2,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12m(YFCC),[39m[38;5;12m [39m[38;5;12mtable/chart/document[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12m(Docmatix),[39m[38;5;12m [39m[38;5;12mMEME[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mChinese[39m[38;5;12m [39m[38;5;12mconversational[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;14m[1mVisual[0m[38;5;14m[1m [0m[38;5;14m[1mGeneration:[0m[38;5;12m [39m[38;5;12mAdds[39m[38;5;12m [39m[38;5;12m~72[39m[38;5;12m [39m
|
||
[38;5;12mmillion[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3msynthetic[0m[38;5;12m [39m[38;5;12maesthetic[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msamples,[39m[38;5;12m [39m[38;5;12mbalancing[39m[38;5;12m [39m[38;5;12mreal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m1:1[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mpretraining.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mstability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maesthetic[39m[38;5;12m [39m[38;5;12mquality.[39m[38;5;12m [39m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1mScaling:[0m[38;5;12m [39m[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12mscales[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m1.5B[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m
|
||
[38;5;12m(DeepSeek-LLM).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mconvergence[39m[38;5;12m [39m[38;5;12mspeed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mlength[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m4096,[39m[38;5;12m [39m[38;5;12mSigLIP-Large-Patch16-384[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVQ[39m[38;5;12m [39m[38;5;12mtokenizer[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcodebook[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m16,384[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;12mAdaptors[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLPs.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mperformed[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mHAI-LLM,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdistributed[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mEvaluation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconducted[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mMME,[39m[38;5;12m [39m[38;5;12mSEED,[39m[38;5;12m [39m[38;5;12mMMB,[39m[38;5;12m [39m[38;5;12mMM-Vet,[39m[38;5;12m [39m[38;5;12mMMMU[39m[38;5;12m [39m[38;5;12m(for[39m[38;5;12m [39m[38;5;12munderstanding)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGenEval,[39m[38;5;12m [39m[38;5;12mDPG-Bench[39m[38;5;12m [39m[38;5;12m(for[39m[38;5;12m [39m
|
||
[38;5;12mgeneration).[39m[38;5;12m [39m[38;5;12mJanus-Pro[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mamong[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-to-image[39m[38;5;12m [39m[38;5;12mgeneration.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mLLaVA-CoT: Let Vision Language Models Reason Step-by-Step[0m
|
||
|
||
[38;5;12mLLaVA-CoT[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperform[39m[38;5;12m [39m[38;5;12mautonomous,[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtackle[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mindependently[39m[38;5;12m [39m[38;5;12mengaging[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12msequential[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msummarization,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12minterpretation,[39m[38;5;12m [39m[38;5;12mlogical[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconclusion[39m[38;5;12m [39m[38;5;12mgeneration.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2411.10440-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2411.10440)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/PKU-YuanGroup/LLaVA-CoT)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/Xkev/Llama-3.2V-11B-cot) [39m
|
||
[38;5;12mGuowei Xu, Peng Jin, Hao Li, Yibing Song, Lichao Sun, Li Yuan[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mLLaVA-CoT[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLlama-3.2-Vision[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstructured,[39m[38;5;12m [39m[38;5;12mfour-stage[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mprocess:[39m[38;5;12m [39m[38;5;12mSummary[39m[38;5;12m [39m[38;5;12m(briefly[39m[38;5;12m [39m[38;5;12moutlines[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtask),[39m[38;5;12m [39m[38;5;12mCaption[39m[38;5;12m [39m[38;5;12m(describes[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mparts),[39m[38;5;12m [39m[38;5;12mReasoning[39m[38;5;12m [39m[38;5;12m(detailed[39m[38;5;12m [39m[38;5;12manalysis),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mConclusion[39m[38;5;12m [39m[38;5;12m(provides[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12mfinal[39m[38;5;12m [39m[38;5;12manswer).[39m[38;5;12m [39m[38;5;12mEach[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmarked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtags[39m[38;5;12m [39m[38;5;12m()[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mclarity.[39m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mChain-of-Thought[39m[38;5;12m [39m[38;5;12m(CoT)[39m[38;5;12m [39m[38;5;12mprompting,[39m[38;5;12m [39m[38;5;12mLLaVA-CoT[39m[38;5;12m [39m[38;5;12mpromotes[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12mthinking[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12morganizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mproblem[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mknown[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m
|
||
[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfinally[39m[38;5;12m [39m[38;5;12mderiving[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mconclusion.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12mcompiled[39m[38;5;12m [39m[38;5;12mLLaVA-CoT-100k[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m
|
||
[38;5;12minstructions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcontains[39m[38;5;12m [39m[38;5;12m99k[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQuestion[39m[38;5;12m [39m[38;5;12manswer[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mGPT-4o[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprovide[39m[38;5;12m [39m[38;5;12mdetails.[39m[38;5;12m [39m[38;5;12mData[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mgathered[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12m(ShareGPT4V,[39m[38;5;12m [39m[38;5;12mChartQA,[39m[38;5;12m [39m[38;5;12mA-OKVQA,[39m[38;5;12m [39m[38;5;12mDocVQA,[39m[38;5;12m [39m[38;5;12mPISC,[39m[38;5;12m [39m[38;5;12mCLEVR)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mScience[39m[38;5;12m [39m[38;5;12mtargeted[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12m(AI2D,[39m[38;5;12m [39m[38;5;12mGeoQA+,[39m[38;5;12m [39m
|
||
[38;5;12mScienceQA,[39m[38;5;12m [39m[38;5;12mCLEVR-Math).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mproposes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12minference-time[39m[38;5;12m [39m[38;5;12mstage-level[39m[38;5;12m [39m[38;5;12mbeam[39m[38;5;12m [39m[38;5;12msearch[39m[38;5;12m [39m[38;5;12mmethod.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mcandidate[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3meach[0m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mselecting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbest[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcontinue,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mperformance[39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mscalability.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcontrasts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mbest-of-N[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12msentence-level[39m[38;5;12m [39m[38;5;12mbeam[39m[38;5;12m [39m[38;5;12msearch.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSupervised-Fine[39m[38;5;12m [39m[38;5;12mTuning.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mLLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation[0m
|
||
|
||
[38;5;12mLLM2CLIP is a fine-tuning approach which integrates Large Language Models (LLMs) with pre-trained CLIP visual encoders. It improves the model by using the LLM's ability to proccess and understant long captions, open-world knowledge.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2411.04997-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2411.04997)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/microsoft/LLM2CLIP)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/microsoft/LLM2CLIP-EVA02-B-16) [39m
|
||
[38;5;12mWeiquan Huang, Aoqi Wu, Yifan Yang, Xufang Luo, Yuqing Yang, Liang Hu, Qi Dai, Xiyang Dai, Dongdong Chen, Chong Luo, Lili Qiu[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mLLM2CLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(Large[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malready[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmain[39m[38;5;12m [39m[38;5;12mproblem[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtried[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12msolved[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthat;[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mreflected[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThe[39m
|
||
[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mhighlight[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mfails[39m[38;5;12m [39m[38;5;12mdue[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpoor[39m[38;5;12m [39m[38;5;12mseparability[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mtackle[39m[38;5;12m [39m[38;5;12mthis,[39m[38;5;12m [39m[38;5;12mthey[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m1:[0m[38;5;14m[1m [0m[38;5;14m[1mCaption[0m[38;5;14m[1m [0m[38;5;14m[1mContrastive[0m[38;5;14m[1m [0m[38;5;14m[1m(CC)[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m
|
||
[38;5;12m(specifically[39m[38;5;12m [39m[38;5;12mLlama-3[39m[38;5;12m [39m[38;5;12m8B)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12m(CC3M).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mdoesn't[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mtrain[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mfor[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mautoregressive[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mcapabilities[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12minstead,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtransforming[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcausal[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbidirectional,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdiscriminative[39m[38;5;12m [39m[38;5;12mpower[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12measier[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdistinguish[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mSimCSE[39m[38;5;12m [39m[38;5;12mloss.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m2:[0m[38;5;14m[1m [0m[38;5;14m[1mCLIP[0m[38;5;14m[1m [0m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCC-fine-tuned[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mnow[39m[38;5;12m [39m[38;5;12macting[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m"super"[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mgradients[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mfrozen[0m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpreserve[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12macquired[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcost.[39m[38;5;12m [39m[38;5;12mLearnable[39m[38;5;12m [39m
|
||
[38;5;12madapters[39m[38;5;12m [39m[38;5;12m(linear[39m[38;5;12m [39m[38;5;12mlayers)[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12madded[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m
|
||
[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtypical[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mloss,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcaption-to-caption[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mforces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mproduce[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mdescribing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msame[39m[38;5;12m [39m[38;5;12mimage.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m
|
||
[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mSimCSE.[39m[38;5;12m [39m[38;5;12mMakes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mFreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12madapters[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12msurprisingly[39m[38;5;12m [39m[38;5;12mefficient,[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12mamount[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(15M[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12m3M[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mepoch[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12msome[39m[38;5;12m [39m[38;5;12mcases.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12m(Low-Rank[39m[38;5;12m [39m[38;5;12mAdaptation)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mLLM2CLIP[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m
|
||
[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12m(detailed[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdescriptions),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mknown[39m[38;5;12m [39m[38;5;12mlimitation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mCLIP.[39m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12mShareCaptioner-modified[39m[38;5;12m [39m[38;5;12mCC-3M[39m[38;5;12m [39m[38;5;12m(for[39m[38;5;12m [39m[38;5;12mCC[39m[38;5;12m [39m[38;5;12mfine-tuning),[39m[38;5;12m [39m[38;5;12mWikitext-103,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mCC-3M,[39m[38;5;12m [39m[38;5;12mCC-12M,[39m[38;5;12m [39m[38;5;12mYFCC-15M,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mRecaption-1B[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m
|
||
[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mthat,[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mimpact[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12msubstantially[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMaya: An Instruction Finetuned Multilingual Multimodal Model[0m
|
||
|
||
[38;5;12mMaya[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mMultilingual[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(mVLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcurrent[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mlow-resource[39m[38;5;12m [39m[38;5;12mlanguages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mcultural[39m[38;5;12m [39m[38;5;12mcontexts,[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m
|
||
[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m[38;5;12mtoxicity[39m[38;5;12m [39m[38;5;12manalysis[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmitigation,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mcultural[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mcomprehension.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.07112-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.07112)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/nahidalam/maya)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/maya-multimodal/maya) [39m
|
||
[38;5;12mNahid[39m[38;5;12m [39m[38;5;12mAlam,[39m[38;5;12m [39m[38;5;12mKarthik[39m[38;5;12m [39m[38;5;12mReddy[39m[38;5;12m [39m[38;5;12mKanjula,[39m[38;5;12m [39m[38;5;12mBala[39m[38;5;12m [39m[38;5;12mKrishna[39m[38;5;12m [39m[38;5;12mS[39m[38;5;12m [39m[38;5;12mVegesna,[39m[38;5;12m [39m[38;5;12mS[39m[38;5;12m [39m[38;5;12mM[39m[38;5;12m [39m[38;5;12mIftekhar[39m[38;5;12m [39m[38;5;12mUddin,[39m[38;5;12m [39m[38;5;12mDrishti[39m[38;5;12m [39m[38;5;12mSharma,[39m[38;5;12m [39m[38;5;12mAbhipsha[39m[38;5;12m [39m[38;5;12mDas,[39m[38;5;12m [39m[38;5;12mShayekh[39m[38;5;12m [39m[38;5;12mBin[39m[38;5;12m [39m[38;5;12mIslam,[39m[38;5;12m [39m[38;5;12mSurya[39m[38;5;12m [39m[38;5;12mGuthikonda,[39m[38;5;12m [39m[38;5;12mTimothy[39m[38;5;12m [39m[38;5;12mChung,[39m[38;5;12m [39m[38;5;12mAnthony[39m[38;5;12m [39m[38;5;12mSusevski,[39m[38;5;12m [39m[38;5;12mRyan[39m[38;5;12m [39m[38;5;12mSze-Yin[39m[38;5;12m [39m[38;5;12mChan,[39m[38;5;12m [39m[38;5;12mRoshan[39m[38;5;12m [39m[38;5;12mSanthosh,[39m[38;5;12m [39m[38;5;12mSnegha[39m[38;5;12m [39m[38;5;12mA,[39m[38;5;12m [39m[38;5;12mChen[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mIsha[39m[38;5;12m [39m
|
||
[38;5;12mChaturvedi,[39m[38;5;12m [39m[38;5;12mAshvanth.S,[39m[38;5;12m [39m[38;5;12mSnehanshu[39m[38;5;12m [39m[38;5;12mMukherjee,[39m[38;5;12m [39m[38;5;12mAlham[39m[38;5;12m [39m[38;5;12mFikri[39m[38;5;12m [39m[38;5;12mAji[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mArchitecture:[0m[38;5;12m [39m[38;5;12mMaya[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAya-23[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM)[39m[38;5;12m [39m[38;5;12mdue[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mAya's[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12m(trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m23[39m[38;5;12m [39m[38;5;12mlanguages).[39m[38;5;12m [39m[38;5;12mCritically,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mreplaces[0m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m
|
||
[38;5;12min[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mSigLIP.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmotivated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mSigLIP's[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12msupport,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mvariable-length[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12m(allowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mflexible[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12msizes).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12m([39m[48;5;235m[38;5;249mZv = g(Xv)[49m[39m[38;5;12m)[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12mpassed[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mmatrix[39m[38;5;12m [39m[38;5;12m([39m[48;5;235m[38;5;249mW[49m[39m[38;5;12m,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m2-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mGELU[39m[38;5;12m [39m[38;5;12mactivation)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mproducing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[48;5;235m[38;5;249mHv[49m[39m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfairly[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mtype[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mconcatenating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmain[39m[38;5;12m [39m[38;5;12mphases:[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfinetuning.[39m[38;5;12m [39m[38;5;14m[1mPretraining:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12mcreated[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mEnglish-only[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(558k[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtranslated[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mseven[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mlanguages[39m[38;5;12m [39m[38;5;12m(Chinese,[39m[38;5;12m [39m[38;5;12mFrench,[39m[38;5;12m [39m[38;5;12mSpanish,[39m[38;5;12m [39m[38;5;12mRussian,[39m[38;5;12m [39m[38;5;12mHindi,[39m[38;5;12m [39m[38;5;12mJapanese,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mArabic)[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mtranslation[39m[38;5;12m [39m[38;5;12mpipeline.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAya[39m
|
||
[38;5;12m35B[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mengineering[39m[38;5;12m [39m[38;5;12m(determined[39m[38;5;12m [39m[38;5;12mempirically[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mBLEU[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mN-gram[39m[38;5;12m [39m[38;5;12mscores),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mchecks.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mtoxicity[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mfiltering[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mLLaVAGuard[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mToxic-BERT[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12midentify[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mremove[39m[38;5;12m [39m[38;5;12mtoxic[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m"toxicity-free"[39m[38;5;12m [39m[38;5;12mversion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(removing[39m[38;5;12m [39m[38;5;12m7,531[39m[38;5;12m [39m[38;5;12mtoxic[39m[38;5;12m [39m[38;5;12mimages).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrate[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m1e-3[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcosine[39m[38;5;12m [39m[38;5;12mscheduler.[39m[38;5;12m [39m[38;5;12mOnly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mmatrix[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m
|
||
[38;5;12mpretraining.[39m[38;5;12m [39m[38;5;14m[1mFinetuning:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12minstruction-tuned[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mPALO[39m[38;5;12m [39m[38;5;12m150K[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(which[39m[38;5;12m [39m[38;5;12mcovers[39m[38;5;12m [39m[38;5;12m10[39m[38;5;12m [39m[38;5;12mlanguages).[39m[38;5;12m [39m[38;5;12mFull[39m[38;5;12m [39m[38;5;12mfinetuning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mperformed[39m[38;5;12m [39m[38;5;12m(as[39m[38;5;12m [39m[38;5;12mopposed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mLoRA),[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m
|
||
[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechnique[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mmatrix[39m[38;5;12m [39m[38;5;12m(the[39m[38;5;12m [39m[38;5;12m2-layer[39m[38;5;12m [39m[38;5;12mMLP)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmaps[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAya-23[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mmethod,[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmany[39m[38;5;12m [39m[38;5;12mVLMs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mexplicitly[0m[38;5;12m [39m[38;5;12mstates[39m[38;5;12m [39m[38;5;12mthey[39m
|
||
[38;5;12mdid[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mnot[0m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12msoft-attention[39m[38;5;12m [39m[38;5;12m(Flamingo)[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12m(BLIP-2)[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mphase,[39m[38;5;12m [39m[38;5;12mreserving[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfuture[39m[38;5;12m [39m[38;5;12mwork.[39m[38;5;12m [39m[38;5;14m[1mPretraining[0m[38;5;14m[1m [0m[38;5;14m[1mDataset:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcreated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtranslating[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m
|
||
[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcontribution[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpaper.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtranslation[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtoxicity[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdescribed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mdetail.[39m[38;5;12m [39m[38;5;14m[1mInstruction[0m[38;5;14m[1m [0m[38;5;14m[1mTuning[0m[38;5;14m[1m [0m[38;5;14m[1mDataset:[0m[38;5;12m [39m[38;5;12mPALO[39m[38;5;12m [39m[38;5;12m150K[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;14m[1mEvaluation[0m[38;5;14m[1m [0m[38;5;14m[1mDatasets[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mPALO[39m[38;5;12m [39m
|
||
[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mevalution,[39m[38;5;12m [39m[38;5;12mVizWiz,[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mScienceQA,[39m[38;5;12m [39m[38;5;12mTextVQA,[39m[38;5;12m [39m[38;5;12mPOPE,[39m[38;5;12m [39m[38;5;12mMMBench,[39m[38;5;12m [39m[38;5;12mMM-Vet,[39m[38;5;12m [39m[38;5;12mMME.[39m[38;5;12m [39m[38;5;14m[1mMultilingual[0m[38;5;14m[1m [0m[38;5;14m[1mImage-Text[0m[38;5;14m[1m [0m[38;5;14m[1mPretraining[0m[38;5;14m[1m [0m[38;5;14m[1mDataset:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m558,000[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12meight[39m[38;5;12m [39m[38;5;12mlanguages.[39m[38;5;12m [39m[38;5;14m[1mToxicity[0m[38;5;14m[1m [0m[38;5;14m[1mAnalysis[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mMitigation:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mthorough[39m[38;5;12m [39m[38;5;12manalysis[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mtoxicity[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcreation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtoxicity-free[39m[38;5;12m [39m[38;5;12mversion.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12maspect.[39m[38;5;12m [39m[38;5;14m[1mMultilingual[0m[38;5;14m[1m [0m[38;5;14m[1mModel:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(Maya)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mshows[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcultural[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mnuances,[39m[38;5;12m [39m
|
||
[38;5;12mespecially[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomparison[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mprimarily[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mEnglish[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mshow[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mMaya[39m[38;5;12m [39m[38;5;12mperforms[39m[38;5;12m [39m[38;5;12mcomparably[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mbetter[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12m(LLaVA-7B)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(PALO-13B)[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtoxicity[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mimpact[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12msuggesting[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mvaluable[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12misn't[39m[38;5;12m [39m[38;5;12mlost[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mremoving[39m[38;5;12m [39m[38;5;12mtoxic[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mquantitative[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mqualitative[39m[38;5;12m [39m
|
||
[38;5;12mexamples[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMiniMax-01: Scaling Foundation Models with Lightning Attention[0m
|
||
|
||
[38;5;12mMiniMax-01[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mMiniMax-Text-01[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMiniMax-VL-01,[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtop-tier[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(like[39m[38;5;12m [39m[38;5;12mGPT-4o[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mClaude-3.5-Sonnet)[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwindows[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12m4[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mtokens).[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mlightning[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12m(a[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mvariant),[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mExperts[39m[38;5;12m [39m[38;5;12m(MoE),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mtraining/inference[39m[38;5;12m [39m[38;5;12mframeworks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2501.08313-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2501.08313)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/MiniMax-AI/MiniMax-01)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/MiniMaxAI/MiniMax-VL-01) [39m
|
||
[38;5;12mMiniMax,[39m[38;5;12m [39m[38;5;12mAonian[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mBangwei[39m[38;5;12m [39m[38;5;12mGong,[39m[38;5;12m [39m[38;5;12mBo[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mBoji[39m[38;5;12m [39m[38;5;12mShan,[39m[38;5;12m [39m[38;5;12mChang[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mCheng[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mChunhao[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mCongchao[39m[38;5;12m [39m[38;5;12mGuo,[39m[38;5;12m [39m[38;5;12mDa[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mDong[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mEnwei[39m[38;5;12m [39m[38;5;12mJiao,[39m[38;5;12m [39m[38;5;12mGengxin[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mGuojun[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mHaohai[39m[38;5;12m [39m[38;5;12mSun,[39m[38;5;12m [39m[38;5;12mHouze[39m[38;5;12m [39m[38;5;12mDong,[39m[38;5;12m [39m[38;5;12mJiadai[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mJiaqi[39m[38;5;12m [39m[38;5;12mZhuang,[39m[38;5;12m [39m[38;5;12mJiayuan[39m[38;5;12m [39m[38;5;12mSong,[39m[38;5;12m [39m[38;5;12mJin[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mJingtao[39m[38;5;12m [39m[38;5;12mHan,[39m
|
||
[38;5;12mJingyang[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mJunbin[39m[38;5;12m [39m[38;5;12mXie,[39m[38;5;12m [39m[38;5;12mJunhao[39m[38;5;12m [39m[38;5;12mXu,[39m[38;5;12m [39m[38;5;12mJunjie[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mKaishun[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mKecheng[39m[38;5;12m [39m[38;5;12mXiao,[39m[38;5;12m [39m[38;5;12mKexi[39m[38;5;12m [39m[38;5;12mKang,[39m[38;5;12m [39m[38;5;12mLe[39m[38;5;12m [39m[38;5;12mHan,[39m[38;5;12m [39m[38;5;12mLeyang[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLianfei[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mLiheng[39m[38;5;12m [39m[38;5;12mFeng,[39m[38;5;12m [39m[38;5;12mLin[39m[38;5;12m [39m[38;5;12mZheng,[39m[38;5;12m [39m[38;5;12mLinbo[39m[38;5;12m [39m[38;5;12mChai,[39m[38;5;12m [39m[38;5;12mLong[39m[38;5;12m [39m[38;5;12mXing,[39m[38;5;12m [39m[38;5;12mMeizhi[39m[38;5;12m [39m[38;5;12mJu,[39m[38;5;12m [39m[38;5;12mMingyuan[39m[38;5;12m [39m[38;5;12mChi,[39m[38;5;12m [39m[38;5;12mMozhi[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mPeikai[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mPengcheng[39m[38;5;12m [39m[38;5;12mNiu,[39m[38;5;12m [39m[38;5;12mPengfei[39m[38;5;12m [39m[38;5;12mLi,[39m
|
||
[38;5;12mPengyu[39m[38;5;12m [39m[38;5;12mZhao,[39m[38;5;12m [39m[38;5;12mQi[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mQidi[39m[38;5;12m [39m[38;5;12mXu,[39m[38;5;12m [39m[38;5;12mQiexiang[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mQin[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mQiuhui[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mRuitao[39m[38;5;12m [39m[38;5;12mLeng,[39m[38;5;12m [39m[38;5;12mShengmin[39m[38;5;12m [39m[38;5;12mShi,[39m[38;5;12m [39m[38;5;12mShuqi[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mSichen[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mSongquan[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mTao[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mTianrun[39m[38;5;12m [39m[38;5;12mLiang,[39m[38;5;12m [39m[38;5;12mWeigao[39m[38;5;12m [39m[38;5;12mSun,[39m[38;5;12m [39m[38;5;12mWeixuan[39m[38;5;12m [39m[38;5;12mSun,[39m[38;5;12m [39m[38;5;12mWeiyu[39m[38;5;12m [39m[38;5;12mCheng,[39m[38;5;12m [39m[38;5;12mWenkai[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mXiangjun[39m[38;5;12m [39m[38;5;12mSong,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mSu,[39m[38;5;12m [39m[38;5;12mXiaodong[39m[38;5;12m [39m[38;5;12mHan,[39m[38;5;12m [39m
|
||
[38;5;12mXinjie[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mXinzhu[39m[38;5;12m [39m[38;5;12mHou,[39m[38;5;12m [39m[38;5;12mXu[39m[38;5;12m [39m[38;5;12mMin,[39m[38;5;12m [39m[38;5;12mXun[39m[38;5;12m [39m[38;5;12mZou,[39m[38;5;12m [39m[38;5;12mXuyang[39m[38;5;12m [39m[38;5;12mShen,[39m[38;5;12m [39m[38;5;12mYan[39m[38;5;12m [39m[38;5;12mGong,[39m[38;5;12m [39m[38;5;12mYingjie[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mYipeng[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mYiran[39m[38;5;12m [39m[38;5;12mZhong,[39m[38;5;12m [39m[38;5;12mYongyi[39m[38;5;12m [39m[38;5;12mHu,[39m[38;5;12m [39m[38;5;12mYuanxiang[39m[38;5;12m [39m[38;5;12mFan,[39m[38;5;12m [39m[38;5;12mYue[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mYufeng[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mYuhao[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYunan[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mYunji[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYunpeng[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mYunzhi[39m[38;5;12m [39m[38;5;12mXu,[39m[38;5;12m [39m[38;5;12mYuxin[39m[38;5;12m [39m[38;5;12mMao,[39m[38;5;12m [39m[38;5;12mZehan[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mZekang[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m
|
||
[38;5;12mZewei[39m[38;5;12m [39m[38;5;12mTao,[39m[38;5;12m [39m[38;5;12mZewen[39m[38;5;12m [39m[38;5;12mYing,[39m[38;5;12m [39m[38;5;12mZhaoyang[39m[38;5;12m [39m[38;5;12mCong,[39m[38;5;12m [39m[38;5;12mZhen[39m[38;5;12m [39m[38;5;12mQin,[39m[38;5;12m [39m[38;5;12mZhenhua[39m[38;5;12m [39m[38;5;12mFan,[39m[38;5;12m [39m[38;5;12mZhihang[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mZhuo[39m[38;5;12m [39m[38;5;12mJiang,[39m[38;5;12m [39m[38;5;12mZijia[39m[38;5;12m [39m[38;5;12mWu[39m
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mHybrid[0m[38;5;14m[1m [0m[38;5;14m[1mAttention:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmechanism.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mprimarily[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12m"lightning[39m[38;5;12m [39m[38;5;12mattention"[39m[38;5;12m [39m[38;5;12m(an[39m[38;5;12m [39m[38;5;12mI/O-aware[39m[38;5;12m [39m[38;5;12mimplementation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mTransNormer[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mattention)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mHowever,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m
|
||
[38;5;12mit[39m[38;5;12m [39m[38;5;12mstrategically[39m[38;5;12m [39m[38;5;12minserts[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mblock[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msoftmax[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mevery[39m[38;5;12m [39m[38;5;12mseven[39m[38;5;12m [39m[38;5;12mtransnormer[39m[38;5;12m [39m[38;5;12mblocks[39m[38;5;12m [39m[38;5;12m(with[39m[38;5;12m [39m[38;5;12mlightning[39m[38;5;12m [39m[38;5;12mattention).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mdifferentiator[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mpurely[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mstruggle[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m
|
||
[38;5;12mtasks.[39m[38;5;12m [39m[38;5;14m[1mMixture[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mExperts[0m[38;5;14m[1m [0m[38;5;14m[1m(MoE):[0m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mscale[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mefficiently,[39m[38;5;12m [39m[38;5;12mMiniMax-01[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mExperts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfeed-forward[39m[38;5;12m [39m[38;5;12mlayers.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12m456[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mtotal[39m[38;5;12m [39m[38;5;12mparameters,[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12m45.9[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mactivated[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m
|
||
[38;5;12mtoken,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12m32[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtop-2[39m[38;5;12m [39m[38;5;12mrouting[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mincrease[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcost[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mtoken.[39m[38;5;12m [39m[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1m(MiniMax-VL-01):[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(MiniMax-VL-01)[39m[38;5;12m [39m
|
||
[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mMiniMax-Text-01[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mresizing[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12m(from[39m[38;5;12m [39m[38;5;12m336x336[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m2016x2016)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenating[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mresized[39m[38;5;12m [39m
|
||
[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mthumbnail.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mdoes[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mnot[0m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mdownsampling[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12minstead[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlong-context[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mDemonstrates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mviability[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12mscale,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtop-tier[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mextending[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwindow.[39m[38;5;12m [39m[38;5;14m[1mLong-Context[0m[38;5;14m[1m [0m[38;5;14m[1mCapability:[0m[38;5;12m [39m[38;5;12mSupports[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m4[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlong-context[39m[38;5;12m [39m[38;5;12mevaluations.[39m[38;5;12m [39m[38;5;14m[1mEfficient[0m[38;5;14m[1m [0m[38;5;14m[1mTraining[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mInference[0m[38;5;14m[1m [0m[38;5;14m[1mFramework:[0m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12malgorithmic[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mengineering[39m[38;5;12m [39m[38;5;12moptimizations[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mMoE,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mcontexts[39m[38;5;12m [39m[38;5;12mefficiently.[39m
|
||
[38;5;14m[1mPre-training:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mcorpus[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12macademic[39m[38;5;12m [39m[38;5;12mliterature,[39m[38;5;12m [39m[38;5;12mbooks,[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mcontent,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprogramming[39m[38;5;12m [39m[38;5;12mcode.[39m[38;5;12m [39m[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mPre-training[0m[38;5;14m[1m [0m[38;5;14m[1m(VL-01):[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12msubstantial[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(694[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mpairs)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m100[39m[38;5;12m [39m
|
||
[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mdescriptions.[39m[38;5;12m [39m[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mInstruction[0m[38;5;14m[1m [0m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1m(VL-01):[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12minstruction-based[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12msynthesized[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage-related[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;14m[1mAlignment[0m[38;5;14m[1m [0m[38;5;14m[1mDatasets[0m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mmentioned[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12mnot[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mocr.[39m[38;5;12m [39m[38;5;14m[1mHybrid[0m[38;5;14m[1m [0m[38;5;14m[1mAttention:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmechanism,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlightning[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12m(linear)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msoftmax[39m[38;5;12m [39m[38;5;12mattention.[39m[38;5;12m [39m[38;5;14m[1mMoE[0m[38;5;14m[1m [0m[38;5;14m[1mRouting:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m
|
||
[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtop-2[39m[38;5;12m [39m[38;5;12mrouting[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mselective[39m[38;5;12m [39m[38;5;12mactivation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mincreasing[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcost[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mtoken.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mrouter[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mload[39m[38;5;12m [39m[38;5;12mbalancing.[39m[38;5;12m [39m[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mFusion[0m[38;5;14m[1m [0m[38;5;14m[1m(VL-01):[0m[38;5;12m [39m
|
||
[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLP.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mraw,[39m[38;5;12m [39m[38;5;12mhigh-dimensional[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mdownsampling,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlong-context[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;14m[1mVarlen[0m[38;5;14m[1m [0m[38;5;14m[1mRing[0m[38;5;14m[1m [0m[38;5;14m[1mAttention[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mLASP+:[0m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12malgorithms[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlong,[39m[38;5;12m [39m[38;5;12mvariable-length[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mpacking[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mPost-Training[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mAlignment:[39m[38;5;12m [39m[38;5;12mVarious[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12malignment.[39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mNVLM: Open Frontier-Class Multimodal LLMs[0m
|
||
|
||
[38;5;12mNVLM[39m[38;5;12m [39m[38;5;12m1.0[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(LLMs)[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mrivaling[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mopen-access[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12moffers[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mcomparison[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcross-attention-based[39m[38;5;12m [39m[38;5;12marchitectures,[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m1-D[39m[38;5;12m [39m[38;5;12mtile-tagging[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2409.11402-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2409.11402)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/NVIDIA/Megatron-LM/tree/NVLM-1.0)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/nvidia/NVLM-D-72B) [39m
|
||
[38;5;12mWenliang Dai, Nayeon Lee, Boxin Wang, Zhuolin Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mNVLM[0m[38;5;14m[1m [0m[38;5;14m[1m(NVIDIA[0m[38;5;14m[1m [0m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mLanguage[0m[38;5;14m[1m [0m[38;5;14m[1mModel)[0m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mprimary[39m[38;5;12m [39m[38;5;12marchitectures:[39m[38;5;12m [39m[38;5;12mNVLM-D[39m[38;5;12m [39m[38;5;12m(Decoder-only),[39m[38;5;12m [39m[38;5;12mNVLM-X[39m[38;5;12m [39m[38;5;12m(Cross-attention-based),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mNVLM-H[39m[38;5;12m [39m[38;5;12m(Hybrid).[39m[38;5;12m [39m[38;5;12mAll[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mshare[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mpathway,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m
|
||
[38;5;12mInternViT-6B-448px-V1-5[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12m(DHR)[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mDHR[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mdividing[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtiles[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m6,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdownscaled[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12m"thumbnail"[39m[38;5;12m [39m[38;5;12mtile.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mtiles[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12m1024[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdownsampled[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m256[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mshuffling.[39m[38;5;12m [39m[38;5;14m[1mNVLM-D[0m[38;5;14m[1m [0m[38;5;14m[1m(Decoder-only):[0m[38;5;12m [39m[38;5;12mConnects[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(Qwen2-72B-Instruct[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mNous-Hermes-2-Yi-34B)[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m2-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m
|
||
[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3m1-D[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mtile-tagging[0m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mText-based[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mtags[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12m)[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12mbefore[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mflattened[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprovide[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mpretraining[39m
|
||
[38;5;12m(frozen[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMLP)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12m(SFT)[39m[38;5;12m [39m[38;5;12m(unfrozen[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMLP).[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mincluded[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain/improve[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;14m[1mNVLM-X[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(Cross-attention-based):[0m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mFlamingo,[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mwithout[0m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver[39m[38;5;12m [39m[38;5;12mresampler.[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mhidden[39m[38;5;12m [39m[38;5;12mdimension[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mone-layer[39m[38;5;12m [39m[38;5;12mMLP.[39m[38;5;12m [39m[38;5;12mGated[39m[38;5;12m [39m[38;5;12mX-attention[39m[38;5;12m [39m
|
||
[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mself-attention[39m[38;5;12m [39m[38;5;12mlayers.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mstages.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackbone[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12munfrozen[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mSFT,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused.[39m[38;5;12m [39m[38;5;12m1-D[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mtags[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mused,[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mX-attention[39m[38;5;12m [39m
|
||
[38;5;12mlayers.[39m[38;5;12m [39m[38;5;14m[1mNVLM-H[0m[38;5;14m[1m [0m[38;5;14m[1m(Hybrid):[0m[38;5;12m [39m[38;5;12mCombines[39m[38;5;12m [39m[38;5;12maspects[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mNVLM-D[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mNVLM-X.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mthumbnail[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mself-attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12m(like[39m[38;5;12m [39m[38;5;12mNVLM-D),[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mregular[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12m(like[39m[38;5;12m [39m[38;5;12mNVLM-X).[39m[38;5;12m [39m[38;5;12mThis[39m
|
||
[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12m1-D[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mtags[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcross-attention.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12m1-D[39m[38;5;12m [39m[38;5;12mtile-tagging[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mespecially[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mOCR-related[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msimply[39m[38;5;12m [39m[38;5;12mconcatenating[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mgrid/bounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mtags.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12memphasize[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mimportant[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12msheer[39m[38;5;12m [39m[38;5;12mscale,[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpretraining.[39m[38;5;12m [39m[38;5;12mNVLM[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mboth[0m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmath[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mDecoder[39m[38;5;12m [39m[38;5;12mVS[39m[38;5;12m [39m[38;5;12mX-Attention:[39m[38;5;12m [39m[38;5;12mCross[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m
|
||
[38;5;12mHowever,[39m[38;5;12m [39m[38;5;12mDecoder[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mprovides[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mmultimodel[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12maccuracy[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mOCR-related[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mCurated[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12m(COCO,[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mLAION-115M),[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12m(VQAv2,[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mDVQA),[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12m(Docmatix),[39m[38;5;12m [39m[38;5;12mOCR/Scene-Text[39m[38;5;12m [39m[38;5;12m(various[39m[38;5;12m [39m[38;5;12mdatasets),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMath[39m[38;5;12m [39m[38;5;12m(CLEVR-Math).[39m[38;5;12m [39m[38;5;12mEmphasis[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mquantity.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtask-oriented[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mVQA,[39m[38;5;12m [39m[38;5;12mchart/diagram[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m
|
||
[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mmath,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscience[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mHigh-quality[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12m(ShareGPT,[39m[38;5;12m [39m[38;5;12mSlimOrca,[39m[38;5;12m [39m[38;5;12mEvolInstruct,[39m[38;5;12m [39m[38;5;12metc.)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcategories[39m[38;5;12m [39m[38;5;12m(general,[39m[38;5;12m [39m[38;5;12mmath,[39m[38;5;12m [39m[38;5;12mcoding)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmaintaining/improving[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mRefined[39m[38;5;12m [39m
|
||
[38;5;12musing[39m[38;5;12m [39m[38;5;12mGPT-40[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGPT-40-mini.[39m[38;5;12m [39m[38;5;12mNVLM[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mevaluated[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12m(MMMU,[39m[38;5;12m [39m[38;5;12mMathVista,[39m[38;5;12m [39m[38;5;12mOCRBench,[39m[38;5;12m [39m[38;5;12mAI2D,[39m[38;5;12m [39m[38;5;12mChartQA,[39m[38;5;12m [39m[38;5;12mDocVQA,[39m[38;5;12m [39m[38;5;12mTextVQA,[39m[38;5;12m [39m[38;5;12mRealWorldQA,[39m[38;5;12m [39m[38;5;12mVQAv2)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12m(MMLU,[39m[38;5;12m [39m[38;5;12mGSM8K,[39m[38;5;12m [39m[38;5;12mMATH,[39m[38;5;12m [39m[38;5;12mHumanEval).[39m
|
||
|
||
|
||
[38;5;14m[1m[4mOmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference[0m
|
||
|
||
[38;5;12mOmniVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msub-billion-parameter[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mon-device[39m[38;5;12m [39m[38;5;12minference,[39m[38;5;12m [39m[38;5;12mfeaturing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mlength[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m729[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m81,[39m[38;5;12m [39m[38;5;12mdrastically[39m[38;5;12m [39m[38;5;12mcutting[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12moverhead[39m[38;5;12m [39m
|
||
[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mvisual-semantic[39m[38;5;12m [39m[38;5;12mfidelity.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mQwen2.5-0.5B-Instruct[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mGoogle's[39m[38;5;12m [39m[38;5;12mSigLIP-400M.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.11475-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.11475)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/NexaAI/nexa-sdk)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/NexaAIDev/OmniVLM-968M) [39m
|
||
[38;5;12mWei Chen, Zhiyuan Li, Shuo Xin[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mOmniVLM[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdeploying[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(VLMs)[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mresource-constrained[39m[38;5;12m [39m[38;5;12medge[39m[38;5;12m [39m[38;5;12mdevices.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mpipeline.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mimage[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mtoken[0m[38;5;14m[1m [0m[38;5;14m[1mcompression[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mtransforms[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mdimensions[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;14m[1mbatch_size,[0m[38;5;14m[1m [0m[38;5;14m[1m729,[0m[38;5;14m[1m [0m[38;5;14m[1mhidden_size[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;14m[1mbatch_size,[0m[38;5;14m[1m [0m[38;5;14m[1m81,[0m[38;5;14m[1m [0m[38;5;14m[1mhidden_size[0m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12m9x[39m[38;5;12m [39m[38;5;12mreduction[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mcount[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mreshaping,[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mempirical[39m[38;5;12m [39m
|
||
[38;5;12mcomparison[39m[38;5;12m [39m[38;5;12magainst[39m[38;5;12m [39m[38;5;12mconvolution-based[39m[38;5;12m [39m[38;5;12mmethods.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12m(Figure[39m[38;5;12m [39m[38;5;12m1)[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mframework,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mGoogle's[39m[38;5;12m [39m[38;5;12mSigLIP-400M[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mQwen2.5-0.5B-Instruct[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMulti-Layer[39m[38;5;12m [39m[38;5;12mPerceptron[39m[38;5;12m [39m
|
||
[38;5;12m(MLP)[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;14m[1mPretraining[0m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12m(primarily[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdataset)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mvisual-linguistic[39m[38;5;12m [39m[38;5;12malignments,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m
|
||
[38;5;12mlayer;[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;14m[1mSupervised[0m[38;5;14m[1m [0m[38;5;14m[1mFine-Tuning[0m[38;5;14m[1m [0m[38;5;14m[1m(SFT)[0m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12m(LLaVA,[39m[38;5;12m [39m[38;5;12mUnimmChat,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minternal[39m[38;5;12m [39m[38;5;12mdata)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mcontextual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversational[39m[38;5;12m [39m[38;5;12mcoherence,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojector[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder;[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m
|
||
[38;5;14m[1mMinimal-Edit[0m[38;5;14m[1m [0m[38;5;14m[1mDirect[0m[38;5;14m[1m [0m[38;5;14m[1mPreference[0m[38;5;14m[1m [0m[38;5;14m[1mOptimization[0m[38;5;14m[1m [0m[38;5;14m[1m(DPO)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mteacher[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcreate[39m[38;5;12m [39m[38;5;12mminimally[39m[38;5;12m [39m[38;5;12medited[39m[38;5;12m [39m[38;5;12mcorrections[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moutputs,[39m[38;5;12m [39m[38;5;12mforming[39m[38;5;12m [39m[38;5;12mchosen-rejected[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpreference[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12magain[39m[38;5;12m [39m[38;5;12mfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12mprojector[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mDPO[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mGPT-4V[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mExtensive[39m[38;5;12m [39m[38;5;12mexperiments[39m[38;5;12m [39m[38;5;12mshow[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m81-token[39m[38;5;12m [39m[38;5;12mconfiguration[39m[38;5;12m [39m[38;5;12mprovides[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mOmniVLM[39m[38;5;12m [39m
|
||
[38;5;12moutperforms[39m[38;5;12m [39m[38;5;12mnanoLLAVA[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mScienceQA,[39m[38;5;12m [39m[38;5;12mPOPE,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMMMU,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneralization.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mfaster[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mspeeds[39m[38;5;12m [39m[38;5;12m(9.1x[39m[38;5;12m [39m[38;5;12mfaster[39m[38;5;12m [39m[38;5;12mtime-to-first-token[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12m1.5x[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mdecoding[39m[38;5;12m [39m[38;5;12mspeed[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnanoLLAVA[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlaptop,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m8x[39m[38;5;12m [39m[38;5;12mfaster[39m[38;5;12m [39m[38;5;12mTTFT[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mdevice),[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12msuitable[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12medge[39m[38;5;12m [39m[38;5;12mdevices[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12msmartphones[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlaptops.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mPixtral 12B: A Cutting-Edge Open Multimodal Language Model[0m
|
||
|
||
[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12m12B[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m12-billion-parameter[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdeveloped[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mMistral[39m[38;5;12m [39m[38;5;12mAI,[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mis,[39m[38;5;12m [39m[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12m12B[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mscratch[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnatively[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mvariable[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2410.07073-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2410.07073)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/huggingface/transformers/blob/main/docs/source/en/model_doc/pixtral.md)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/mistralai/Pixtral-12B-2409) [39m
|
||
[38;5;12mPravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Baptiste Bout, Devendra Chaplot, Jessica Chudnovsky, et al. (Mistral AI Science Team)[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mPixtral[0m[38;5;14m[1m [0m[38;5;14m[1m12B[0m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmain[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mvision[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mencoder[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3m(Pixtral-ViT)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mtokenizes[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mmultimodal[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mdecoder[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mpredicts[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnext[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mgiven[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mtake[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12marbitrary[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minput,[39m[38;5;12m [39m
|
||
[38;5;12mprovided[39m[38;5;12m [39m[38;5;12mthey[39m[38;5;12m [39m[38;5;12mfit[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12m128K[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwindow.[39m[38;5;12m [39m[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mvision[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;14m[1m [0m[38;5;14m[1m(Pixtral-ViT)[0m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mscratch[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mROPE-2D[39m[38;5;12m [39m[38;5;12mimplementation,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratio.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mflexibly[39m[38;5;12m [39m
|
||
[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mlow[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlatency-constrained[39m[38;5;12m [39m[38;5;12msettings,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mrequired.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mdistinguishing[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msame[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios,[39m[38;5;12m [39m[38;5;12mIMAGE[39m
|
||
[38;5;12mBREAK[39m[38;5;14m[1m [0m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrows.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mIMAGE[39m[38;5;12m [39m[38;5;12mEND[39m[38;5;14m[1m [0m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mend[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mgated[0m[38;5;14m[1m [0m[38;5;14m[1mFFN[0m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mimplementing[39m[38;5;12m [39m[38;5;12mgating[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhidden[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mplace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfeedforward[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mattention[39m[38;5;12m [39m[38;5;12mblock.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mbatch,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mflattens[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mdimension[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenates[39m[38;5;12m [39m[38;5;12mthem.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mblock[39m[38;5;12m [39m[38;5;12mdiagonal[39m[38;5;12m [39m[38;5;12mmask[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconstructed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprevent[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mleakage[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m
|
||
[38;5;12mTraditional[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mabsolute[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mreplaced[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;14m[1mROPE-2D[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mvariable[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msizes.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;14m[1mmultimodal[0m[38;5;14m[1m [0m[38;5;14m[1mdecoder[0m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtop[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMistral[39m[38;5;12m [39m[38;5;12mNemo[39m[38;5;12m [39m[38;5;12m12B[39m[38;5;12m [39m[38;5;14m[1m15[0m[38;5;12m [39m[38;5;12m,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m12-billion[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m
|
||
[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcausal[39m[38;5;12m [39m[38;5;12mself-attention.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconnected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mfully[39m[38;5;12m [39m[38;5;12mconnected[39m[38;5;12m [39m[38;5;12mnetwork.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpaper[39m[38;5;12m [39m[38;5;12mdescribes[39m[38;5;12m [39m[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minstruction-tuned[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdocuments.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mPaper[39m[38;5;12m [39m[38;5;12mcontributes[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mcalled[39m[38;5;12m [39m[38;5;14m[1mMM-MT-Bench[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mevaluating[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mPixtral[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfollowing,[39m[38;5;12m [39m[38;5;12msurpassing[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mmodels[39m
|
||
[38;5;12mon the MM-MT-Bench benchmark.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos[0m
|
||
|
||
[38;5;12mSa2VA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSAM-2[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m
|
||
[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversation,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtreating[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12m(text,[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mvideos)[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mshared[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mguide[39m[38;5;12m [39m[38;5;12mSAM-2[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mmask[39m[38;5;12m [39m[38;5;12mproduction.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2501.04001-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2501.04001)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/magic-research/Sa2VA)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/papers/2501.04001) [39m
|
||
[38;5;12mHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mSa2VA[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mLLaVA-like[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(containing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mappends[39m[38;5;12m [39m[38;5;12mSAM-2[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mit.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mdecoupled[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mdesign[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mSAM-2's[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmemory[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfrozen.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mpreserves[39m[38;5;12m [39m[38;5;12mSAM-2's[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtracking[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mSa2VA[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mplug-and-play[39m[38;5;12m [39m[38;5;12mmodule,[39m[38;5;12m [39m[38;5;12mupdatable[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mnewer[39m[38;5;12m [39m[38;5;12mMLLMs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mconnection[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSAM-2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12m"[39m[38;5;14m[1mSEG[0m[38;5;12m [39m[38;5;12m"[39m[38;5;12m [39m[38;5;12mtoken.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mtoken,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mhidden[39m[38;5;12m [39m
|
||
[38;5;12mstates[39m[38;5;12m [39m[38;5;12mact[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspatial-temporal[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mSAM-2's[39m[38;5;12m [39m[38;5;12mdecoder,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mproduces[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mend-to-end,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mscalability.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mformat[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks:[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m
|
||
[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12m(VQA),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12m(GCG)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mtreats[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mco-training[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mRef-SAV[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mauto-labeled[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m72,000[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mexpressions[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mscenes,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmanually[39m[38;5;12m [39m[38;5;12mvalidate[39m[38;5;12m [39m[38;5;12m2,000[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mRef-SAV[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbenchmarking[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mA[39m
|
||
[38;5;12msimple[39m[38;5;12m [39m[38;5;12mmask[39m[38;5;12m [39m[38;5;12mtracking[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mre-utilizes[39m[38;5;12m [39m[38;5;12mSAM-2's[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mformulates[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;12mDatasets[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mco-training[39m[38;5;12m [39m[38;5;12mare:[39m[38;5;12m [39m[38;5;12mLLAVA[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12m(665K),[39m[38;5;12m [39m[38;5;12mRefCOCO[39m[38;5;12m [39m[38;5;12m(17K),[39m[38;5;12m [39m[38;5;12mRefCOCO+[39m[38;5;12m [39m[38;5;12m(17K),[39m[38;5;12m [39m[38;5;12mRefCOCOg[39m[38;5;12m [39m[38;5;12m(22K),[39m[38;5;12m [39m[38;5;12mGrand-f[39m[38;5;12m [39m[38;5;12m(214K),[39m[38;5;12m [39m
|
||
[38;5;12mChatUniVi[39m[38;5;12m [39m[38;5;12m(100K).[39m[38;5;12m [39m[38;5;12mRef-YTVOS[39m[38;5;12m [39m[38;5;12m(3.5K),[39m[38;5;12m [39m[38;5;12mMeVIS[39m[38;5;12m [39m[38;5;12m(0.6K),[39m[38;5;12m [39m[38;5;12mReVOS[39m[38;5;12m [39m[38;5;12m(1.7K)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mRef-SAV[39m[38;5;12m [39m[38;5;12m(37K).[39m
|
||
|
||
|
||
[38;5;14m[1m[4mTarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding[0m
|
||
|
||
[38;5;12mTarsier2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LVLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maccurate[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mscales[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mperforms[39m[38;5;12m [39m
|
||
[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mmodel-based[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mGPT-4o[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGemini[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mPro.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2501.07888-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2501.07888)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/bytedance/tarsier)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/omni-research/Tarsier-7b)[39m[38;5;12m [39m
|
||
[38;5;12mLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mTarsier2[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstraightforward[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mconsisting[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12madaptor,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mQwen2-VL.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess:[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m
|
||
[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12m(SFT),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreinforcement[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12m(RL)[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO).[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mimprovement[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mTarsier,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mexpansion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m11[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m40[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m
|
||
[38;5;12mvideo-text[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mexpansion[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmeticulous[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m11[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mcommentary[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(explanations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12manalyses[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmovies[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mTV[39m[38;5;12m [39m[38;5;12mshows),[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mcontextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12mTarsier2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcontaining[39m[38;5;12m [39m[38;5;12m150K[39m[38;5;12m [39m[38;5;12minstances,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdescription[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mannotations[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mdescribed[39m[38;5;12m [39m[38;5;12mevent.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mfine-grained[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mtemporal[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3malignment[0m[38;5;12m [39m[38;5;12mprovides[39m[38;5;12m [39m[38;5;12msupervision[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12maccuracy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mhallucinations[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mvideo-caption[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mphase[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconducted[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12msteps.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mevent[39m[38;5;12m [39m[38;5;12mallignment.[39m[38;5;12m [39m[38;5;12mThen,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmake[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mhuman-like[39m[38;5;12m [39m[38;5;12mstyle.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m
|
||
[38;5;12memploys[39m[38;5;12m [39m[38;5;12mDPO[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mautomatically[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mpreference[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mNegative[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcreated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcorrupting[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(clip-switching,[39m[38;5;12m [39m[38;5;12mclip-reversing,[39m[38;5;12m [39m[38;5;12mclip-cropping,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdown-sampling),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpreference[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12m(using[39m[38;5;12m [39m[38;5;12mAutoDQ)[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m
|
||
[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mTarsier2[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m15[39m[38;5;12m [39m[38;5;12mpublic[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mquestion-answering,[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mhallucination[39m[38;5;12m [39m[38;5;12mtests,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12membodied[39m[38;5;12m [39m[38;5;12mquestion-answering.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m
|
||
[38;5;12mrecaptioning[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mTarsier2-Recap-585K,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mreleased.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mUI-TARS: Pioneering Automated GUI Interaction with Native Agents[0m
|
||
|
||
[38;5;12mUI-TARS[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mGUI[39m[38;5;12m [39m[38;5;12magent[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12moperates[39m[38;5;12m [39m[38;5;12msolely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mscreenshots,[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m[38;5;12mhuman-like[39m[38;5;12m [39m[38;5;12minteractions[39m[38;5;12m [39m[38;5;12m(keyboard[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmouse[39m[38;5;12m [39m[38;5;12moperations).[39m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mframeworks[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mwrapped[39m[38;5;12m [39m[38;5;12mcommercial[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12mGPT-4o),[39m[38;5;12m [39m[38;5;12mUI-TARS[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12m(SOTA)[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m10+[39m[38;5;12m [39m[38;5;12mGUI[39m[38;5;12m [39m[38;5;12magent[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mexecution,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mframeworks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2501.12326-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2501.12326)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/bytedance/UI-TARS)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/bytedance-research/UI-TARS-7B-SFT)[39m[38;5;12m [39m
|
||
[38;5;12mYujia[39m[38;5;12m [39m[38;5;12mQin,[39m[38;5;12m [39m[38;5;12mYining[39m[38;5;12m [39m[38;5;12mYe,[39m[38;5;12m [39m[38;5;12mJunjie[39m[38;5;12m [39m[38;5;12mFang,[39m[38;5;12m [39m[38;5;12mHaoming[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mShihao[39m[38;5;12m [39m[38;5;12mLiang,[39m[38;5;12m [39m[38;5;12mShizuo[39m[38;5;12m [39m[38;5;12mTian,[39m[38;5;12m [39m[38;5;12mJunda[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mJiahao[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYunxin[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mShijue[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mWanjun[39m[38;5;12m [39m[38;5;12mZhong,[39m[38;5;12m [39m[38;5;12mKuanye[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mJiale[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mYu[39m[38;5;12m [39m[38;5;12mMiao,[39m[38;5;12m [39m[38;5;12mWoyu[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mLongxiang[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mXu[39m[38;5;12m [39m[38;5;12mJiang,[39m[38;5;12m [39m[38;5;12mQianli[39m[38;5;12m [39m[38;5;12mMa,[39m[38;5;12m [39m[38;5;12mJingyu[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mXiaojun[39m[38;5;12m [39m[38;5;12mXiao,[39m[38;5;12m [39m[38;5;12mKai[39m[38;5;12m [39m
|
||
[38;5;12mCai,[39m[38;5;12m [39m[38;5;12mChuang[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYaowei[39m[38;5;12m [39m[38;5;12mZheng,[39m[38;5;12m [39m[38;5;12mChaolin[39m[38;5;12m [39m[38;5;12mJin,[39m[38;5;12m [39m[38;5;12mChen[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mMinchao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mHaoli[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mZhaojian[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mHaihua[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mHaifeng[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mFeng[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mTao[39m[38;5;12m [39m[38;5;12mPeng,[39m[38;5;12m [39m[38;5;12mXin[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mGuang[39m[38;5;12m [39m[38;5;12mShi[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mUI-TARS[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12minnovations:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;14m[1mEnhanced[0m[38;5;14m[1m [0m[38;5;14m[1mPerception[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mGUI[39m[38;5;12m [39m[38;5;12mscreenshot[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcontext-aware[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mUI[39m[38;5;12m [39m[38;5;12melements;[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;14m[1mUnified[0m[38;5;14m[1m [0m[38;5;14m[1mAction[0m[38;5;14m[1m [0m[38;5;14m[1mModeling[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mstandardizing[39m[38;5;12m [39m[38;5;12mactions[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12munified[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mplatforms[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mtraces;[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;14m[1mSystem-2[0m[38;5;14m[1m [0m[38;5;14m[1mReasoning[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mdeliberate[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmulti-step[39m[38;5;12m [39m[38;5;12mdecision-making,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mdecomposition,[39m[38;5;12m [39m[38;5;12mreflection,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmilestone[39m[38;5;12m [39m
|
||
[38;5;12mrecognition;[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(4)[39m[38;5;12m [39m[38;5;14m[1mIterative[0m[38;5;14m[1m [0m[38;5;14m[1mTraining[0m[38;5;14m[1m [0m[38;5;14m[1mwith[0m[38;5;14m[1m [0m[38;5;14m[1mReflective[0m[38;5;14m[1m [0m[38;5;14m[1mOnline[0m[38;5;14m[1m [0m[38;5;14m[1mTraces[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12maddressing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mbottleneck[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mautomatically[39m[38;5;12m [39m[38;5;12mcollecting,[39m[38;5;12m [39m[38;5;12mfiltering,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mtraces[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhundreds[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvirtual[39m[38;5;12m [39m[38;5;12mmachines.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12miteratively[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtuned[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mreflection,[39m[38;5;12m [39m[38;5;12mcontinuously[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mmistakes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madapting[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12msituations[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mhuman[39m[38;5;12m [39m[38;5;12mintervention.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mtakes[39m[38;5;12m [39m[38;5;12mscreenshots[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(VLM),[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mQwen-2-VL[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m72B,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mactions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mplatforms[39m[38;5;12m [39m[38;5;12m(mobile,[39m[38;5;12m [39m[38;5;12mdesktop,[39m[38;5;12m [39m[38;5;12mweb)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mactions[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mclick,[39m[38;5;12m [39m[38;5;12mtype,[39m[38;5;12m [39m[38;5;12mscroll,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdrag.[39m[38;5;12m [39m[38;5;12mReasoning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minfused[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mexplicit[39m[38;5;12m [39m[38;5;12m"thoughts"[39m[38;5;12m [39m[38;5;12mbefore[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m
|
||
[38;5;12maction,[39m[38;5;12m [39m[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mReAct[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mthoughts[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mGUI[39m[38;5;12m [39m[38;5;12mtutorials[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mtraces,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mpatterns[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mdecomposition,[39m[38;5;12m [39m[38;5;12mlong-term[39m[38;5;12m [39m[38;5;12mconsistency,[39m[38;5;12m [39m[38;5;12mmilestone[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mtrial[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12merror,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreflection.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12mstarting[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mGUI[39m[38;5;12m [39m[38;5;12mscreenshots[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12massociated[39m[38;5;12m [39m[38;5;12mmetadata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12melement[39m[38;5;12m [39m[38;5;12mdescription,[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m
|
||
[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mstate[39m[38;5;12m [39m[38;5;12mtransition[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mset-of-mark[39m[38;5;12m [39m[38;5;12mprompting.[39m[38;5;12m [39m[38;5;12mAction[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mtraces[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpair[39m[38;5;12m [39m[38;5;12melement[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mcoordinates.[39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12m(SFT)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mreflection[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12merrors.[39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mVideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling[0m
|
||
|
||
[38;5;12mVideoChat-Flash[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msystem[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mlong-form[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(MLLMs).[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mHierarchical[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mCompression[39m[38;5;12m [39m[38;5;12m(HiCo)[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mload[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12messential[39m[38;5;12m [39m
|
||
[38;5;12mdetails,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mlong-video[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(LongVid)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2501.00574-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2501.00574)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/OpenGVLab/VideoChat-Flash)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448)[39m[38;5;12m [39m
|
||
[38;5;12mXinhao Li, Yi Wang, Jiashuo Yu, Xiangyu Zeng, Yuhan Zhu, Haian Huang, Jianfei Gao, Kunchang Li, Yinan He, Chenting Wang, Yu Qiao, Yali Wang, Limin Wang[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mHierarchical[0m[38;5;14m[1m [0m[38;5;14m[1mvisual[0m[38;5;14m[1m [0m[38;5;14m[1mtoken[0m[38;5;14m[1m [0m[38;5;14m[1mCompression[0m[38;5;14m[1m [0m[38;5;14m[1m(HiCo):[0m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mcompresses[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mlevels:[39m[38;5;12m [39m[38;5;14m[1mClip-level[0m[38;5;14m[1m [0m[38;5;14m[1mCompression:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdivided[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mclips.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(UMT-L)[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mclip,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompressor[39m[38;5;12m [39m
|
||
[38;5;12m(token[39m[38;5;12m [39m[38;5;12mmerging[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mMLP)[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mexploits[39m[38;5;12m [39m[38;5;12minter-frame[39m[38;5;12m [39m[38;5;12mredundancy.[39m[38;5;12m [39m[38;5;14m[1mVideo-level[0m[38;5;14m[1m [0m[38;5;14m[1mCompression:[0m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(Qwen2-7B)[39m[38;5;12m [39m[38;5;12minteraction,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mreduced[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprogressive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdropout[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m
|
||
[38;5;12mThis[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12midea[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mshallow[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mdeeper[39m[38;5;12m [39m[38;5;12mlayers.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12muniform[39m[38;5;12m [39m[38;5;12mdropout[39m[38;5;12m [39m[38;5;12m(shallow[39m[38;5;12m [39m[38;5;12mlayers)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-guided[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12m(deep[39m[38;5;12m [39m[38;5;12mlayers).[39m[38;5;12m [39m[38;5;14m[1mVisual[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder:[0m[38;5;12m [39m[38;5;12mUMT-L@224[39m[38;5;12m [39m[38;5;14m[1m30[0m[38;5;12m [39m[38;5;12m(a[39m[38;5;12m [39m
|
||
[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mshown[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mSigLIP).[39m[38;5;12m [39m[38;5;14m[1mVisual-Language[0m[38;5;14m[1m [0m[38;5;14m[1mConnector:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mcompressor[39m[38;5;12m [39m[38;5;12m(token[39m[38;5;12m [39m[38;5;12mmerging)[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mprojection.[39m[38;5;12m [39m[38;5;14m[1mLarge[0m[38;5;14m[1m [0m[38;5;14m[1mLanguage[0m[38;5;14m[1m [0m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1m(LLM):[0m[38;5;12m [39m[38;5;12mQwen2-7B.[39m[38;5;12m [39m[38;5;14m[1mMulti-stage[0m[38;5;14m[1m [0m[38;5;14m[1mShort-to-Long[0m[38;5;14m[1m [0m[38;5;14m[1mLearning:[0m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m
|
||
[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstrategy:[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m1:[0m[38;5;14m[1m [0m[38;5;14m[1mVideo-Language[0m[38;5;14m[1m [0m[38;5;14m[1mAlignment:[0m[38;5;12m [39m[38;5;12mTrain[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcompressor[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mvideo-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12m(0.5M[39m[38;5;12m [39m[38;5;12meach).[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m2:[0m[38;5;14m[1m [0m[38;5;14m[1mShort[0m[38;5;14m[1m [0m[38;5;14m[1mVideo[0m[38;5;14m[1m [0m[38;5;14m[1mPre-training:[0m[38;5;12m [39m[38;5;12mEnhance[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12m(3.5M)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mshort[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(2.5M).[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m3:[0m[38;5;14m[1m [0m[38;5;14m[1mJoint[0m[38;5;14m[1m [0m[38;5;14m[1mShort[0m[38;5;14m[1m [0m[38;5;14m[1m&[0m[38;5;14m[1m [0m[38;5;14m[1mLong[0m[38;5;14m[1m [0m[38;5;14m[1mVideo[0m[38;5;14m[1m [0m[38;5;14m[1mInstruction[0m[38;5;14m[1m [0m[38;5;14m[1mTuning:[0m[38;5;12m [39m[38;5;12mFine-tune[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12m(1.1M),[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(1.7M),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(0.7M)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m4:[0m[38;5;14m[1m [0m[38;5;14m[1mEfficient[0m[38;5;14m[1m [0m[38;5;14m[1mHigh-Resolution[0m[38;5;14m[1m [0m[38;5;14m[1mPost-finetuning:[0m[38;5;12m [39m
|
||
[38;5;12mAdapt[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(224[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m448)[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msubset[39m[38;5;12m [39m[38;5;12m(25%)[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;14m[1mDynamic[0m[38;5;14m[1m [0m[38;5;14m[1mVideo[0m[38;5;14m[1m [0m[38;5;14m[1mSampling:[0m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdual[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mstrategy:[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12m(15[39m[38;5;12m [39m[38;5;12mfps)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(capturing[39m[38;5;12m [39m[38;5;12mmotion)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msparse[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12m(1[39m
|
||
[38;5;12mfps)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(capturing[39m[38;5;12m [39m[38;5;12mevents).[39m[38;5;12m [39m[38;5;14m[1mTimestamp-aware[0m[38;5;14m[1m [0m[38;5;14m[1mPrompt:[0m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprovide[39m[38;5;12m [39m[38;5;12mtimestamp[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel:[39m[38;5;12m [39m[38;5;12m"The[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mlasts[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mN[39m[38;5;12m [39m[38;5;12mseconds,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mT[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12muniformly[39m[38;5;12m [39m[38;5;12msampled[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mit.[39m[38;5;14m[1mLongVid:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mlong[39m
|
||
[38;5;12mvideo[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpaper.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mcontains[39m[38;5;12m [39m[38;5;12m114,228[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m3,444,849[39m[38;5;12m [39m[38;5;12mquestion-answer[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mfive[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mtypes.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12m(Ego4D,[39m[38;5;12m [39m[38;5;12mHowTo100M,[39m[38;5;12m [39m[38;5;12mHD-Vila,[39m[38;5;12m [39m[38;5;12mMiraData)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mevent[39m
|
||
[38;5;12mlabels.[39m[38;5;12m [39m[38;5;14m[1mMixed[0m[38;5;14m[1m [0m[38;5;14m[1mTraining[0m[38;5;14m[1m [0m[38;5;14m[1mData:[0m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;14m[1mNIAH[0m[38;5;14m[1m [0m[38;5;14m[1m(Needle[0m[38;5;14m[1m [0m[38;5;14m[1mIn[0m[38;5;14m[1m [0m[38;5;14m[1mA[0m[38;5;14m[1m [0m[38;5;14m[1mvideo[0m[38;5;14m[1m [0m[38;5;14m[1mHaystack)[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12mcreated[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtesting[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mcontexts.[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mVideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding[0m
|
||
|
||
[38;5;12mVideoLLaMA3[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-centric[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mparadigm[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mprioritize[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madaptable[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mcompression,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2501.13106-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2501.13106v1)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/DAMO-NLP-SG/VideoLLaMA3)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/papers/2501.13106) [39m
|
||
[38;5;12mBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mVideoLLaMA3[0m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-centric[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mparadigm[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mdesign,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(SigLIP),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcompressor[39m[38;5;12m [39m[38;5;12m(DiffFP),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprojector,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM[39m[38;5;12m [39m[38;5;12m-[39m[38;5;12m [39m[38;5;12mQwen2.5).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfour-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess:[39m[38;5;12m [39m[38;5;12m1)[39m[38;5;12m [39m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder[0m[38;5;14m[1m [0m[38;5;14m[1mAdaptation[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12madapted[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maccept[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvariable[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m
|
||
[38;5;12mscene[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscene[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mimages;[39m[38;5;12m [39m[38;5;12m2)[39m[38;5;12m [39m[38;5;14m[1mVision-Language[0m[38;5;14m[1m [0m[38;5;14m[1mAlignment[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mjointly[39m[38;5;12m [39m[38;5;12mtunes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mprojector,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(including[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mdocuments,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcharts)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12mamount[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdata;[39m[38;5;12m [39m[38;5;12m3)[39m[38;5;12m [39m[38;5;14m[1mMulti-task[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcaption[39m[38;5;12m [39m[38;5;12mdata;[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m4)[39m[38;5;12m [39m[38;5;14m[1mVideo-centric[0m[38;5;14m[1m [0m[38;5;14m[1mFine-tuning[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mstreaming[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mtemporally[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mimage-only,[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;14m[1mAny-resolution[0m[38;5;14m[1m [0m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mTokenization[0m[38;5;14m[1m [0m[38;5;14m[1m(AVT)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12many[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mreplacing[39m[38;5;12m [39m[38;5;12mfixed[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mRotary[39m[38;5;12m [39m[38;5;12mPosition[39m[38;5;12m [39m[38;5;12mEmbedding[39m[38;5;12m [39m[38;5;12m(RoPE).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12menables[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvariable[39m[38;5;12m [39m[38;5;12mshapes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mloss.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;14m[1mDifferential[0m[38;5;14m[1m [0m[38;5;14m[1mFrame[0m[38;5;14m[1m [0m[38;5;14m[1mPruner[0m[38;5;14m[1m [0m[38;5;14m[1m(DiffFP)[0m[38;5;12m [39m[38;5;12macts[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcompressor,[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcomparing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m1-norm[39m[38;5;12m [39m[38;5;12mdistance[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mtemporally[39m[38;5;12m [39m
|
||
[38;5;12mconsecutive[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpruning[39m[38;5;12m [39m[38;5;12mredundant[39m[38;5;12m [39m[38;5;12mpatches.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmakes[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprecise.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m
|
||
[38;5;12mEncoder[39m[38;5;12m [39m[38;5;12mAdaptation[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVL3-Syn7M-short,[39m[38;5;12m [39m[38;5;12mLLaVA-Pretrain-558k,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mAlignment[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mexpands[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mboxes.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12mMulti-task[39m[38;5;12m [39m[38;5;12mFine-tuning[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12madds[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcaption[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVideo-centric[39m[38;5;12m [39m[38;5;12mFine-tuning[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mstreaming[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12m"vision-centric"[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m
|
||
[38;5;12mprioritizing[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mAVT[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDiffFP,[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mVideoLLaMA3[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mLlama 3.2-Vision: Enhanced Multimodal Capabilities Built on Llama 3[0m
|
||
|
||
[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3.2-Vision[39m[38;5;12m [39m[38;5;12mextends[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mavailable[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12m11B[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m90B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12msizes,[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12madapter[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/meta-llama/llama-models) [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/meta-llama/Llama-3.2-11B-Vision) [39m
|
||
[38;5;12mMeta[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mLlama[0m[38;5;14m[1m [0m[38;5;14m[1m3.2-Vision[0m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mauto-regressive[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mtransformer.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12madds[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mvision[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3madapter[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mcomprised[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mincorporate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12madapter[39m[38;5;12m [39m[38;5;12mreceives[39m[38;5;12m [39m
|
||
[38;5;12minput[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mseparate[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mvision[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mencoder[0m[38;5;12m [39m[38;5;12m(not[39m[38;5;12m [39m[38;5;12mpart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mmodel),[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mconverting[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12m [39m[38;5;12mtag[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12msignifies[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpresence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdictates[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mcross-attention.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12moccurs[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mafter[0m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtag[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minfluences[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3msubsequent[0m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mlength[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m128k[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mGrouped-Query[39m[38;5;12m [39m[38;5;12mAttention[39m[38;5;12m [39m[38;5;12m(GQA).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m6B[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mPretraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcutoff[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mDecember[39m[38;5;12m [39m[38;5;12m2023,[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mEnglish,[39m[38;5;12m [39m[38;5;12mGerman,[39m[38;5;12m [39m[38;5;12mFrench,[39m[38;5;12m [39m[38;5;12mItalian,[39m[38;5;12m [39m[38;5;12mPortuguese,[39m[38;5;12m [39m[38;5;12mHindi,[39m[38;5;12m [39m[38;5;12mSpanish,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mThai.[39m[38;5;12m [39m[38;5;12mHowever[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mEnglish.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m
|
||
[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12m(SFT)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreinforcement[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhuman[39m[38;5;12m [39m[38;5;12mfeedback[39m[38;5;12m [39m[38;5;12m(RLHF)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12minstruction-tuned[39m[38;5;12m [39m[38;5;12mversions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12msuitable[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcompletion,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mformats.[39m[38;5;12m [39m[38;5;12mInstruction-tuned[39m[38;5;12m [39m
|
||
[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mQuestion[39m[38;5;12m [39m[38;5;12mAnswering[39m[38;5;12m [39m[38;5;12m(VQA),[39m[38;5;12m [39m[38;5;12mDocument[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12m(DocVQA),[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mretrieval.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mannealing,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mamount[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m
|
||
[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mresources[39m[38;5;12m [39m[38;5;12m(H100[39m[38;5;12m [39m[38;5;12mGPUs).[39m[38;5;12m [39m[38;5;12mKey[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mquestions[39m[38;5;12m [39m[38;5;12mabout[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mreasoning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mdoes[0m[48;2;30;30;40m[38;5;13m[3m [0m[48;2;30;30;40m[38;5;13m[3mnot[0m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mbuilt-in[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mcalling[39m[38;5;12m [39m[38;5;12m(like[39m[38;5;12m [39m
|
||
[48;5;235m[38;5;249mbrave_search[49m[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[48;5;235m[38;5;249mwolfram_alpha[49m[39m[38;5;12m)[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpresent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprompt;[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mcalling[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mavailable[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mintended[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mcases[39m[38;5;12m [39m[38;5;12mcover[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mapplications,[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12musage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mrestricted[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3.2[39m[38;5;12m [39m[38;5;12mCommunity[39m[38;5;12m [39m[38;5;12mLicense[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12mAcceptable[39m[38;5;12m [39m[38;5;12mUse[39m[38;5;12m [39m[38;5;12mPolicy,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mregarding[39m[38;5;12m [39m[38;5;12mlanguages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mmisuse.[39m[38;5;12m [39m[38;5;12mMeta[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12mGuard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msafety[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mencouraging[39m[38;5;12m [39m[38;5;12mdevelopers[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimplement[39m[38;5;12m [39m[38;5;12mappropriate[39m[38;5;12m [39m[38;5;12msafeguards.[39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12munderwent[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mevaluations,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mred[39m[38;5;12m [39m[38;5;12mteaming[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12massessments[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mrisks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mCBRNE,[39m[38;5;12m [39m[38;5;12mchild[39m[38;5;12m [39m[38;5;12msafety,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcyber[39m[38;5;12m [39m[38;5;12mattacks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSmolVLM: A Small, Efficient, and Open-Source Vision-Language Model[0m
|
||
|
||
[38;5;12mSmolVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m2B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmemory[39m[38;5;12m [39m[38;5;12mfootprint,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msmall,[39m[38;5;12m [39m[38;5;12mfast,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmemory-efficient[39m[38;5;12m [39m[38;5;12msolution[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfully[39m[38;5;12m [39m[38;5;12mopen-source,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12mcheckpoints,[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipes,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12mreleased[39m[38;5;12m [39m[38;5;12munder[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mApache[39m[38;5;12m [39m[38;5;12m2.0[39m[38;5;12m [39m[38;5;12mlicense,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mdeployment,[39m[38;5;12m [39m[38;5;12mreduced[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mcosts,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muser[39m[38;5;12m [39m[38;5;12mcustomization.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/Blog-SmolVLM%20Blog-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://huggingface.co/blog/smolvlm)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/huggingface/smollm)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct) [39m
|
||
[38;5;12mAndres Marafioti, Merve Noyan, Miquel Farré, Elie Bakouch, Pedro Cuenca[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mSmolVLM[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mIdefics3,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mimplementation[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtransformers[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mdifferences[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mreplaces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3.1[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbackbone[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mSmolLM2[39m[38;5;12m [39m[38;5;12m1.7B[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m
|
||
[38;5;12maggressive[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12memployed,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mshuffle[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfactor[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m9[39m[38;5;12m [39m[38;5;12m(compared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m4x[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mIdefics3).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12m384x384[39m[38;5;12m [39m[38;5;12mpatches,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mshape-optimized[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m
|
||
[38;5;12mbackbone[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m14x14[39m[38;5;12m [39m[38;5;12minner[39m[38;5;12m [39m[38;5;12mpatches.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mmemory[39m[38;5;12m [39m[38;5;12musage[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtransformers,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mon-device[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12minstance,[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mrequires[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12m1.2k[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m
|
||
[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mless[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mQwen2-VL.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mtranslates[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfaster[39m[38;5;12m [39m[38;5;12mprefill[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mthroughputs.[39m[38;5;12m [39m[38;5;12mSmolVLM[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mMMMU,[39m[38;5;12m [39m[38;5;12mMathVista,[39m[38;5;12m [39m[38;5;12mMMStar,[39m[38;5;12m [39m[38;5;12mDocVQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mTextVQA.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mshows[39m[38;5;12m [39m[38;5;12mpromising[39m
|
||
[38;5;12mresults[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mbasic[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12manalysis,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12minvolved[39m[38;5;12m [39m[38;5;12mextending[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwindow[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSmolLM2[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m16k[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mRoPE[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mvalue[39m[38;5;12m [39m[38;5;12madjustment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlong-[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mshort-context[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mlargely[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mCauldron[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDocmatix,[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mCheckpoint[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweighted[39m[38;5;12m [39m[38;5;12mmetric[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintegrated[39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12mVLMEvalKit[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12measy[39m[38;5;12m [39m[38;5;12mevaluation,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mreadily[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtransformers[39m[38;5;12m [39m[38;5;12mlibrary.[39m[38;5;12m [39m[38;5;12mTRL[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mapplying[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO).[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnotebook[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mprovided[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mVQAv2,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12moptions[39m
|
||
[38;5;12mfor[39m[38;5;12m [39m[38;5;12mLoRA,[39m[38;5;12m [39m[38;5;12mQLoRA,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconstraints[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mconsumer[39m[38;5;12m [39m[38;5;12mGPUs.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mIdefics2[0m
|
||
|
||
[38;5;12mIDEFICS2,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMistral-7B[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m
|
||
[38;5;12mencoding,[39m[38;5;12m [39m[38;5;12mexcelling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2405.02246-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2405.02246)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m
|
||
[38;5;12m(https://huggingface.co/spaces/HuggingFaceM4/idefics-8b)[39m[38;5;12m [39m
|
||
[38;5;12mHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12mIDEFICS2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mIDEFICS2[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mextracting[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMistral-7B[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoding,[39m[38;5;12m [39m
|
||
[38;5;12mIDEFICS2[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mPerceiver[0m[38;5;14m[1m [0m[38;5;14m[1mpooling[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mIDEFICS2[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks,[39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mparticular[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mOBELICS,[39m[38;5;12m [39m[38;5;12mLAION[39m[38;5;12m [39m[38;5;12mCoco,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPMD,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mFine-tuning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mperformed[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12mCauldron[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOpenHermes-2.5.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mIdefics3-8B: Building and Better Understanding Vision-Language Models[0m
|
||
|
||
[38;5;12mIdefics3-8B[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12moutperforms[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mIdefics2-8B,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexclusively[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstraightforward[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mDocmatix,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mcategory[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.12637-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2408.12637)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m
|
||
[38;5;12m(https://huggingface.co/spaces/HuggingFaceM4/idefics3)[39m[38;5;12m [39m
|
||
[38;5;12mHugo Laurençon, Andrés Marafioti, Victor Sanh, Léo Tronchon [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mIdefics3-8B[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m3.1[39m[38;5;12m [39m[38;5;12minstruct[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSigLIP-SO400M[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12madopts[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mself-attention[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtreated[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m
|
||
[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mbefore[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbottleneck[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlimited[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mIdefics3-8B[39m[38;5;12m [39m[38;5;12mreplaces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperceiver[39m[38;5;12m [39m[38;5;12mresampler[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mIdefics2[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m
|
||
[38;5;12mshuffle[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mInternVL-1.5.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mhidden[39m[38;5;12m [39m[38;5;12mstates[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfactor[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m4,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m364x364[39m[38;5;12m [39m[38;5;12mpixels)[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12m169[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage-splitting[39m[38;5;12m [39m
|
||
[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minference,[39m[38;5;12m [39m[38;5;12mdividing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmatrix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m364x364[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mtiles.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mpreserve[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mstructure[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mtiles,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12m'\n'[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mrow[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtiles,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mdownscaled[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mappended[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mprepended[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mindicating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmatrix.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m
|
||
[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbackbones[39m[38;5;12m [39m[38;5;12m(LLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder)[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfrozen,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12minitialized[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtrained.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmaximum[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mgradually[39m[38;5;12m [39m[38;5;12mincreased[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m364²[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m1820².[39m[38;5;12m [39m[38;5;12mFrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msecond[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m
|
||
[38;5;12monward,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbackbones[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mDoRA[39m[38;5;12m [39m[38;5;12m(a[39m[38;5;12m [39m[38;5;12mvariant[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLoRA),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mDocmatix,[39m[38;5;12m [39m[38;5;12mWebsight,[39m[38;5;12m [39m
|
||
[38;5;12mLNQA,[39m[38;5;12m [39m[38;5;12mPixelProse,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mChartGemma.[39m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mNEFTune[39m[38;5;12m [39m[38;5;12mnoise[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mapplied[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcalculated[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12manswer[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrate[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mkept[39m[38;5;12m [39m[38;5;12mconstant[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinearly[39m[38;5;12m [39m
|
||
[38;5;12mdecayed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mzero[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mIdefics3-8B[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mIdefics2,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m13.7-point[39m[38;5;12m [39m[38;5;12mimprovement[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mDocVQA.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mDocmatix[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mchoices[39m[38;5;12m [39m[38;5;12mmade[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mIdefics3-8B.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mcategory[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mMMMU,[39m[38;5;12m [39m[38;5;12mMathVista,[39m
|
||
[38;5;12mMMStar,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mTextVQA,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreasoning.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mInternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model[0m
|
||
|
||
[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfree-form[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mcomposition[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomprehension[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mInternLM-2[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12mmodule,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2401.16420-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2401.16420)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/InternLM/InternLM-XComposer)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/Willow123/InternLM-XComposer)[39m[38;5;12m [39m
|
||
[38;5;12mXiaoyi[39m[38;5;12m [39m[38;5;12mDong,[39m[38;5;12m [39m[38;5;12mPan[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mZang,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mCao,[39m[38;5;12m [39m[38;5;12mBin[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLinke[39m[38;5;12m [39m[38;5;12mOuyang,[39m[38;5;12m [39m[38;5;12mXilin[39m[38;5;12m [39m[38;5;12mWei,[39m[38;5;12m [39m[38;5;12mSongyang[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mHaodong[39m[38;5;12m [39m[38;5;12mDuan,[39m[38;5;12m [39m[38;5;12mMaosong[39m[38;5;12m [39m[38;5;12mCao,[39m[38;5;12m [39m[38;5;12mWenwei[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mYining[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mHang[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mYang[39m[38;5;12m [39m[38;5;12mGao,[39m[38;5;12m [39m[38;5;12mXinyue[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mWei[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mJingwen[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mKai[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mConghui[39m[38;5;12m [39m[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mXingcheng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m
|
||
[38;5;12mYu[39m[38;5;12m [39m[38;5;12mQiao,[39m[38;5;12m [39m[38;5;12mDahua[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mJiaqi[39m[38;5;12m [39m[38;5;12mWang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mInternLM-XComposer2[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12minterconnected[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m[38;5;12mLow-Rank[39m[38;5;12m [39m[38;5;12mAdaptation[39m[38;5;12m [39m[38;5;12m(LoRA)[39m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12msetup[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m
|
||
[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtokenized[39m[38;5;12m [39m[38;5;12mtext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage-language[39m[38;5;12m [39m
|
||
[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mInternLM-2,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmulti-lingual[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mPartial[0m[38;5;14m[1m [0m[38;5;14m[1mLoRA[0m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mlow-rank[39m[38;5;12m [39m
|
||
[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mapplied[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmultifaceted,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m
|
||
[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12msemantic[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mcompose[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfree-form[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mcomposition,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12moptimize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mAlignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m[38;5;12mutilize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menriching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmodality-specific[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12minherent[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mselective[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexhibit[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdomains,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mlogical[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m
|
||
[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mShareGPT4V-PT,[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mNocaps,[39m[38;5;12m [39m[38;5;12mTextCaps,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmany[39m[38;5;12m [39m[38;5;12mothers,[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mequip[39m[38;5;12m [39m
|
||
[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12msemantic[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12menhancement,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfacilitation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfree-form[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mcomposition,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mInternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD[0m[38;2;255;187;0m[4m [0m
|
||
|
||
[38;5;12mInternLM-XComposer2-4KHD,[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mpioneers[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mLVLMs[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mautomatic[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mconfiguration,[39m[38;5;12m [39m[38;5;12madapting[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m336[39m[38;5;12m [39m[38;5;12mpixels[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m4K[39m[38;5;12m [39m[38;5;12mHD[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mdistortion.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2404.06512v1-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2404.06512v1) [39m
|
||
[38;5;12mXiaoyi[39m[38;5;12m [39m[38;5;12mDong,[39m[38;5;12m [39m[38;5;12mPan[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mZang,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mCao,[39m[38;5;12m [39m[38;5;12mBin[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLinke[39m[38;5;12m [39m[38;5;12mOuyang,[39m[38;5;12m [39m[38;5;12mSongyang[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mHaodong[39m[38;5;12m [39m[38;5;12mDuan,[39m[38;5;12m [39m[38;5;12mWenwei[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mYining[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mHang[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mYang[39m[38;5;12m [39m[38;5;12mGao,[39m[38;5;12m [39m[38;5;12mZhe[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mXinyue[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mWei[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mJingwen[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mWenhai[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mKai[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mConghui[39m[38;5;12m [39m[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mXingcheng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m
|
||
[38;5;12mJifeng[39m[38;5;12m [39m[38;5;12mDai,[39m[38;5;12m [39m[38;5;12mYu[39m[38;5;12m [39m[38;5;12mQiao,[39m[38;5;12m [39m[38;5;12mDahua[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mJiaqi[39m[38;5;12m [39m[38;5;12mWang[39m[38;5;12m [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;12m [39m
|
||
[38;5;14m[1mInternLM-XComposer2-4KHD[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mCutting-edge[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LVLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12multra-high[39m[38;5;12m [39m[38;5;12mresolutions,[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m4K[39m[38;5;12m [39m[38;5;12mHD[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbeyond,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msupporting[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m336[39m[38;5;12m [39m[38;5;12mpixels.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mInternLM-XComposer2[39m[38;5;12m [39m
|
||
[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;14m[1mdynamic[0m[38;5;14m[1m [0m[38;5;14m[1mresolution[0m[38;5;14m[1m [0m[38;5;14m[1mwith[0m[38;5;14m[1m [0m[38;5;14m[1mautomatic[0m[38;5;14m[1m [0m[38;5;14m[1mpatch[0m[38;5;14m[1m [0m[38;5;14m[1mconfiguration[0m[38;5;12m [39m[38;5;12mtechnique.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12madjust[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mlayouts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcounts[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage's[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratio,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mproportions.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mambiguity[39m[38;5;12m [39m[38;5;12marising[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvariable[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mconfigurations,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnewline[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdelineate[39m[38;5;12m [39m[38;5;12mrows[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m
|
||
[38;5;12mInternLM-XComposer2-4KHD[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mconcept[39m[38;5;12m [39m[38;5;12mknowledge,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstructural[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m
|
||
[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixed-resolution[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mdetail,[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mHD-OCR[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12madjusted[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m
|
||
[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mscenarios[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mInternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output[0m
|
||
|
||
[38;5;12mInternLM-XComposer-2.5[39m[38;5;12m [39m[38;5;12m(IXC-2.5)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LVLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mlong-contextual[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutput,[39m[38;5;12m [39m[38;5;12mexcelling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mcomprehension[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomposition[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mGPT-4V[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackend,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscalability.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2407.03320-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2407.03320)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/InternLM/InternLM-XComposer)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/Willow123/InternLM-XComposer)[39m[38;5;12m [39m
|
||
[38;5;12mPan[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mXiaoyi[39m[38;5;12m [39m[38;5;12mDong,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mZang,[39m[38;5;12m [39m[38;5;12mYuhang[39m[38;5;12m [39m[38;5;12mCao,[39m[38;5;12m [39m[38;5;12mRui[39m[38;5;12m [39m[38;5;12mQian,[39m[38;5;12m [39m[38;5;12mLin[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mQipeng[39m[38;5;12m [39m[38;5;12mGuo,[39m[38;5;12m [39m[38;5;12mHaodong[39m[38;5;12m [39m[38;5;12mDuan,[39m[38;5;12m [39m[38;5;12mBin[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLinke[39m[38;5;12m [39m[38;5;12mOuyang,[39m[38;5;12m [39m[38;5;12mSongyang[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mWenwei[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mYining[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYang[39m[38;5;12m [39m[38;5;12mGao,[39m[38;5;12m [39m[38;5;12mPeng[39m[38;5;12m [39m[38;5;12mSun,[39m[38;5;12m [39m[38;5;12mXinyue[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mWei[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mJingwen[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mWenhai[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mHang[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mConghui[39m[38;5;12m [39m
|
||
[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mXingcheng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mKai[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mJifeng[39m[38;5;12m [39m[38;5;12mDai,[39m[38;5;12m [39m[38;5;12mYu[39m[38;5;12m [39m[38;5;12mQiao,[39m[38;5;12m [39m[38;5;12mDahua[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mJiaqi[39m[38;5;12m [39m[38;5;12mWang[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mInternLM-XComposer-2.5[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12miterations[39m[38;5;12m [39m[38;5;12m(IXC-2[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mIXC-2-4KHD)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-component[39m[38;5;12m [39m[38;5;12marchitecture:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;14m[1mOpenAI[0m[38;5;14m[1m [0m[38;5;14m[1mViT-L/14[0m[38;5;14m[1m [0m[38;5;14m[1mvision[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mInternLM2-7B[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mPartial[0m[38;5;14m[1m [0m[38;5;14m[1mLoRA[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m
|
||
[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mIXC-2.5[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12msingle/multiple[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mUnified[39m[38;5;12m [39m[38;5;12mDynamic[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mPartition[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m
|
||
[38;5;12mresizing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpadding[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12msampled[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mside,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mcomposite[39m[38;5;12m [39m[38;5;12mimage.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m
|
||
[38;5;12msemantic[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12menhancement,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfrozen,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPartial[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mperformed[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mmulti-turn[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mscience[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mchart[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mmath[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mjointly[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweighted[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrate[39m[38;5;12m [39m[38;5;12mschedules[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mcomponent.[39m[38;5;12m [39m[38;5;12mIXC-2.5[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapplications:[39m[38;5;12m [39m[38;5;12mcrafting[39m[38;5;12m [39m[38;5;12mwebpages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomposing[39m[38;5;12m [39m
|
||
[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12marticles.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mwebpage[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mHTML,[39m[38;5;12m [39m[38;5;12mCSS,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mJavaScript[39m[38;5;12m [39m[38;5;12mcode[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mscreenshots,[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mresume[39m[38;5;12m [39m[38;5;12mdocuments.[39m[38;5;12m [39m
|
||
[38;5;12mFor[39m[38;5;12m [39m[38;5;12marticle[39m[38;5;12m [39m[38;5;12mcomposing,[39m[38;5;12m [39m[38;5;12mIXC-2.5[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mChain-of-Thought[39m[38;5;12m [39m[38;5;12m(CoT)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO)[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mwritten[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mrewriting[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mCoT,[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m
|
||
[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mrandom[39m[38;5;12m [39m[38;5;12mseeds,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mreward[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mselect[39m[38;5;12m [39m[38;5;12mpreferred[39m[38;5;12m [39m[38;5;12mresponses,[39m[38;5;12m [39m[38;5;12multimately[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcreative[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12marticle[39m[38;5;12m [39m[38;5;12mgeneration.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mInternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling[0m
|
||
|
||
[38;5;12mInternVL[39m[38;5;12m [39m[38;5;12m2.5[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mInternVL[39m[38;5;12m [39m[38;5;12m2.0,[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtesting[39m[38;5;12m [39m[38;5;12mstrategies,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mquality,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrival[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mcommercial[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m
|
||
[38;5;12mGPT-4o[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mClaude-3.5-Sonnet.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.05271-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.05271)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/OpenGVLab/InternVL)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/OpenGVLab/InternVL2_5-78B) [39m
|
||
[38;5;12mZhe[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mWeiyun[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mYue[39m[38;5;12m [39m[38;5;12mCao,[39m[38;5;12m [39m[38;5;12mYangzhou[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mZhangwei[39m[38;5;12m [39m[38;5;12mGao,[39m[38;5;12m [39m[38;5;12mErfei[39m[38;5;12m [39m[38;5;12mCui,[39m[38;5;12m [39m[38;5;12mJinguo[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mShenglong[39m[38;5;12m [39m[38;5;12mYe,[39m[38;5;12m [39m[38;5;12mHao[39m[38;5;12m [39m[38;5;12mTian,[39m[38;5;12m [39m[38;5;12mZhaoyang[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mLixin[39m[38;5;12m [39m[38;5;12mGu,[39m[38;5;12m [39m[38;5;12mXuehui[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mQingyun[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYimin[39m[38;5;12m [39m[38;5;12mRen,[39m[38;5;12m [39m[38;5;12mZixuan[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mJiapeng[39m[38;5;12m [39m[38;5;12mLuo,[39m[38;5;12m [39m[38;5;12mJiahao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mTan[39m[38;5;12m [39m[38;5;12mJiang,[39m[38;5;12m [39m[38;5;12mBo[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mConghui[39m[38;5;12m [39m[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mBotian[39m[38;5;12m [39m
|
||
[38;5;12mShi,[39m[38;5;12m [39m[38;5;12mXingcheng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mHan[39m[38;5;12m [39m[38;5;12mLv,[39m[38;5;12m [39m[38;5;12mYi[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mWenqi[39m[38;5;12m [39m[38;5;12mShao,[39m[38;5;12m [39m[38;5;12mPei[39m[38;5;12m [39m[38;5;12mChu,[39m[38;5;12m [39m[38;5;12mZhongying[39m[38;5;12m [39m[38;5;12mTu,[39m[38;5;12m [39m[38;5;12mTong[39m[38;5;12m [39m[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mZhiyong[39m[38;5;12m [39m[38;5;12mWu,[39m[38;5;12m [39m[38;5;12mHuipeng[39m[38;5;12m [39m[38;5;12mDeng,[39m[38;5;12m [39m[38;5;12mJiaye[39m[38;5;12m [39m[38;5;12mGe,[39m[38;5;12m [39m[38;5;12mKai[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mKaipeng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mLimin[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mMin[39m[38;5;12m [39m[38;5;12mDou,[39m[38;5;12m [39m[38;5;12mLewei[39m[38;5;12m [39m[38;5;12mLu,[39m[38;5;12m [39m[38;5;12mXizhou[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mTong[39m[38;5;12m [39m[38;5;12mLu,[39m[38;5;12m [39m[38;5;12mDahua[39m[38;5;12m [39m[38;5;12mLin,[39m[38;5;12m [39m[38;5;12mYu[39m[38;5;12m [39m[38;5;12mQiao,[39m[38;5;12m [39m[38;5;12mJifeng[39m[38;5;12m [39m[38;5;12mDai,[39m[38;5;12m [39m[38;5;12mWenhai[39m[38;5;12m [39m[38;5;12mWang[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mInternVL[0m[38;5;14m[1m [0m[38;5;14m[1m2.5[0m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m"ViT-MLP-LLM"[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessors,[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mInternViT[39m[38;5;12m [39m[38;5;12m(either[39m[38;5;12m [39m[38;5;12mInternViT-6B[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mInternViT-300M)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12m(InternLM[39m[38;5;12m [39m[38;5;12m2.5,[39m[38;5;12m [39m[38;5;12mQwen[39m[38;5;12m [39m[38;5;12m2.5)[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m2-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12munshuffle[39m[38;5;12m [39m[38;5;12moperation,[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12m1024[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m256[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12m448x448[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtile,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mresolution,[39m[38;5;12m [39m[38;5;12madapting[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mdividing[39m[38;5;12m [39m
|
||
[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12m448x448[39m[38;5;12m [39m[38;5;12mtiles.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[38;5;12mInternVL[39m[38;5;12m [39m[38;5;12m2.0[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m2.5[39m[38;5;12m [39m[38;5;12mincorporate[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12maddition[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msingle-image[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mpipeline:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mwarmup,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m
|
||
[38;5;12mprojector[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained,[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;12moptional[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mincremental[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mextraction,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdomains[39m[38;5;12m [39m[38;5;12mrare[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mweb-scale[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mprogressive[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12memployed,[39m[38;5;12m [39m[38;5;12mstarting[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscaling[39m[38;5;12m [39m[38;5;12mup,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mLLMs.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m
|
||
[38;5;12menhancements[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mrandom[39m[38;5;12m [39m[38;5;12mJPEG[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12m(for[39m[38;5;12m [39m[38;5;12mrobustness[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mquality)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mreweighting[39m[38;5;12m [39m[38;5;12m(to[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mcontributions[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mlengths).[39m[38;5;12m [39m[38;5;12mData[39m[38;5;12m [39m[38;5;12morganization[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[48;5;235m[38;5;249mnmax[49m[39m[38;5;12m [39m[38;5;12m(maximum[39m[38;5;12m [39m[38;5;12mtile[39m
|
||
[38;5;12mnumber)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrepeat[39m[38;5;12m [39m[38;5;12mfactor[39m[38;5;12m [39m[38;5;12m([39m[48;5;235m[38;5;249mr[49m[39m[38;5;12m)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcontrol[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mfrequency.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mdata-packing[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mconcatenates[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mGPU[39m[38;5;12m [39m[38;5;12mutilization.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mcontribution[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mremove[39m[38;5;12m [39m
|
||
[38;5;12mlow-quality[39m[38;5;12m [39m[38;5;12msamples,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mrepetitive[39m[38;5;12m [39m[38;5;12mpatterns,[39m[38;5;12m [39m[38;5;12mmitigating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrisk[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrepetitive[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12missue[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMLLMs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12m(captioning,[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mmathematics,[39m[38;5;12m [39m[38;5;12mcharts,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12metc.)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12m(single-image,[39m[38;5;12m [39m[38;5;12mmulti-image,[39m[38;5;12m [39m[38;5;12mvideo,[39m[38;5;12m [39m[38;5;12mtext).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m[38;5;12mevaluated[39m[38;5;12m [39m[38;5;12mcomprehensively[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mmulti-discipline[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12m(MMMU,[39m[38;5;12m [39m[38;5;12mMMMU-Pro),[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12m(DocVQA),[39m[38;5;12m [39m[38;5;12mmulti-image/video[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mreal-world[39m
|
||
[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mhallucination[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpure[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mDeepSeek-VL: Towards Real-World Vision-Language Understanding[0m[38;2;255;187;0m[4m [0m
|
||
|
||
[38;5;12mDeepSeek-VL,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12mSigLIP-L[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSAM-B,[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mextracted[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mDeepSeek[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackbone[39m[38;5;12m [39m
|
||
[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12madapter.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2401.16420-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2403.05525)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/deepseek-ai/DeepSeek-VL)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B)[39m[38;5;12m [39m
|
||
[38;5;12mHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1mDeepSeek-VL[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mEmploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mfusing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mSigLIP-L[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msemantic[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mSAM-B[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mdetail[39m[38;5;12m [39m[38;5;12mextraction.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m1024x1024[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m
|
||
[38;5;12mboth[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;14m[1mA[0m[38;5;14m[1m [0m[38;5;14m[1mtwo-layer[0m[38;5;14m[1m [0m[38;5;14m[1mhybrid[0m[38;5;14m[1m [0m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1madapter[0m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mDeepSeek[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackbone.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mscreenshots,[39m[38;5;12m [39m[38;5;12mPDFs,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mcharts,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mknowledge-based[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mCommon[39m[38;5;12m [39m[38;5;12mCrawl,[39m[38;5;12m [39m[38;5;12mWeb[39m[38;5;12m [39m[38;5;12mCode,[39m[38;5;12m [39m[38;5;12mE-books,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12marXiv[39m[38;5;12m [39m[38;5;12marticles.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mrefined[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mreal[39m[38;5;12m [39m[38;5;12muser[39m[38;5;12m [39m[38;5;12mscenarios[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcategorized[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m
|
||
[38;5;12mtaxonomy[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mconversion,[39m[38;5;12m [39m[38;5;12manalysis,[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mevaluation,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msafety[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mstrategies,[39m[38;5;12m [39m[38;5;12mDeepSeek-VL[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdeliver[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m
|
||
[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mDeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding[0m
|
||
|
||
[38;5;12mDeepSeek-VL2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mMixture-of-Experts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mDeepSeek-VL,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mtiling[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mDeepSeekMoE[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mMulti-head[39m[38;5;12m [39m[38;5;12mLatent[39m[38;5;12m [39m[38;5;12mAttention[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mshows[39m[38;5;12m [39m[38;5;12mtop[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2412.10302-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2412.10302)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/deepseek-ai/DeepSeek-VL2)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small) [39m
|
||
[38;5;12mZhiyu Wu, Xiaokang Chen, Zizheng Pan, Xingchao Liu, Wen Liu, Damai Dai, and et al.[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mDeepSeek-VL2[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mLLaVA-style[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mmodules:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12madaptor,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMixture-of-Experts[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmajor[39m[38;5;12m [39m[38;5;12menhancements:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mtiling[39m[38;5;12m [39m
|
||
[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mDeepSeekMOE[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mMulti-head[39m[38;5;12m [39m[38;5;12mLatent[39m[38;5;12m [39m[38;5;12mAttention.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mtiling[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfixed-resolution[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12msplitting[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtiles.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m
|
||
[38;5;12mSigLIP-SO400M-384[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcandidate[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mCR[39m[38;5;12m [39m[38;5;12m=[39m[38;5;12m [39m[38;5;12m{(m·[39m[38;5;12m [39m[38;5;12m384,[39m[38;5;12m [39m[38;5;12mη[39m[38;5;12m [39m[38;5;12m·[39m[38;5;12m [39m[38;5;12m384)[39m[38;5;12m [39m[38;5;12m|[39m[38;5;12m [39m[38;5;12mm∈[39m[38;5;12m [39m[38;5;12mN,[39m[38;5;12m [39m[38;5;12mn[39m[38;5;12m [39m[38;5;12m∈[39m[38;5;12m [39m[38;5;12mN,[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12m≤[39m[38;5;12m [39m[38;5;12mm,[39m[38;5;12m [39m[38;5;12mn,mn[39m[38;5;12m [39m[38;5;12m≤[39m[38;5;12m [39m[38;5;12m9}[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdefined,[39m[38;5;12m [39m[38;5;12mrepresenting[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mCR[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mminimizes[39m[38;5;12m [39m[38;5;12mpadding[39m[38;5;12m [39m
|
||
[38;5;12mis[39m[38;5;12m [39m[38;5;12mselected.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mresized[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mdivided[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mm₁[39m[38;5;12m [39m[38;5;12m×[39m[38;5;12m [39m[38;5;12mn₁[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mtiles[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m384[39m[38;5;12m [39m[38;5;12m×[39m[38;5;12m [39m[38;5;12m384[39m[38;5;12m [39m[38;5;12mpixels,[39m[38;5;12m [39m[38;5;12mplus[39m[38;5;12m [39m[38;5;12mone[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mthumbnail[39m[38;5;12m [39m[38;5;12mtile.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mSigLIP-SO400M-384[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12m(1[39m[38;5;12m [39m[38;5;12m+[39m[38;5;12m [39m[38;5;12mm¡[39m[38;5;12m [39m[38;5;12m×[39m[38;5;12m [39m[38;5;12mn₁)[39m[38;5;12m [39m[38;5;12mtiles,[39m[38;5;12m [39m[38;5;12myielding[39m[38;5;12m [39m[38;5;12m729[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12m(27x27)[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m1152[39m[38;5;12m [39m[38;5;12mdimensions[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m
|
||
[38;5;12mtile.[39m[38;5;12m [39m[38;5;12mDynamic[39m[38;5;12m [39m[38;5;12mtiling[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdisabled[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12m(>2)[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12m2x2[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mshuffle[39m[38;5;12m [39m[38;5;12mcompresses[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mtile's[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m14x14[39m[38;5;12m [39m[38;5;12m(196[39m[38;5;12m [39m[38;5;12mtokens).[39m[38;5;12m [39m[38;5;12mSpecial[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12madded:[39m[38;5;12m [39m[38;5;12m14[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mthumbnail[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mtiles.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtotal[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mlength[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12m210[39m[38;5;12m [39m[38;5;12m+[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12m+[39m[38;5;12m [39m[38;5;12mm₁[39m[38;5;12m [39m[38;5;12m·[39m[38;5;12m [39m[38;5;12m14[39m[38;5;12m [39m[38;5;12m×[39m[38;5;12m [39m[38;5;12m(nį[39m[38;5;12m [39m[38;5;12m·[39m[38;5;12m [39m[38;5;12m14[39m[38;5;12m [39m[38;5;12m+[39m[38;5;12m [39m[38;5;12m1).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLP.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mDeepSeekMoE,[39m[38;5;12m [39m[38;5;12mfeaturing[39m[38;5;12m [39m[38;5;12mMulti-head[39m[38;5;12m [39m[38;5;12mLatent[39m[38;5;12m [39m[38;5;12mAttention[39m[38;5;12m [39m[38;5;12m(MLA)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcompress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mKey-Value[39m[38;5;12m [39m[38;5;12m(KV)[39m[38;5;12m [39m[38;5;12mcache,[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mspeed[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthroughput.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mbias[39m[38;5;12m [39m[38;5;12mterm[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mload[39m[38;5;12m [39m[38;5;12mbalancing.[39m[38;5;12m [39m[38;5;12mDeepSeek-VL2[39m[38;5;12m [39m[38;5;12mcomes[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mvariants[39m[38;5;12m [39m[38;5;12m(Tiny,[39m[38;5;12m [39m[38;5;12mSmall,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mBase)[39m[38;5;12m [39m[38;5;12mwith[39m
|
||
[38;5;12m1.0B,[39m[38;5;12m [39m[38;5;12m2.8B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m4.5B[39m[38;5;12m [39m[38;5;12mactivated[39m[38;5;12m [39m[38;5;12mparameters,[39m[38;5;12m [39m[38;5;12mrespectively.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconstructed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m[38;5;12mVL[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;12mVL[39m[38;5;12m [39m[38;5;12mpretraining,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12m(SFT).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mShareGPT4V[39m[38;5;12m [39m[38;5;12m(1.2M[39m[38;5;12m [39m[38;5;12msamples).[39m[38;5;12m [39m[38;5;12mPretraining[39m
|
||
[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12mVL[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(70/30[39m[38;5;12m [39m[38;5;12mratio),[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(WIT,[39m[38;5;12m [39m[38;5;12mWikiHow,[39m[38;5;12m [39m[38;5;12mOBELICS,[39m[38;5;12m [39m[38;5;12mWanjuan,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12min-house[39m[38;5;12m [39m[38;5;12mdata),[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(various[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12menhancements[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfiltering),[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m
|
||
[38;5;12m(LaTeX[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12m12M[39m[38;5;12m [39m[38;5;12mRenderedText,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12min-house[39m[38;5;12m [39m[38;5;12mdata),[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mtable/chart/document[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(PubTabNet,[39m[38;5;12m [39m[38;5;12mFinTabNet,[39m[38;5;12m [39m[38;5;12mDocmatix),[39m[38;5;12m [39m[38;5;12mweb-to-code[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mplot-to-Python[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m(Websight,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPython[39m[38;5;12m [39m[38;5;12mplots),[39m[38;5;12m [39m[38;5;12mQA[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprompts,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mcleaned[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mtable[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mchart[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mreasoning/logic/math[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m
|
||
[38;5;12mtextbook/academic[39m[38;5;12m [39m[38;5;12mquestions,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexpanded[39m[38;5;12m [39m[38;5;12mweb-to-code[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mplot-to-Python[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mText[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mwere[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mstage.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mpipeline.[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m
|
||
[38;5;12mtrains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12madaptor[39m[38;5;12m [39m[38;5;12mMLP,[39m[38;5;12m [39m[38;5;12mkeeping[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfixed,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpaired[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mperforms[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12munlocked,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12m~800B[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mconducts[39m
|
||
[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12memphasized,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcomputed[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mwork,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfixed-resolution[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12madapted[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining.[39m
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mMANTIS: Mastering Multi-Image Understanding Through Interleaved Instruction Tuning[0m[38;2;255;187;0m[4m [0m
|
||
|
||
[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12msuperior[39m
|
||
[38;5;12mresults[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mless[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mopens[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mavenues[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdeveloping[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlimited[39m[38;5;12m [39m[38;5;12mresources.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2405.01483-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2405.01483)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/TIGER-AI-Lab/Mantis)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/TIGER-Lab/Mantis)[39m[38;5;12m [39m
|
||
[38;5;12mDongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1mMantis[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LMMs),[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mnoisy[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mpath[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mInstead,[39m[38;5;12m [39m
|
||
[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mhigh-quality,[39m[38;5;12m [39m[38;5;12macademic-level[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mremarkable[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mless[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcounterparts.[39m[38;5;12m [39m[38;5;12mCentral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mMANTIS's[39m[38;5;12m [39m[38;5;12msuccess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mMANTIS-INSTRUCT[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m721K[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minstill[39m[38;5;12m [39m[38;5;12mfour[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mskills:[39m[38;5;12m [39m[38;5;12mco-reference,[39m[38;5;12m [39m[38;5;12mcomparison,[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mskills[39m[38;5;12m [39m[38;5;12mequip[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtoolkit[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtackling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mCo-reference[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mreferences[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12m"second[39m[38;5;12m [39m[38;5;12mimage"[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcorrectly[39m[38;5;12m [39m[38;5;12midentify[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput.[39m[38;5;12m [39m
|
||
[38;5;12mComparison[39m[38;5;12m [39m[38;5;12mfosters[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12manalyze[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12midentify[39m[38;5;12m [39m[38;5;12msubtle[39m[38;5;12m [39m[38;5;12mdifferences[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcommonalities[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mskill[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msimilarity[39m[38;5;12m [39m[38;5;12massessment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdifference[39m[38;5;12m [39m[38;5;12mdescription.[39m[38;5;12m [39m[38;5;12mReasoning[39m[38;5;12m [39m[38;5;12mempowers[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgo[39m[38;5;12m [39m[38;5;12mbeyond[39m
|
||
[38;5;12msimple[39m[38;5;12m [39m[38;5;12mcomparisons[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmake[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12minferences[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mworld[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mextracted[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msolve[39m[38;5;12m [39m[38;5;12mintricate[39m[38;5;12m [39m[38;5;12mlogical[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mpuzzles[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12manswer[39m[38;5;12m [39m[38;5;12mchallenging[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mquestions.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m
|
||
[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mequips[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msequences,[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12maspects[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mcomics,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12myet[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mLLaMA-3[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mSigLIP.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mprojector,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mone[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mLLaVA,[39m[38;5;12m [39m[38;5;12maligns[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m
|
||
[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mavoids[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomplexity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12marchitectures[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mretaining[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mExtensive[39m[38;5;12m [39m[38;5;12mevaluations[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mfive[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mNLVR2,[39m[38;5;12m [39m[38;5;12mQBench,[39m[38;5;12m [39m[38;5;12mBLINK,[39m[38;5;12m [39m[38;5;12mMVBench,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m
|
||
[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mMantis-Eval[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mMANTIS's[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mexceeding[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mmatching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mGPT-4V.[39m[38;5;12m [39m[38;5;12mNotably,[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12msurpasses[39m[38;5;12m [39m[38;5;12mIdefics2-8B,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m200x[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m
|
||
[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12macademic-level[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mMANTIS[39m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12msingle-image[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mpar[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madaptability.[39m[38;5;12m [39m[38;5;12mMANTIS's[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mresults,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mnature,[39m[38;5;12m [39m[38;5;12moffer[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompelling[39m[38;5;12m [39m[38;5;12malternative[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mpre-training-heavy[39m[38;5;12m [39m[38;5;12mapproaches,[39m[38;5;12m [39m[38;5;12mopening[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mpossibilities[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mresearchers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mpractitioners[39m[38;5;12m [39m[38;5;12mseeking[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdevelop[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mresources.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mQwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond[0m
|
||
|
||
[38;5;12mQwen-VL[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12madapter,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmechanisms[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2308.12966-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2308.12966)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/qwenlm/qwen-vl)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/Qwen/Qwen-VL-Plus)[39m[38;5;12m [39m
|
||
[38;5;12mJinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mQwen-VL[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mdomain,[39m[38;5;12m [39m[38;5;12mconstructed[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m
|
||
[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mfeaturing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mvision-language[0m[38;5;14m[1m [0m[38;5;14m[1madapter[0m[38;5;14m[1m [0m[38;5;14m[1mequipped[0m[38;5;14m[1m [0m[38;5;14m[1mwith[0m[38;5;14m[1m [0m[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mmechanisms[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mmechanisms[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m
|
||
[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture's[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mposition-aware[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mrelevance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mmerged[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.The[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mQwen-VL[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;14m[1mthree[0m[38;5;14m[1m [0m[38;5;14m[1mdistinct[0m[38;5;14m[1m [0m[38;5;14m[1mphases[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mstarting[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;14m[1minitial[0m[38;5;14m[1m [0m[38;5;14m[1mpre-training[0m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mweakly[39m[38;5;12m [39m[38;5;12mlabeled[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;14m[1mmulti-task[0m[38;5;14m[1m [0m[38;5;14m[1mpre-training[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mannotated[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfollowing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdialogue.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mphase[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;14m[1msupervised[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mfine-tuning[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mhoning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mSpecial[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdifferentiating[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding,[39m
|
||
[38;5;12mrespectively.Qwen-VL's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minnovative,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12madapter[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfuse[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpreservation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m
|
||
[38;5;12mpost[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12mencodings.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12msuite[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLAION-en,[39m[38;5;12m [39m[38;5;12mLAION-zh,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mothers[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mVGQA,[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mVQAv2[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mpre-training.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12msupporting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mQwen2-VL: A Powerful Open-Source Vision-Language Model for Image and Video Understanding[0m
|
||
|
||
[38;5;12mQwen2-VL[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlatest[39m[38;5;12m [39m[38;5;12miteration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQwen[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfamily,[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQwen-VL[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12menhancements[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mdialogue,[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mcreation,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12magent-based[39m[38;5;12m [39m[38;5;12mcontrol[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdevices[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mphones[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrobots.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/QwenLM/Qwen2-VL) [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d) [39m
|
||
[38;5;12mBai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mQwen2-VL[39m[38;5;12m [39m[38;5;12mcontinues[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mQwen-VL,[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mapproximately[39m[38;5;12m [39m[38;5;12m600M[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQwen2[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mseamlessly.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m
|
||
[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mQwen2-VL[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mNaive[39m[38;5;12m [39m[38;5;12mDynamic[39m[38;5;12m [39m[38;5;12mResolution[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mRotary[39m[38;5;12m [39m[38;5;12mPosition[39m[38;5;12m [39m[38;5;12mEmbedding[39m[38;5;12m [39m[38;5;12m(M-ROPE).[39m[38;5;12m [39m[38;5;12mNaive[39m[38;5;12m [39m[38;5;12mDynamic[39m[38;5;12m [39m[38;5;12mResolution[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12marbitrary[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mmapping[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m
|
||
[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12maccurately[39m[38;5;12m [39m[38;5;12mreflects[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mregardless[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mresolution.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhuman[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12madapts[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresolutions.[39m[38;5;12m [39m[38;5;12mM-ROPE[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcapture[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mdeconstructs[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mrotary[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mparts,[39m[38;5;12m [39m[38;5;12mrepresenting[39m[38;5;12m [39m[38;5;12mtemporal,[39m[38;5;12m [39m[38;5;12mheight,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mwidth[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msimultaneously[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12m1D[39m[38;5;12m [39m[38;5;12mtextual,[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12m(image),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m3D[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mpositional[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12menhancements,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mQwen2-VL[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mMathVista,[39m[38;5;12m [39m[38;5;12mDocVQA,[39m[38;5;12m [39m[38;5;12mRealWorldQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMTVQA.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m20[39m[38;5;12m [39m[38;5;12mminutes[39m[38;5;12m [39m[38;5;12mlong,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m
|
||
[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mvideo-based[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mdialogue,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mcreation.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mQwen2-VL's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdecision-making[39m[38;5;12m [39m[38;5;12mallow[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdevices[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mphones[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrobots[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mautomatic[39m[38;5;12m [39m
|
||
[38;5;12moperation[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minstructions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mEuropean[39m[38;5;12m [39m[38;5;12mlanguages,[39m[38;5;12m [39m[38;5;12mJapanese,[39m[38;5;12m [39m[38;5;12mKorean,[39m[38;5;12m [39m[38;5;12mArabic,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVietnamese,[39m[38;5;12m [39m[38;5;12mbroadening[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mapplicability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mglobal[39m
|
||
[38;5;12muser[39m[38;5;12m [39m[38;5;12mbase.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mQwen2.5-VL: Enhanced Vision-Language Capabilities in the Qwen Series[0m
|
||
|
||
[38;5;12mQwen2.5-VL[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQwen[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mparsing,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m
|
||
[38;5;12mfunctioning[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12magent[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcomputer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mphone[39m[38;5;12m [39m[38;5;12muse.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/Blog-Qwen%20Team%20Blog-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://qwenlm.github.io/blog/qwen2.5-vl/)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/QwenLM/Qwen2.5-VL)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct) [39m
|
||
[38;5;12mQwen Team[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mQwen2.5-VL[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mQwen2-VL,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msubstantial[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mscales,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mwell[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimplified[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12mstructure[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mincreased[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;14m[1mWorld-wide[0m[38;5;14m[1m [0m[38;5;14m[1mImage[0m[38;5;14m[1m [0m[38;5;14m[1mRecognition:[0m[38;5;12m [39m[38;5;12mExpanded[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m
|
||
[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcategories,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mlandmarks,[39m[38;5;12m [39m[38;5;12mobjects,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mfilm/TV[39m[38;5;12m [39m[38;5;12mIPs.[39m[38;5;12m [39m[38;5;14m[1mPrecise[0m[38;5;14m[1m [0m[38;5;14m[1mObject[0m[38;5;14m[1m [0m[38;5;14m[1mGrounding:[0m[38;5;12m [39m[38;5;12mUses[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mboxes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpoint-based[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mlocalization,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mstandardized[39m[38;5;12m [39m[38;5;12mJSON[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mattributes,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mpositioning.[39m[38;5;12m [39m[38;5;14m[1mEnhanced[0m[38;5;14m[1m [0m[38;5;14m[1mText[0m[38;5;14m[1m [0m[38;5;14m[1mRecognition[0m[38;5;14m[1m [0m[38;5;14m[1m(OCR):[0m[38;5;12m [39m[38;5;12mImproved[39m[38;5;12m [39m[38;5;12mmulti-scenario,[39m[38;5;12m [39m[38;5;12mmulti-language,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-orientation[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlocalization,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;14m[1mPowerful[0m[38;5;14m[1m [0m[38;5;14m[1mDocument[0m[38;5;14m[1m [0m[38;5;14m[1mParsing:[0m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12m"QwenVL[39m[38;5;12m [39m[38;5;12mHTML"[39m[38;5;12m [39m[38;5;12mformat,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mHTML[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlayout[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mdocuments,[39m[38;5;12m [39m[38;5;12mmagazines,[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mpapers,[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mpages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mscreenshots.[39m[38;5;12m [39m[38;5;14m[1mEnhanced[0m[38;5;14m[1m [0m[38;5;14m[1mVideo[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mComprehension:[0m[38;5;12m [39m[38;5;12mSupports[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12multra-long[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12m(hourly[39m[38;5;12m [39m[38;5;12mscale)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mrate[39m[38;5;12m [39m[38;5;12m(FPS)[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mabsolute[39m[38;5;12m [39m[38;5;12mtime[39m[38;5;12m [39m[38;5;12mencoding.[39m[38;5;12m [39m[38;5;12mEnables[39m[38;5;12m [39m[38;5;12msecond-level[39m[38;5;12m [39m[38;5;12mevent[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mpoint[39m[38;5;12m [39m[38;5;12msummarization.[39m[38;5;12m [39m[38;5;14m[1mVisual[0m[38;5;14m[1m [0m[38;5;14m[1mAgent[0m[38;5;14m[1m [0m[38;5;14m[1mCapabilities:[0m[38;5;12m [39m[38;5;12mCan[39m[38;5;12m [39m
|
||
[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12magent[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomputer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mphone[39m[38;5;12m [39m[38;5;12muse,[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12mdirecting[39m[38;5;12m [39m[38;5;12mtools.[39m[38;5;12m [39m[38;5;12mCapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mbooking[39m[38;5;12m [39m[38;5;12mflights.[39m[38;5;12m [39m[38;5;14m[1mTime[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mImage[0m[38;5;14m[1m [0m[38;5;14m[1mSize[0m[38;5;14m[1m [0m[38;5;14m[1mPerception[0m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mdimension,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12madapting[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mboxes.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mdimension,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtime[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mdimension.[39m[38;5;12m [39m[38;5;14m[1mVisual[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnative[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m
|
||
[38;5;12mscratch.[39m[38;5;12m [39m[38;5;12mWindow[39m[38;5;12m [39m[38;5;12mAttention[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mminimize[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mload.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcomes[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12m(3B,[39m[38;5;12m [39m[38;5;12m7B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m72B[39m[38;5;12m [39m[38;5;12mparameters),[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruct-tuned[39m[38;5;12m [39m[38;5;12mversions[39m[38;5;12m [39m[38;5;12mavailable.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12m72B-Instruct[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mcompetitive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mexcelling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiagram[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mSmaller[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m7B-Instruct[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12mGPT-4o-mini[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m3B[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mexceeding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mQwen2-VL[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m18[39m[38;5;12m [39m[38;5;12mtrillion[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mFuture[39m[38;5;12m [39m[38;5;12mdevelopments[39m[38;5;12m [39m[38;5;12maim[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mproblem-solving,[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-modality[39m[38;5;12m [39m[38;5;12mintegration.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mmoondream1 and moondream2[0m
|
||
|
||
[38;5;12mmoondream1 and moondream2 are vision-language models with moondream2 building upon moondream1's SigLIP vision encoder and Phi-1.5 language backbone by incorporating an MLP projector for enhanced visual and textual representation alignment.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/vikhyat/moondream) [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m (https://huggingface.co/spaces/vikhyatk/moondream2) [39m
|
||
[38;5;12m@vikhyatk[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;14m[1mmoondream1[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mmoondream2[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mmoondream1[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m1.6B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;14m[1mSigLIP[0m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mPhi-1.5[0m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mmoondream2[39m[38;5;12m [39m[38;5;12mexpands[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m
|
||
[38;5;12mfoundation,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m1.86B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minitialized[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mweights[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPhi-1.5.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;14m[1man[0m[38;5;14m[1m [0m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1mprojector[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mrepresentations,[39m[38;5;12m [39m[38;5;12mpotentially[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMoondream-next: Compact Vision-Language Model with Enhanced Capabilities[0m
|
||
|
||
[38;5;12mMoondream[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12m(1.9B[39m[38;5;12m [39m[38;5;12mparameters)[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(VLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mprioritizes[39m[38;5;12m [39m[38;5;12mpractical[39m[38;5;12m [39m[38;5;12musability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maccessibility,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12m(JSON,[39m[38;5;12m [39m[38;5;12mXML,[39m[38;5;12m [39m[38;5;12mMarkdown,[39m[38;5;12m [39m[38;5;12mCSV),[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mexperimental[39m[38;5;12m [39m[38;5;12mGaze[39m[38;5;12m [39m
|
||
[38;5;12mDetection[39m[38;5;12m [39m[38;5;12mcapability,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mfast[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mease[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdeployment.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/Blog-Moondream%20Blog-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://moondream.ai/)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/vikhyat/moondream)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/vikhyatk/moondream-next)[39m
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mMoondream[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mexceptionally[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12m(1.9B[39m[38;5;12m [39m[38;5;12mparameters)[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12msupporting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfunctionalities[39m[38;5;12m [39m[38;5;12mtypically[39m[38;5;12m [39m[38;5;12mfound[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlarger,[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mexplicitly[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprovided[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m
|
||
[38;5;12mbut[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mmentions[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m"vision[39m[38;5;12m [39m[38;5;12mlayer"[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbetter[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msuggests[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstructure[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperform[39m[38;5;12m [39m
|
||
[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12m("capabilities")[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle,[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mincluding:[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquerying,[39m[38;5;12m [39m[38;5;12mpointing[39m[38;5;12m [39m[38;5;12m(x,y[39m[38;5;12m [39m[38;5;12mcoordinate[39m[38;5;12m [39m[38;5;12mretrieval),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12madded[39m[38;5;12m [39m[38;5;12mgaze[39m[38;5;12m [39m[38;5;12mdetection.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mstructured[39m
|
||
[38;5;12moutput[39m[38;5;12m [39m[38;5;12mformats,[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mJSON,[39m[38;5;12m [39m[38;5;12mXML,[39m[38;5;12m [39m[38;5;12mMarkdown,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mCSV,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mmuch[39m[38;5;12m [39m[38;5;12measier.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12m"Gaze[39m[38;5;12m [39m[38;5;12mDetection"[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mhighlighted[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexperimental[39m[38;5;12m [39m[38;5;12mfeature,[39m[38;5;12m [39m[38;5;12mindicating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mbeyond[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mthoroughly[39m[38;5;12m [39m[38;5;12mdescribed,[39m[38;5;12m [39m[38;5;12malthough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mnotes[39m[38;5;12m [39m[38;5;12mincreased[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m"document[39m[38;5;12m [39m[38;5;12mquerying[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding"[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12menhancement.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcreators[39m[38;5;12m [39m[38;5;12mexpress[39m
|
||
[38;5;12ma[39m[38;5;12m [39m[38;5;12mcautious[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12macknowledging[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmanipulation,[39m[38;5;12m [39m[38;5;12myet[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mhighlight[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mscores[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mrelease,[39m[38;5;12m [39m[38;5;12msuggesting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mpractical[39m[38;5;12m [39m[38;5;12mutility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmeasurable[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mdoes[39m[38;5;12m [39m
|
||
[38;5;12mnot[39m[38;5;12m [39m[38;5;12mrely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mexternal[39m[38;5;12m [39m[38;5;12mapis.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models[0m
|
||
|
||
[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12mrefines[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mstreamlining[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;12mCLIP-ConvNeXt[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDINOv2,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimplementing[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12msingle-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m
|
||
[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2402.05935-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2402.05935)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/alpha-vllm/llama2-accessory)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mModel[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/Alpha-VLLM/SPHINX)[39m[38;5;12m [39m
|
||
[38;5;12mPeng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mSPHINX-X[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12miteration[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMulti-modal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(MLLM),[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mSPHINX,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mmodifications[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m
|
||
[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12melimination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mredundant[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mincorporation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mlearnable[0m[38;5;14m[1m [0m[38;5;14m[1mskip[0m[38;5;14m[1m [0m[38;5;14m[1mtokens[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbypass[39m[38;5;12m [39m[38;5;14m[1mfully-padded[0m[38;5;14m[1m [0m[38;5;14m[1msub-images[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msimplification[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingular,[39m[38;5;12m [39m[38;5;14m[1mall-in-one[0m[38;5;14m[1m [0m[38;5;14m[1mtraining[0m[38;5;12m [39m[38;5;12mparadigm.[39m
|
||
[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;14m[1mCLIP-ConvNeXt[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mDINOv2[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m
|
||
[38;5;12malignment[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mespecially[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mscalable[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodologies.[39m[38;5;12m [39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcomprehensive,[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mengaging[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide-ranging[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mencompasses[39m[38;5;12m [39m[38;5;12mpublic[39m[38;5;12m [39m[38;5;12mresources[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12mlanguage,[39m[38;5;12m [39m[38;5;12mvision,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12menriches[39m[38;5;12m [39m
|
||
[38;5;12mthis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mspecially[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mOCR-intensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSet-of-Mark[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mextend[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneralization[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12maim[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeep,[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m
|
||
[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mdomains,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mlayout[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LLMs)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m
|
||
[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMLLMs[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mshowcase[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mcorrelation[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mscales[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12minvolved.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mSPHINX-X[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m
|
||
[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mcomplex,[39m[38;5;12m [39m[38;5;12mmulti-domain[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mBLIP: Bootstrapping Language-Image Pre-training[0m
|
||
|
||
[38;5;12mBLIP[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mEncoder-Decoder[39m[38;5;12m [39m[38;5;12m(MED)[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mBERT-based[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12macross[39m
|
||
[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2201.12086-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2201.12086) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/salesforce/BLIP) [39m
|
||
[38;5;12mJunnan Li, Dongxu Li, Caiming Xiong, Steven Hoi [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mBLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mEncoder-Decoder[39m[38;5;12m [39m[38;5;12m(MED)[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12mversatile,[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mserving[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage-grounded[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage-grounded[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdecoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mflexibility[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mBLIP[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madeptly[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12madaptability[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMED[39m[38;5;12m [39m
|
||
[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mencode[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mBERT-based[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12minteraction,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mcausal[0m[38;5;14m[1m [0m[38;5;14m[1mself-attention[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mgenerating[39m
|
||
[38;5;12mtext[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mBLIP[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfunctionalities:[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12meither[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mown,[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdecoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mthus[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgeneration.BLIP's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mjoint[39m[38;5;12m [39m[38;5;12moptimization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mobjectives:[39m[38;5;12m [39m[38;5;12mImage-Text[39m[38;5;12m [39m[38;5;12mContrastive[39m[38;5;12m [39m[38;5;12mLearning[39m[38;5;12m [39m[38;5;12m(ITC),[39m[38;5;12m [39m[38;5;12mImage-Text[39m[38;5;12m [39m[38;5;12mMatching[39m[38;5;12m [39m[38;5;12m(ITM),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mImage-Conditioned[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModeling[39m[38;5;12m [39m
|
||
[38;5;12m(LM).[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mobjectives[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mrespectively.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhuman-annotated[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mweb-collected[39m[38;5;12m [39m[38;5;12mnoisy[39m[38;5;12m [39m
|
||
[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mbalancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprecision[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmanually[39m[38;5;12m [39m[38;5;12mannotated[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mscale[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcollected[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mweb.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mrobustness[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mBLIP's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.For[39m
|
||
[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12mBLIP[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mITC[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mITM[39m[38;5;12m [39m[38;5;12mlosses[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12maccurately[39m[38;5;12m [39m[38;5;12mcaptures[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mrelationship[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12marchitecture's[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage-grounded[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoding.[39m[38;5;12m [39m[38;5;12mSimultaneously,[39m[38;5;12m [39m[38;5;12mmodifications[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mself-attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m
|
||
[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mmerging[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mBLIP's[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12m12M,[39m[38;5;12m [39m[38;5;12mSBU[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLAION.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mhuman-annotated[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnecessary[39m[38;5;12m [39m[38;5;12mdepth[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbreadth[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mpre-training.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mBLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[0m
|
||
|
||
[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpower[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12mQuerying[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(Q-Former)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2301.12597-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2301.12597)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/salesforce/LAVIS/tree/main/projects/blip2)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/Salesforce/BLIP2)[39m[38;5;12m [39m
|
||
[38;5;12mWenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mBLIP-2[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(LLMs),[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;14m[1mQuerying[0m[38;5;14m[1m [0m[38;5;14m[1mTransformer[0m[38;5;14m[1m [0m[38;5;14m[1m(Q-Former)[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12mplays[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mextracting[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mqueries,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.The[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mSubsequently,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12madvances[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvision-to-language[39m[38;5;12m [39m[38;5;12mgenerative[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m
|
||
[38;5;12mLLMs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mcoupled[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mlearnable[0m[38;5;14m[1m [0m[38;5;14m[1mquery[0m[38;5;14m[1m [0m[38;5;14m[1mvectors[0m[38;5;14m[1m [0m[38;5;14m[1mwithin[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mQ-Former[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mlanguage-informative[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mrepresentations,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12msynthesized[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mpertinent[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdescriptions.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mCC12M,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLAION400M[39m[38;5;12m [39m[38;5;12munderpins[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m
|
||
[38;5;12mregime[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mBLIP-2.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mprovide[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12messential[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprohibitive[39m[38;5;12m [39m[38;5;12mcosts[39m[38;5;12m [39m[38;5;12massociated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvision-and-language[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mpathway[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdeveloping[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mxGen-MM (BLIP-3): An Open-Source Framework for Building Powerful and Responsible Large Multimodal Models[0m
|
||
|
||
[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12m(BLIP-3)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mdeveloped[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mSalesforce[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(LMMs)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mprovides[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipe,[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitectures,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msuite[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mscalability,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimplified[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mobjective[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m
|
||
[38;5;12mlarger,[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msafety-tuned[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmitigate[39m[38;5;12m [39m[38;5;12mharmful[39m[38;5;12m [39m[38;5;12mbehaviors[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpromote[39m[38;5;12m [39m[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mdevelopment.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.08872-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2408.08872)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m
|
||
[38;5;12m(https://huggingface.co/collections/Salesforce/xgen-mm-1-models-and-datasets-662971d6cecbf3a7f80ecc2e)[39m[38;5;12m [39m
|
||
[38;5;12mLe[39m[38;5;12m [39m[38;5;12mXue,[39m[38;5;12m [39m[38;5;12mManli[39m[38;5;12m [39m[38;5;12mShu,[39m[38;5;12m [39m[38;5;12mAnas[39m[38;5;12m [39m[38;5;12mAwadalla,[39m[38;5;12m [39m[38;5;12mJun[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mAn[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mSenthil[39m[38;5;12m [39m[38;5;12mPurushwalkam,[39m[38;5;12m [39m[38;5;12mHonglu[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mViraj[39m[38;5;12m [39m[38;5;12mPrabhu,[39m[38;5;12m [39m[38;5;12mYutong[39m[38;5;12m [39m[38;5;12mDai,[39m[38;5;12m [39m[38;5;12mMichael[39m[38;5;12m [39m[38;5;12mS[39m[38;5;12m [39m[38;5;12mRyoo,[39m[38;5;12m [39m[38;5;12mShrikant[39m[38;5;12m [39m[38;5;12mKendre,[39m[38;5;12m [39m[38;5;12mJieyu[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mCan[39m[38;5;12m [39m[38;5;12mQin,[39m[38;5;12m [39m[38;5;12mShu[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mChia-Chih[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mNing[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mJuntao[39m[38;5;12m [39m[38;5;12mTan,[39m[38;5;12m [39m[38;5;12mTulika[39m[38;5;12m [39m[38;5;12mManoj[39m[38;5;12m [39m[38;5;12mAwalgaonkar,[39m[38;5;12m [39m
|
||
[38;5;12mShelby[39m[38;5;12m [39m[38;5;12mHeinecke,[39m[38;5;12m [39m[38;5;12mHuan[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mYejin[39m[38;5;12m [39m[38;5;12mChoi,[39m[38;5;12m [39m[38;5;12mLudwig[39m[38;5;12m [39m[38;5;12mSchmidt,[39m[38;5;12m [39m[38;5;12mZeyuan[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mSilvio[39m[38;5;12m [39m[38;5;12mSavarese,[39m[38;5;12m [39m[38;5;12mJuan[39m[38;5;12m [39m[38;5;12mCarlos[39m[38;5;12m [39m[38;5;12mNiebles,[39m[38;5;12m [39m[38;5;12mCaiming[39m[38;5;12m [39m[38;5;12mXiong,[39m[38;5;12m [39m[38;5;12mRan[39m[38;5;12m [39m[38;5;12mXu[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12m(BLIP-3),[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mxGen-MultiModal,[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mefforts[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomplete[39m[38;5;12m [39m[38;5;12mecosystem[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mLMM[39m[38;5;12m [39m[38;5;12mdevelopment.[39m[38;5;12m [39m[38;5;12mCentral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdiverse,[39m[38;5;12m [39m[38;5;12mlarge-scale,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mcompetitive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12magainst[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mLMMs.[39m[38;5;12m [39m[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintricate[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mobjectives[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mBLIP-2,[39m[38;5;12m [39m
|
||
[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12mstreamlines[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mscalable[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12msampler[39m[38;5;12m [39m[38;5;12m(perceiver[39m[38;5;12m [39m[38;5;12mresampler)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munifying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mobjective[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mauto-regressive[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msimplification[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mlarger-scale[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12msafety[39m[38;5;12m [39m[38;5;12mmeasures,[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msafety-tuned[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mDPO[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmitigate[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mharmful[39m[38;5;12m [39m[38;5;12mbehaviors[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mhallucinations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpromote[39m[38;5;12m [39m
|
||
[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mdevelopment.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mopen-sourcing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mcode,[39m[38;5;12m [39m[38;5;12mxGen-MM[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mempower[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mcommunity[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12madvancements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLMMs,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12maccessible[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mencouraging[39m[38;5;12m [39m
|
||
[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mexploration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mInstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning[0m
|
||
|
||
[38;5;12mInstructBLIP[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mQuery[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(Q-Former),[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12minstruction-aware[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m
|
||
[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2305.06500v2-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2305.06500v2)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/salesforce/LAVIS/tree/main/projects/instructblip)[39m[38;5;12m [39m[38;5;14m[1m![0m
|
||
[38;5;12mGradio[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/hysts/InstructBLIP)[39m[38;5;12m [39m
|
||
[38;5;12mWenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mInstructBLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mQuery[0m[38;5;14m[1m [0m[38;5;14m[1mTransformer[0m[38;5;14m[1m [0m[38;5;14m[1m(Q-Former)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mkeeping[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mstatic.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minstruction-aware[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12menhancing[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mresponsiveness[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12minstructional[39m[38;5;12m [39m[38;5;12mcontexts.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mInstructBLIP[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcareful[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m26[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12m11[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mcategories,[39m[38;5;12m [39m[38;5;12mtransformed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mformat[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12madaptability[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mloss,[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12minvolving[39m[38;5;12m [39m[38;5;12mscene[39m[38;5;12m [39m[38;5;12mtexts,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfine-tune[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfollowing[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12munique[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minstruction-aware[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtailor[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mrequirements[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minstruction,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mseen[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munseen[39m[38;5;12m [39m
|
||
[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mImplementation[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12mreveal[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mflexibility[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mInstructBLIP's[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12measily[39m[38;5;12m [39m[38;5;12madaptable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mincorporate[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mLLMs,[39m[38;5;12m [39m[38;5;12mthanks[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodular[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mshowcases[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mBLIP-2[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mevaluations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mnotable[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mInstructBLIP's[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m
|
||
[38;5;12mavailability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mhighlight[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgeneral-purpose[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mKOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models[0m
|
||
|
||
[38;5;12mKOSMOS-1,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mMAGNETO[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mXPOS[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m
|
||
[38;5;12mweb-scale[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcorpora[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2302.14045-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2302.14045) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/microsoft/unilm) [39m
|
||
[38;5;12mShaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mKOSMOS-1[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mtransformative[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mharmonize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mauto-regressive[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mgeneration.[39m
|
||
[38;5;12mAt[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore,[39m[38;5;12m [39m[38;5;12mKOSMOS-1[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12mcausal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbolstered[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mhandling,[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvector[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mMAGNETO[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mXPOS[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12menhancements.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12melements[39m[38;5;12m [39m[38;5;12mcollectively[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madeptly[39m[38;5;12m [39m
|
||
[38;5;12mnavigate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mKOSMOS-1[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mweb-scale[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcorpora,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mencompasses[39m[38;5;12m [39m[38;5;12mmonomodal[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12mpaired[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mmultimodal[39m
|
||
[38;5;12mdata,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnext-token[39m[38;5;12m [39m[38;5;12mprediction[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12moptimize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlog-likelihood[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m
|
||
[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy;[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mKOSMOS-1[39m[38;5;12m [39m[38;5;12maligns[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperceptual[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12munprecedented[39m[38;5;12m [39m[38;5;12mmanner,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m
|
||
[38;5;12menriching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpretative[39m[38;5;12m [39m[38;5;12mcapacities.[39m[38;5;12m [39m[38;5;12mKOSMOS-1's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mPile,[39m[38;5;12m [39m[38;5;12mCommon[39m[38;5;12m [39m[38;5;12mCrawl,[39m[38;5;12m [39m[38;5;12mEnglish[39m[38;5;12m [39m[38;5;12mLAION-2B,[39m[38;5;12m [39m[38;5;12mLAION-400M,[39m[38;5;12m [39m[38;5;12mCOYO-700M,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mdual[39m[38;5;12m [39m[38;5;12mpurposes:[39m
|
||
[38;5;12mfostering[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcorpora,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mbolsters[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m
|
||
[38;5;12mcompetencies[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mabilities,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mmilestone[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mKOSMOS-2: Grounding Multimodal Large Language Models to the World[0m
|
||
|
||
[38;5;12mKOSMOS-2,[39m[38;5;12m [39m[38;5;12mextending[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mKOSMOS-1[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mlocation[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mlinked[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mspans,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12manchoring[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mregions,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mreference[39m[38;5;12m [39m[38;5;12maccuracy.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2306.14824-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2306.14824)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/microsoft/unilm/tree/master/kosmos-2)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/ydshieh/Kosmos-2)[39m[38;5;12m [39m
|
||
[38;5;12mZhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mKOSMOS-2[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mBuilt[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mKOSMOS-1,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12mcausal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mobjectives,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m
|
||
[38;5;12minto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12maddition[39m[38;5;12m [39m[38;5;12mseeks[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcohesive[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdifferentiates[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweb-scale[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m
|
||
[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mknown[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mGRIT,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mboxes[39m[38;5;12m [39m[38;5;12mtranslated[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mlocation[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mintricately[39m[38;5;12m [39m[38;5;12mlinked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mspans,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m
|
||
[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12melements.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mKOSMOS-2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultifaceted,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mmonomodal[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcorpora,[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m
|
||
[38;5;12menvironment.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAdamW[39m[38;5;12m [39m[38;5;12moptimizer,[39m[38;5;12m [39m[38;5;12mrunning[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12m256[39m[38;5;12m [39m[38;5;12mV100[39m[38;5;12m [39m[38;5;12mGPUs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage-only[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mtechnique[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mKOSMOS-2,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;14m[1mcontinuous[0m[38;5;14m[1m [0m[38;5;14m[1mcoordinates[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mbounding[0m[38;5;14m[1m [0m[38;5;14m[1mboxes[0m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mconverted[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;14m[1mdiscrete[0m[38;5;14m[1m [0m[38;5;14m[1mlocation[0m[38;5;14m[1m [0m[38;5;14m[1mtokens[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m
|
||
[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mlinked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mspans,[39m[38;5;12m [39m[38;5;12manchoring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdescribe[39m[38;5;12m [39m[38;5;12mparticular[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mprecision.[39m[38;5;12m [39m[38;5;12mKOSMOS-2's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m
|
||
[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrefer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mparts[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdirectly,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlocation[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m
|
||
[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mreferential[39m[38;5;12m [39m[38;5;12maccuracy[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcomprehension.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecially[39m[38;5;12m [39m[38;5;12mcreated[39m[38;5;12m [39m[38;5;12mGRIT[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m
|
||
[38;5;12mmonomodal[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcorpora,[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbolster[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12min-context[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mabilities.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12minnovations,[39m[38;5;12m [39m[38;5;12mKOSMOS-2[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m
|
||
[38;5;12min[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlinking[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mcohesively.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models[0m
|
||
|
||
[38;5;12mConvLLaVA[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformers[39m[38;5;12m [39m[38;5;12m(ViTs)[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LMMs)[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mreplacing[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12mConvNeXt,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mshift[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mburden[39m[38;5;12m [39m[38;5;12mcaused[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mexcessive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mquadratic[39m[38;5;12m [39m[38;5;12mcomplexity[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12massociated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mViTs,[39m[38;5;12m [39m[38;5;12mespecially[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mdealing[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2405.15738-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2405.15738)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/alibaba/conv-llava)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/papers/2405.15738)[39m[38;5;12m [39m
|
||
[38;5;12mChunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mConvLLaVA[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minherent[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mConvNeXt,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mconvolutional[39m[38;5;12m [39m[38;5;12mneural[39m[38;5;12m [39m[38;5;12mnetwork.[39m[38;5;12m [39m[38;5;12mConvLLaVA,[39m[38;5;12m [39m[38;5;12munlike[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mrely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mViTs,[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mfive-stage[0m[38;5;14m[1m [0m[38;5;14m[1mConvNeXt[0m[38;5;14m[1m [0m[38;5;14m[1marchitecture[0m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mencoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mprogressively[39m[38;5;12m [39m[38;5;12mcompresses[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mViT.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mmirrors[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mpopular[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mLLaVA,[39m[38;5;12m [39m[38;5;12mQwen-VL,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVILA,[39m[38;5;12m [39m
|
||
[38;5;12mconsisting[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(ConvNeXt),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM[39m[38;5;12m [39m[38;5;12m-[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mcase),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mprojector[39m[38;5;12m [39m[38;5;12m(a[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLP).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mConvNeXt[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mlatent[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m
|
||
[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mtokenizer,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mloss.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mConvLLaVA's[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12moptimizations:[39m[38;5;12m [39m[38;5;12mfirstly,[39m[38;5;12m [39m[38;5;12mthey[39m[38;5;12m [39m[38;5;12mupdate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mConvNeXt[39m[38;5;12m [39m[38;5;12mweights[39m[38;5;12m [39m[38;5;12minstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfreezing[39m[38;5;12m [39m[38;5;12mthem,[39m[38;5;12m [39m
|
||
[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madapt[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mSecondly,[39m[38;5;12m [39m[38;5;12mthey[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mConvNeXt[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfive-stage[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12m(ConvNeXt†)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mcompresses[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m1536x1536)[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmanageable[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12m(576).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mcomplexity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mConvNeXt,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mburden[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mViT-based[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mConvLLaVA[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscalable[39m[38;5;12m [39m[38;5;12msolution[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mParrot: Multilingual Visual Instruction Tuning[0m
|
||
|
||
[38;5;12mParrot[39m[38;5;12m [39m[38;5;12mtackles[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12missue[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m"multilingual[39m[38;5;12m [39m[38;5;12merosion"[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(MLLMs),[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mprimarily[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mEnglish-centric[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mstruggle[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrespond[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mlanguages.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m
|
||
[38;5;12mguidance[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlanguage-specific[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2406.02539-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2406.02539) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/AIDC-AI/Parrot) [39m
|
||
[38;5;12mHai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mParrot[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mframework,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mViT-L/14[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQwen1.5-Chat[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mmain[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;14m[1mMixture-of-Experts[0m[38;5;14m[1m [0m[38;5;14m[1m(MoE)[0m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m
|
||
[38;5;12mchallenge,[39m[38;5;12m [39m[38;5;12mParrot[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mguidance[39m[38;5;12m [39m[38;5;12mmechanism.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mcalculates[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mclass[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mprompt.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m
|
||
[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mmodule's[39m[38;5;12m [39m[38;5;12mrouter,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mpredicts[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprobability[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mactivating[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mexpert.[39m[38;5;12m [39m[38;5;12mEach[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtransform[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mEnglish-biased[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mlanguage-specific[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mrouter[39m[38;5;12m [39m[38;5;12mselects[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mlanguage,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mlanguage-specific[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweighted[39m[38;5;12m [39m[38;5;12msum,[39m[38;5;12m [39m[38;5;12mensuring[39m
|
||
[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mlanguages.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mentire[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mParrot[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mlevel,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mmitigating[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m
|
||
[38;5;12merosion[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrespond[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mlanguages.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mOMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding[0m
|
||
|
||
[38;5;12mOMG-LLaVA[39m[38;5;12m [39m[38;5;12mpresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12munifies[39m[38;5;12m [39m[38;5;12mimage-level,[39m[38;5;12m [39m[38;5;12mobject-level,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(MLLM).[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpower[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12muniversal[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12m(OMG-Seg)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresponse[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle,[39m[38;5;12m [39m[38;5;12melegant[39m[38;5;12m [39m[38;5;12marchitecture.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2406.19389-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2406.19389)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/lxtGH/OMG-Seg)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/papers/2406.19389)[39m[38;5;12m [39m
|
||
[38;5;12mTao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mOMG-LLaVA[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmain[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12muniversal[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12m(based[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mOMG-Seg)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muniversal[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens:[39m[38;5;12m [39m[38;5;12mpixel-centric,[39m[38;5;12m [39m[38;5;12mobject-centric,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mobject-centric[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprompts.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpixel-centric[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mConvNeXt-L[0m[38;5;14m[1m [0m[38;5;14m[1mbased[0m[38;5;14m[1m [0m[38;5;14m[1mCLIP[0m[38;5;14m[1m [0m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mobject-centric[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mOMG[39m[38;5;12m [39m[38;5;12mdecoder,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mtakes[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mattends[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mobject-level[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mpoint,[39m[38;5;12m [39m[38;5;12mbox,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmask[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mapplying[39m[38;5;12m [39m
|
||
[38;5;12mconstraints[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmasks.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12m"perception[39m[38;5;12m [39m[38;5;12mprior[39m[38;5;12m [39m[38;5;12membedding"[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintroduced.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mfuses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mOMG[39m[38;5;12m [39m
|
||
[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmask[39m[38;5;12m [39m[38;5;12mscore[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconfidence[39m[38;5;12m [39m[38;5;12mscores.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12mweighted[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12madded[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpixel-centric[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mobject-level[39m
|
||
[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mobject-centric[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mtaken[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mforeground[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mOMG[39m[38;5;12m [39m[38;5;12mdecoder.[39m[38;5;12m [39m[38;5;12mBoth[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muser's[39m[38;5;12m [39m[38;5;12mintent[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mappropriate[39m[38;5;12m [39m[38;5;12mresponse.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mobject-centric[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mdecoded[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mOMG[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mproduce[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m
|
||
[38;5;12mallows[39m[38;5;12m [39m[38;5;12mOMG-LLaVA[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperform[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mmodel.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mEVLM: An Efficient Vision-Language Model for Visual Understanding[0m
|
||
|
||
[38;5;12mEVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mminimize[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcosts[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaximizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperceive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msignals[39m[38;5;12m [39m[38;5;12mcomprehensively.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mlong[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msignals,[39m[38;5;12m [39m
|
||
[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mcompetitive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mcaptioning.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2407.14177-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2407.14177) [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/papers/2407.14177) [39m
|
||
[38;5;12mKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mEVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mGated[39m[38;5;12m [39m[38;5;12mCross-Attention[39m[38;5;12m [39m[38;5;12mLayer.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception,[39m[38;5;12m [39m[38;5;12mEVLM[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m4.4B[39m[38;5;12m [39m[38;5;12mEVA2-CLIP-E-Plus[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mextracting[39m
|
||
[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12muniformly[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12m8[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlast[39m[38;5;12m [39m[38;5;12m40[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtransformer.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12msequentially[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mGated[39m[38;5;12m [39m[38;5;12mCross-Attention[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mFlamingo,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m
|
||
[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mmedia[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mEVLM[39m[38;5;12m [39m[38;5;12mreplaces[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m16[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcapture[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mQ-former.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mallow[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minteract[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12minteract[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mEVLM[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQwen-14B-Chat[39m
|
||
[38;5;12m1.0,[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlogical[39m[38;5;12m [39m[38;5;12mreasoning.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12mbefore[39m[38;5;12m [39m[38;5;12mevery[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcondition[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscale[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mparameters,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mExperts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mapplied[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCross[39m[38;5;12m [39m[38;5;12mAttention[39m[38;5;12m [39m[38;5;12mlayer.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mreplicating[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msegmenting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mFFN[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrouting[39m[38;5;12m [39m
|
||
[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mselecting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mappropriate[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mtoken.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess:[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mcontinual[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mPre-training[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mintrinsic[39m[38;5;12m [39m[38;5;12mrelationships[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbilingual[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mweb-type[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mContinual[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mability,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mactivates[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models[0m
|
||
|
||
[38;5;12mSlowFast-LLaVA[39m[38;5;12m [39m[38;5;12m(SF-LLaVA)[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtraining-free[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mcaptures[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12msemantics[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlong-range[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12many[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m
|
||
[38;5;12mthis[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stream[39m[38;5;12m [39m[38;5;12mSlowFast[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutperform[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mtraining-free[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2407.15841-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2407.15841) [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/papers/2407.15841) [39m
|
||
[38;5;12mMingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mSF-LLaVA[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stream[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mSlowFast[39m[38;5;12m [39m[38;5;12mnetworks[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12maction[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12muniformly[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12mN[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mvideo.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m
|
||
[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mindependently[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mCLIP-L,[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12madapter[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mpathways:[39m[38;5;12m [39m[38;5;12mSlow[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFast.[39m[38;5;12m [39m[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mSlow[0m[38;5;14m[1m [0m[38;5;14m[1mpathway[0m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m
|
||
[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12msemantics[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12m(Nslow)[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12m8[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m24x24[39m[38;5;12m [39m[38;5;12mtokens).[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mapplies[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12mstride[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12m1x2)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maggregate[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mFast[0m[38;5;14m[1m [0m[38;5;14m[1mpathway[0m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmotion[39m[38;5;12m [39m[38;5;12mcues[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mN[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12m(Nfast[39m[38;5;12m [39m[38;5;12m=[39m[38;5;12m [39m[38;5;12mN)[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlower[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12m(e.g.,[39m[38;5;12m [39m[38;5;12m64[39m[38;5;12m [39m[38;5;12mframes[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12m4x4[39m[38;5;12m [39m[38;5;12mtokens).[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mapplies[39m[38;5;12m [39m[38;5;12maggressive[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mpooling[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mprioritize[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mpathways[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mflattened[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconcatenated,[39m[38;5;12m [39m[38;5;12mforming[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbalances[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12maggregated[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mvector,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mquestion,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(LLaVA-NeXT)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12manswer.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mtraining-free[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12meliminates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mexpensive[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mSF-LLaVA[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madaptable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m
|
||
[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mscenarios.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSF-LLaVA[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12m(Open-Ended[39m[38;5;12m [39m[38;5;12mVideoQA,[39m[38;5;12m [39m[38;5;12mMultiple[39m[38;5;12m [39m[38;5;12mChoice[39m[38;5;12m [39m[38;5;12mVideoQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mText[39m[38;5;12m [39m[38;5;12mGeneration)[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12meight[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mtraining-free[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12msurpassing[39m[38;5;12m [39m[38;5;12msome[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mLLMs.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mINF-LLaVA: High-Resolution Image Perception for Multimodal Large Language Models[0m
|
||
|
||
[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mcropping-based[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdual-encoder[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mmodules:[39m[38;5;12m [39m
|
||
[38;5;12mDual-perspective[39m[38;5;12m [39m[38;5;12mCropping[39m[38;5;12m [39m[38;5;12mModule[39m[38;5;12m [39m[38;5;12m(DCM)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mDual-perspective[39m[38;5;12m [39m[38;5;12mEnhancement[39m[38;5;12m [39m[38;5;12mModule[39m[38;5;12m [39m[38;5;12m(DEM).[39m[38;5;12m [39m[38;5;12mDCM[39m[38;5;12m [39m[38;5;12msegments[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12msub-images[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mperspectives,[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mDEM[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m
|
||
[38;5;12mefficient[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrelationships.[39m[38;5;12m [39m[38;5;12mExtensive[39m[38;5;12m [39m[38;5;12mevaluations[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12mINF-LLaVA's[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mestablishing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m
|
||
[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2407.16198-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2407.16198)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/WeihuangLin/INF-LLaVA)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/papers/2407.16198)[39m[38;5;12m [39m
|
||
[38;5;12mYiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12mpushes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(MLLMs)[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtackling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mchallenge[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mperception.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrichness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdetail[39m[38;5;12m [39m[38;5;12mpresent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12msuccumbing[39m[38;5;12m [39m[38;5;12mto[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mimposed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mMLLM[39m[38;5;12m [39m[38;5;12marchitectures.[39m[38;5;12m [39m[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mcropping[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mtechniques,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msimultaneously[39m
|
||
[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mDual-perspective[39m[38;5;12m [39m[38;5;12mCropping[39m[38;5;12m [39m[38;5;12mModule[39m[38;5;12m [39m[38;5;12m(DCM),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mcropping[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12msurpasses[39m[38;5;12m [39m[38;5;12mconventional[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mperspectives.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdual-perspective[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mextracted[39m[38;5;12m [39m[38;5;12msub-image[39m[38;5;12m [39m[38;5;12mretains[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintricate[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12messential[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12maccurate[39m[38;5;12m [39m[38;5;12manalysis[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbroader[39m[38;5;12m [39m[38;5;12mcontextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mrelationships[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mobjects.[39m[38;5;12m [39m[38;5;12mWhile[39m[38;5;12m [39m[38;5;12mlocal-perspective[39m[38;5;12m [39m[38;5;12mcropping[39m[38;5;12m [39m[38;5;12mpreserves[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mresolution,[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12messence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mindividual[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregions,[39m[38;5;12m [39m[38;5;12mglobal-perspective[39m[38;5;12m [39m[38;5;12mcropping[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12minterleaving[39m[38;5;12m [39m
|
||
[38;5;12mtechnique[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpreserve[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mrelationships[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimage.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mperceive[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m"trees"[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m"forest,"[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mholistic[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mscene.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mDual-perspective[39m[38;5;12m [39m[38;5;12mEnhancement[39m[38;5;12m [39m[38;5;12mModule[39m[38;5;12m [39m[38;5;12m(DEM).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mextracted[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12menriching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmulti-scale[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcomputationally[39m[38;5;12m [39m[38;5;12mexpensive[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mDEM[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mresource-efficient[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m
|
||
[38;5;12mpositional[39m[38;5;12m [39m[38;5;12mpriors[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mconcatenate[39m[38;5;12m [39m[38;5;12mglobal-perspective[39m[38;5;12m [39m[38;5;12msub-image[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mback[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mimage's[39m[38;5;12m [39m[38;5;12mshape,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mrecreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mrecombined[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mre-cropped[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlocal[39m
|
||
[38;5;12mperspective,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mperformed[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12msub-images[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mdetails.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12msymmetrical[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m
|
||
[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mdetail[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mcognizant[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbroader[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdual-enhanced[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mformat[39m[38;5;12m [39m[38;5;12mcompatible[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mconnector.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcoherent[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontextually[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mresponse.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mevaluations[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mScienceQA-img,[39m[38;5;12m [39m
|
||
[38;5;12mOKVQA,[39m[38;5;12m [39m[38;5;12mSEEDBench,[39m[38;5;12m [39m[38;5;12mMMBench,[39m[38;5;12m [39m[38;5;12mAI2D,[39m[38;5;12m [39m[38;5;12mLLaVA-Bench-in-the-wild,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMMMU,[39m[38;5;12m [39m[38;5;12mINF-LLaVA[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mMLLMs.[39m[38;5;12m [39m[38;5;12mIts[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m
|
||
[38;5;12mestablishes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mrelease[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mINF-LLaVA,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcode,[39m[38;5;12m [39m[38;5;12mpaves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mway[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexploration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m
|
||
[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mpushing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12msystems.[39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mVILA²: VILA Augmented VILA[0m
|
||
|
||
[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12m(VILA-augmented-VILA)[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mquantity[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(VLMs).[39m[38;5;12m [39m[38;5;12mInstead[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcostly[39m[38;5;12m [39m[38;5;12mhuman[39m[38;5;12m [39m[38;5;12mannotation[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mdistillation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m
|
||
[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12miteratively[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maugment[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMMMU[39m[38;5;12m [39m[38;5;12mleaderboard[39m[38;5;12m [39m[38;5;12mamong[39m[38;5;12m [39m[38;5;12mopen-sourced[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2407.17453-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2407.17453) [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/papers/2407.17453) [39m
|
||
[38;5;12mYunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-step[39m[38;5;12m [39m[38;5;12miterative[39m[38;5;12m [39m[38;5;12mprocess:[39m[38;5;12m [39m[38;5;12mself-augmenting[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecialist-augmenting.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mself-augmenting[39m[38;5;12m [39m[38;5;12mloop[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mre-caption[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m
|
||
[38;5;12mstarts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12m(VILA0)[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtypically[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbrief[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mCOYO.[39m[38;5;12m [39m[38;5;12mVILA0[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msame[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m
|
||
[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtrain[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnext[39m[38;5;12m [39m[38;5;12miteration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12m(VILA1).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mloop[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mrepeated[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mtimes,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12miteration[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcaption[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msubsequently[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVLM's[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mHowever,[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m
|
||
[38;5;12mself-augmentation[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12meventually[39m[38;5;12m [39m[38;5;12mreaches[39m[38;5;12m [39m[38;5;12msaturation.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12movercome[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mlimitation,[39m[38;5;12m [39m[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mspecialist-augmenting[0m[38;5;14m[1m [0m[38;5;14m[1mloo[0m[38;5;12mp.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mself-augmented[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12mspecialist[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m
|
||
[38;5;12mexpertise[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mareas[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mawareness,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounding.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mspecialists[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mre-caption[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdomain[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mself-augmented[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mretrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m
|
||
[38;5;12mspecialist-recaptioned[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mboosting[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msynergy[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mamount[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macquired[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12mfollows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mauto-regressive[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mdesign,[39m[38;5;12m [39m[38;5;12mconsisting[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mexperiment[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12m(Llama2-7B,[39m[38;5;12m [39m[38;5;12mLlama3-8B-Instruct,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mYi-34B)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12m(SigLIP[39m[38;5;12m [39m[38;5;12mand[39m
|
||
[38;5;12mInternViT-6B).[39m[38;5;12m [39m[38;5;12mThey[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m4x[39m[38;5;12m [39m[38;5;12mdownsampling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcost.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfollows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtypical[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mparadigm:[39m[38;5;12m [39m[38;5;12mprojector[39m[38;5;12m [39m[38;5;12minitialization,[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12minstruction-tuning.[39m[38;5;12m [39m[38;5;12mVILA²[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mVQA,[39m[38;5;12m [39m[38;5;12mtext-oriented[39m[38;5;12m [39m[38;5;12mVQA,[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mproposed[39m[38;5;12m [39m[38;5;12mself-[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecialist-augmentation[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMiniCPM-V: A GPT-4V Level MLLM on Your Phone[0m
|
||
|
||
[38;5;12mMiniCPM-V[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(MLLMs)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mend-side[39m[38;5;12m [39m[38;5;12mdevices[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mphones[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpersonal[39m[38;5;12m [39m[38;5;12mcomputers.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mlatest[39m[38;5;12m [39m[38;5;12miteration,[39m[38;5;12m [39m[38;5;12mMiniCPM-Llama3-V[39m[38;5;12m [39m[38;5;12m2.5,[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mGPT-4V,[39m[38;5;12m [39m[38;5;12mGemini[39m[38;5;12m [39m[38;5;12mPro,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mClaude[39m[38;5;12m [39m[38;5;12m3[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfeasibility[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdeploying[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mMLLMs[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mresource-constrained[39m[38;5;12m [39m[38;5;12mdevices.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.01800-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2408.01800)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/OpenBMB/MiniCPM-V)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/openbmb/MiniCPM-V-2_6)[39m[38;5;12m [39m
|
||
[38;5;12mYuan[39m[38;5;12m [39m[38;5;12mYao,[39m[38;5;12m [39m[38;5;12mTianyu[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mAo[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mChongyi[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mJunbo[39m[38;5;12m [39m[38;5;12mCui,[39m[38;5;12m [39m[38;5;12mHongji[39m[38;5;12m [39m[38;5;12mZhu,[39m[38;5;12m [39m[38;5;12mTianchi[39m[38;5;12m [39m[38;5;12mCai,[39m[38;5;12m [39m[38;5;12mHaoyu[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mWeilin[39m[38;5;12m [39m[38;5;12mZhao,[39m[38;5;12m [39m[38;5;12mZhihui[39m[38;5;12m [39m[38;5;12mHe,[39m[38;5;12m [39m[38;5;12mQianyu[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mHuarong[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mZhensheng[39m[38;5;12m [39m[38;5;12mZou,[39m[38;5;12m [39m[38;5;12mHaoye[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mShengding[39m[38;5;12m [39m[38;5;12mHu,[39m[38;5;12m [39m[38;5;12mZhi[39m[38;5;12m [39m[38;5;12mZheng,[39m[38;5;12m [39m[38;5;12mJie[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mJie[39m[38;5;12m [39m[38;5;12mCai,[39m[38;5;12m [39m[38;5;12mXu[39m[38;5;12m [39m[38;5;12mHan,[39m[38;5;12m [39m[38;5;12mGuoyang[39m[38;5;12m [39m[38;5;12mZeng,[39m[38;5;12m [39m[38;5;12mDahai[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m
|
||
[38;5;12mZhiyuan[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mMaosong[39m[38;5;12m [39m[38;5;12mSun[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mMiniCPM-V[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mend-side[39m[38;5;12m [39m[38;5;12mdevices.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mmodules:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mMiniCPM-V[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mSoViT-400m/14,[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratios,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madaptive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mdividing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mslices[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbetter[39m[38;5;12m [39m[38;5;12mmatch[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mViT's[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12msettings[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mterms[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mratio.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mscore[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mselect[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mpartition[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mslices,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgood[39m[38;5;12m [39m[38;5;12mmatch[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mViT's[39m[38;5;12m [39m[38;5;12mpre-training.[39m[38;5;12m [39m[38;5;12mEach[39m[38;5;12m [39m[38;5;12mslice[39m[38;5;12m [39m
|
||
[38;5;12mis[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mresized[39m[38;5;12m [39m[38;5;12mproportionally[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpolated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfit[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mViT's[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12msize.[39m[38;5;12m [39m[38;5;12mAfter[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mslice[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mrepresented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12m1024[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mslices.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthis,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mmodule[39m[38;5;12m [39m
|
||
[38;5;12mis[39m[38;5;12m [39m[38;5;12memployed,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mone-layer[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmoderate[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcompress[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mslice[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12m64[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12m96[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mreduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mcost[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmemory[39m[38;5;12m [39m[38;5;12mfootprint,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msuitable[39m[38;5;12m [39m[38;5;12mfor[39m
|
||
[38;5;12mend-side[39m[38;5;12m [39m[38;5;12mdeployment.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mschema[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mindicate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mslice[39m[38;5;12m [39m[38;5;12mrelative[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mwhole[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mrelationships.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcompressed[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m
|
||
[38;5;12minput,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mfed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mMiniCPM[39m[38;5;12m [39m[38;5;12m2B[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mearlier[39m[38;5;12m [39m[38;5;12mversions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLlama3-Instruct[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mMiniCPM-Llama3-V[39m[38;5;12m [39m[38;5;12m2.5.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mphases:[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mRLAIF-V[39m[38;5;12m [39m[38;5;12m(Reinforcement[39m[38;5;12m [39m
|
||
[38;5;12mLearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mFeedback[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mVision).[39m[38;5;12m [39m[38;5;12mPre-training[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12mwarming[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mextending[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m
|
||
[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12madaptive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mSupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m
|
||
[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcategorized[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mparts:[39m[38;5;12m [39m[38;5;12mone[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mbasic[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfollowing[39m[38;5;12m [39m[38;5;12minstructions.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m[38;5;12mRLAIF-V[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmitigate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhallucination[39m[38;5;12m [39m[38;5;12mproblem[39m[38;5;12m [39m
|
||
[38;5;12mcommon[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMLLMs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minstruction,[39m[38;5;12m [39m[38;5;12mevaluating[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcorrectness[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdivide-and-conquer[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mDirect[39m[38;5;12m [39m[38;5;12mPreference[39m[38;5;12m [39m[38;5;12mOptimization[39m[38;5;12m [39m[38;5;12m(DPO)[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpreference[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m
|
||
[38;5;12mMiniCPM-V[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minteraction,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12menough[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mphones.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mhighlights[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpushing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mend-side[39m[38;5;12m [39m[38;5;12mMLLMs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbringing[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12muser[39m[38;5;12m [39m[38;5;12mdevices.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMiniCPM-o-2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming[0m
|
||
|
||
[38;5;12mMiniCPM-o-2.6[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12m8B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision,[39m[38;5;12m [39m[38;5;12mspeech,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlive[39m[38;5;12m [39m[38;5;12mstreaming,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mcomparable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mGPT-4o[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12medge[39m[38;5;12m [39m[38;5;12mdevices.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/Blog-MiniCPM%20Team%20Blog-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m
|
||
[38;5;12m(https://openbmb.notion.site/MiniCPM-o-2-6-A-GPT-4o-Level-MLLM-for-Vision-Speech-and-Multimodal-Live-Streaming-on-Your-Phone-185ede1b7a558042b5d5e45e6b237da9)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/OpenBMB/MiniCPM-o)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/openbmb/MiniCPM-o-2_6) [39m
|
||
[38;5;12mOpenBMB[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mMiniCPM-o-2.6[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12momni-modal[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder:[0m[38;5;12m [39m[38;5;12mSigLip-400M[39m[38;5;12m [39m[38;5;14m[1mAudio[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder:[0m[38;5;12m [39m[38;5;12mWhisper-medium-300M[39m[38;5;12m [39m[38;5;14m[1mText-to-Speech[0m[38;5;14m[1m [0m[38;5;14m[1m(TTS):[0m[38;5;12m [39m[38;5;12mChatTTS-200M[39m[38;5;12m [39m[38;5;14m[1mLarge[0m[38;5;14m[1m [0m[38;5;14m[1mLanguage[0m[38;5;14m[1m [0m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1m(LLM):[0m[38;5;12m [39m[38;5;12mQwen2.5-7B.[39m[38;5;12m [39m
|
||
[38;5;12mThese[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mconnected[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mend-to-end.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12m"Omni-modal[39m[38;5;12m [39m[38;5;12mLive[39m[38;5;12m [39m[38;5;12mStreaming[39m[38;5;12m [39m[38;5;12mMechanism."[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves:[39m[38;5;12m [39m[38;5;14m[1mOnline[0m[38;5;14m[1m [0m[38;5;14m[1mModality[0m[38;5;14m[1m [0m[38;5;14m[1mEncoders/Decoders:[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12moffline[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdecoders[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtransformed[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12monline[39m[38;5;12m [39m[38;5;12mversions[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mstreaming[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutputs.[39m[38;5;12m [39m[38;5;14m[1mTime-Division[0m[38;5;14m[1m [0m[38;5;14m[1mMultiplexing[0m[38;5;14m[1m [0m[38;5;14m[1m(TDM):[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mTDM[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mbackbone[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12momni-modal[39m[38;5;12m [39m[38;5;12mstreams.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mdivides[39m[38;5;12m [39m[38;5;12mparallel[39m[38;5;12m [39m[38;5;12mstreams[39m[38;5;12m [39m[38;5;12m(video,[39m[38;5;12m [39m[38;5;12maudio)[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12msequential[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12mtime[39m[38;5;12m [39m[38;5;12mslices.[39m[38;5;12m [39m
|
||
[38;5;14m[1mConfigurable[0m[38;5;14m[1m [0m[38;5;14m[1mSpeech[0m[38;5;14m[1m [0m[38;5;14m[1mModeling:[0m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msystem[39m[38;5;12m [39m[38;5;12mprompt[39m[38;5;12m [39m[38;5;12m(including[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12mprompts)[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mflexible[39m[38;5;12m [39m[38;5;12mvoice[39m[38;5;12m [39m[38;5;12mconfiguration[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12minference,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mvoice[39m[38;5;12m [39m[38;5;12mcloning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdescription-based[39m[38;5;12m [39m[38;5;12mvoice[39m[38;5;12m [39m[38;5;12mcreation.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mLLaVA-OneVision: Easy Visual Task Transfer[0m
|
||
|
||
[38;5;12mLLaVA-OneVision[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(LMMs)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mcomputer[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mscenarios,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12msingle-image,[39m[38;5;12m [39m[38;5;12mmulti-image,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mpushes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mLMMs[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m
|
||
[38;5;12mconsolidating[39m[38;5;12m [39m[38;5;12minsights[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT[39m[38;5;12m [39m[38;5;12mblog[39m[38;5;12m [39m[38;5;12mseries,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mNotably,[39m[38;5;12m [39m[38;5;12mLLaVA-OneVision[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m
|
||
[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.03326-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2408.03326)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mWebsite[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🌐-Website-blue)[0m[38;5;12m [39m[38;5;12m(https://llava-vl.github.io/blog/2024-08-05-llava-onevision/)[39m[38;5;12m [39m[38;5;14m[1m![0m
|
||
[38;5;12mHuggingFace[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/papers/2408.03326)[39m[38;5;12m [39m
|
||
[38;5;12mBo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mLLaVA-OneVision[39m[38;5;12m [39m[38;5;12minherits[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mminimalist[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mseries,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mscaling.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcomponents:[39m
|
||
[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprojector.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mauthors[39m[38;5;12m [39m[38;5;12mchoose[39m[38;5;12m [39m[38;5;12mQwen-2[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mdue[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mavailable.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mthey[39m[38;5;12m [39m[38;5;12mopt[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mSigLIP,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mshown[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12myield[39m
|
||
[38;5;12mhigher[39m[38;5;12m [39m[38;5;12mLMM[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mamong[39m[38;5;12m [39m[38;5;12mopen[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12m2-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojector[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmap[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mword[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mflexible[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m
|
||
[38;5;12mcalled[39m[38;5;12m [39m[38;5;12mHigher[39m[38;5;12m [39m[38;5;12mAnyRes,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mAnyRes[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mLLaVA-NeXT.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mdividing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mcrops,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12msuitable[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mapplying[39m[38;5;12m [39m[38;5;12mbilinear[39m[38;5;12m [39m
|
||
[38;5;12minterpolation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mcrop[39m[38;5;12m [39m[38;5;12mif[39m[38;5;12m [39m[38;5;12mneeded.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mimportant[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdetails.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mconfiguration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mHigher[0m[38;5;14m[1m [0m[38;5;14m[1mAnyRes[0m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12madapted[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mscenarios:[39m[38;5;12m [39m[38;5;12msingle-image,[39m[38;5;12m [39m[38;5;12mmulti-image,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12msingle-image[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mmaximum[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mconfiguration[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mallocated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mrepresent[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msignal.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconsidered,[39m[38;5;12m [39m[38;5;12meliminating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmulti-crop[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msaving[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mresources.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mresized[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbilinear[39m[38;5;12m [39m
|
||
[38;5;12minterpolation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreduce[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mper[39m[38;5;12m [39m[38;5;12mframe,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mframes.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfollows[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mcurriculum[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mapproach:[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m
|
||
[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12msecond[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mrefines[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m
|
||
[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mmajor[39m[38;5;12m [39m[38;5;12mcategories:[39m[38;5;12m [39m[38;5;12mre-captioned[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mdescription[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mdocument/OCR[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mChinese[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mpreferred[39m[38;5;12m [39m
|
||
[38;5;12mresponses.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mdivided[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mphases:[39m[38;5;12m [39m[38;5;12msingle-image[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOneVision[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mSingle-image[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12msingle-image[39m[38;5;12m [39m[38;5;12mscenarios,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mOneVision[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mexpands[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmulti-image[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m
|
||
[38;5;12mscenarios,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12memerging[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mLLaVA-OneVision[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12msingle-image,[39m[38;5;12m [39m[38;5;12mmulti-image,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m
|
||
[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mscenarios.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mVITA: Towards Open-Source Interactive Omni Multimodal LLM[0m
|
||
|
||
[38;5;12mVITA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msimultaneously[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12manalyzing[39m[38;5;12m [39m[38;5;12mvideo,[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minteractive[39m[38;5;12m [39m[38;5;12mexperience.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12meither[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12mrarely[39m[38;5;12m [39m[38;5;12mboth,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12minnovations[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mstrategies.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.05211-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2408.05211)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/VITA-MLLM/VITA)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/VITA-MLLM)[39m[38;5;12m [39m
|
||
[38;5;12mChaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mVITA[39m[38;5;12m [39m[38;5;12mstarts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMixtral[39m[38;5;12m [39m[38;5;12m8x7B[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mfoundation,[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msparse[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12m(SMoE)[39m[38;5;12m [39m[38;5;12marchitecture.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mChinese[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvocabulary[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mexpanded[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mChinese[39m[38;5;12m [39m[38;5;12mterms,[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12mbilingual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mbilingual[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcorpus.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mChinese[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mEnglish.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodality,[39m[38;5;12m [39m[38;5;12mVITA[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mInternViT-300M-448px[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mimages[39m
|
||
[38;5;12mat[39m[38;5;12m [39m[38;5;12m448x448[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12m256[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mafter[39m[38;5;12m [39m[38;5;12mpassing[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mconnector.[39m[38;5;12m [39m[38;5;12mHigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mhandled[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mpatching[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mvideos[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtreated[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12mcases[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mframe[39m[38;5;12m [39m[38;5;12msampling[39m
|
||
[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mlength.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12mmodality,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMel[39m[38;5;12m [39m[38;5;12mFilter[39m[38;5;12m [39m[38;5;12mBank[39m[38;5;12m [39m[38;5;12mblock[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12maudio,[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12m4xCNN[39m[38;5;12m [39m[38;5;12mdownsampling[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m24-layer[39m[38;5;12m [39m[38;5;12mtransformer,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12m25[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mevery[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mseconds[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12maudio.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mtwo-layer[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m
|
||
[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12maudio-text[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mconnector.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning.[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mbilingual[39m[38;5;12m [39m
|
||
[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mindividual[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconnectors[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mmodality.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mcollecting[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcurating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge-scale,[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdescriptions,[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiagram[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mdescriptions,[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12mQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpure[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mrefines[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfollow[39m[38;5;12m [39m[38;5;12minstructions[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mspecially[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mstate[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdistinguish[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtype[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12m(effective[39m[38;5;12m [39m[38;5;12maudio,[39m[38;5;12m [39m[38;5;12mnoisy[39m[38;5;12m [39m[38;5;12maudio,[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mtext),[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mnon-awakening[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12minference.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mmultimodal[39m
|
||
[38;5;12mhuman-computer[39m[38;5;12m [39m[38;5;12minteraction,[39m[38;5;12m [39m[38;5;12mVITA[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12minnovations:[39m[38;5;12m [39m[38;5;12mnon-awakening[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12minterrupt[39m[38;5;12m [39m[38;5;12minteraction.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mimplemented[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mduplex[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mdeployment.[39m[38;5;12m [39m[38;5;12mTwo[39m[38;5;12m [39m[38;5;12mVITA[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mrun[39m[38;5;12m [39m[38;5;12mconcurrently:[39m[38;5;12m [39m[38;5;12mone[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m
|
||
[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12muser[39m[38;5;12m [39m[38;5;12mqueries[39m[38;5;12m [39m[38;5;12m(Generation[39m[38;5;12m [39m[38;5;12mmodel)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmonitoring[39m[38;5;12m [39m[38;5;12menvironmental[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12m(Monitoring[39m[38;5;12m [39m[38;5;12mmodel).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMonitoring[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12mSileroVAD[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvoice[39m[38;5;12m [39m[38;5;12mactivity[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfilters[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mnoisy[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mstate[39m[38;5;12m [39m[38;5;12mtoken.[39m[38;5;12m [39m[38;5;12mIf[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m
|
||
[38;5;12meffective[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdetected,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMonitoring[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minterrupts[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGeneration[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mconsolidates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhistorical[39m[38;5;12m [39m[38;5;12mcontext,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresponds[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlatest[39m[38;5;12m [39m[38;5;12mquery.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mswap[39m[38;5;12m [39m[38;5;12midentities,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mmonitoring[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m
|
||
[38;5;12minteraction.VITA[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultilingual,[39m[38;5;12m [39m[38;5;12mvision,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maudio[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mWhile[39m[38;5;12m [39m[38;5;12mstill[39m[38;5;12m [39m[38;5;12mlagging[39m[38;5;12m [39m[38;5;12mbehind[39m[38;5;12m [39m[38;5;12mclosed-source[39m[38;5;12m [39m
|
||
[38;5;12mcounterparts[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcertain[39m[38;5;12m [39m[38;5;12mareas,[39m[38;5;12m [39m[38;5;12mVITA[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12minteractive[39m[38;5;12m [39m[38;5;12momni-modal[39m[38;5;12m [39m[38;5;12mLLMs,[39m[38;5;12m [39m[38;5;12mpaving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mway[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfuture[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mfield.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mEAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders[0m
|
||
|
||
[38;5;12mEAGLE[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(MLLMs)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12minvolving[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstudy[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12msystematically[39m[38;5;12m [39m[38;5;12mexploring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMLLMs[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12midentify[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mchoices[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mMLLM[39m[38;5;12m [39m[38;5;12mperception.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.15998-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2408.15998)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/NVlabs/EAGLE)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat)[39m[38;5;12m [39m
|
||
[38;5;12mMin Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mEAGLE[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mconsisting[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresolutions,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperceive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstudy[39m[38;5;12m [39m[38;5;12mexplores[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12maspects[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12madaptation,[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mparadigms,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mcombinations.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mPre-Alignment[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mrepresentational[39m[38;5;12m [39m[38;5;12minconsistencies[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvision-focused[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mconsists[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mprogressive[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mpre-alignment,[39m[38;5;12m [39m[38;5;12mjoint-projector[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning.[39m[38;5;12m [39m[38;5;12mEAGLE[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvantages[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstudy[39m[38;5;12m [39m[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimportance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msystematic[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mexploration[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-alignment[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mhigh-performing[39m[38;5;12m [39m[38;5;12mMLLMs.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mEagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models[0m
|
||
|
||
[38;5;12mEagle[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12m(VLMs)[39m[38;5;12m [39m[38;5;12mdeveloped[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdata-centric[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mpost-training[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mstrategies[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mbuild[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprioritize[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m
|
||
[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mquality,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipe[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtiled[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12m(MoVE)[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmatch[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12msurpass[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarger,[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2501.14818-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2501.14818)[39m
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/NVlabs/EAGLE)[39m
|
||
[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m (https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m (https://huggingface.co/nvidia/Eagle2-9B) [39m
|
||
[38;5;12mZhiqi[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mGuo[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mShilong[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mShihao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mYilin[39m[38;5;12m [39m[38;5;12mZhao,[39m[38;5;12m [39m[38;5;12mSubhashree[39m[38;5;12m [39m[38;5;12mRadhakrishnan,[39m[38;5;12m [39m[38;5;12mNadine[39m[38;5;12m [39m[38;5;12mChang,[39m[38;5;12m [39m[38;5;12mMatthieu[39m[38;5;12m [39m[38;5;12mLe,[39m[38;5;12m [39m[38;5;12mDe-An[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mIlia[39m[38;5;12m [39m[38;5;12mKarmanov,[39m[38;5;12m [39m[38;5;12mLukas[39m[38;5;12m [39m[38;5;12mVoegtle,[39m[38;5;12m [39m[38;5;12mJose[39m[38;5;12m [39m[38;5;12mM.[39m[38;5;12m [39m[38;5;12mAlvarez,[39m[38;5;12m [39m[38;5;12mBryan[39m[38;5;12m [39m[38;5;12mCatanzaro,[39m[38;5;12m [39m[38;5;12mJan[39m[38;5;12m [39m[38;5;12mKautz,[39m[38;5;12m [39m[38;5;12mAndrew[39m[38;5;12m [39m[38;5;12mTao,[39m[38;5;12m [39m[38;5;12mVibashan[39m[38;5;12m [39m[38;5;12mVS,[39m[38;5;12m [39m[38;5;12mYishen[39m[38;5;12m [39m[38;5;12mJi,[39m[38;5;12m [39m[38;5;12mShiyi[39m[38;5;12m [39m[38;5;12mLan,[39m[38;5;12m [39m
|
||
[38;5;12mHao[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mKaran[39m[38;5;12m [39m[38;5;12mSapra,[39m[38;5;12m [39m[38;5;12mAmala[39m[38;5;12m [39m[38;5;12mDeshmukh,[39m[38;5;12m [39m[38;5;12mTuomas[39m[38;5;12m [39m[38;5;12mRintamaki,[39m[38;5;12m [39m[38;5;12mPhilipp[39m[38;5;12m [39m[38;5;12mFischer,[39m[38;5;12m [39m[38;5;12mTimo[39m[38;5;12m [39m[38;5;12mRoman,[39m[38;5;12m [39m[38;5;12mTong[39m[38;5;12m [39m[38;5;12mLu,[39m[38;5;12m [39m[38;5;12mGuilin[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m[38;5;12mZhiding[39m[38;5;12m [39m[38;5;12mYu[39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;14m[1mEagle[0m[38;5;14m[1m [0m[38;5;14m[1m2[0m[38;5;12m [39m[38;5;12madopts[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m"diversity[39m[38;5;12m [39m[38;5;12mfirst,[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mquality"[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mstrategy,[39m[38;5;12m [39m[38;5;12mbeginning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge,[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mpool[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m180[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msources,[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mrigorous[39m[38;5;12m [39m[38;5;12mfiltering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mselection.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtiled[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12m(MoVE),[39m[38;5;12m [39m
|
||
[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mConvNeXt-XXLarge,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtiling[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mresolutions.[39m[38;5;12m [39m[38;5;12mEach[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtile[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mencoded[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mchannel-concatenated[39m[38;5;12m [39m[38;5;12mMoVE.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mconcatenated[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(Qwen2.5)[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m
|
||
[38;5;12mconnector.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrecipe[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused:[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m1[39m[38;5;12m [39m[38;5;12mtrains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconnector[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mmodalities;[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mtrains[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge,[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset;[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mfine-tunes[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12minstruction-tuning[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mCrucially,[39m[38;5;12m [39m[48;2;30;30;40m[38;5;13m[3mall[0m
|
||
[38;5;12mavailable[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mStage[39m[38;5;12m [39m[38;5;12m1.5,[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mjust[39m[38;5;12m [39m[38;5;12mcaptioning/knowledge[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mBalanced[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mpacking[39m[38;5;12m [39m[38;5;12maddresses[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mexisting[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mframeworks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mcontribution[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mstrategy.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12minvolves:[39m[38;5;12m [39m[38;5;12m(1)[39m[38;5;12m [39m
|
||
[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mCollection[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mBuilding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mpool[39m[38;5;12m [39m[38;5;12m(180+[39m[38;5;12m [39m[38;5;12msources)[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mpassive[39m[38;5;12m [39m[38;5;12mgathering[39m[38;5;12m [39m[38;5;12m(monitoring[39m[38;5;12m [39m[38;5;12marXiv,[39m[38;5;12m [39m[38;5;12mHuggingFace)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mproactive[39m[38;5;12m [39m[38;5;12msearching[39m[38;5;12m [39m[38;5;12m(addressing[39m[38;5;12m [39m[38;5;12m"bucket[39m[38;5;12m [39m[38;5;12meffect"[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12merror[39m[38;5;12m [39m[38;5;12manalysis).[39m[38;5;12m [39m[38;5;12m(2)[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mFiltering[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRemoving[39m[38;5;12m [39m[38;5;12mlow-quality[39m[38;5;12m [39m
|
||
[38;5;12msamples[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcriteria[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mmismatched[39m[38;5;12m [39m[38;5;12mquestion-answer[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mirrelevant[39m[38;5;12m [39m[38;5;12mimage-question[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mrepeated[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnumeric[39m[38;5;12m [39m[38;5;12mformatting[39m[38;5;12m [39m[38;5;12missues.[39m[38;5;12m [39m[38;5;12m(3)[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mSelection[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mChoosing[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12msubsets[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msource[39m[38;5;12m [39m[38;5;12mdiversity,[39m[38;5;12m [39m[38;5;12mdistribution,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mK-means[39m
|
||
[38;5;12mclustering[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mSSCD[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mensure[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12m(especially[39m[38;5;12m [39m[38;5;12museful[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mchart[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12metc.).[39m[38;5;12m [39m[38;5;12m(4)[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mAugmentation[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mMining[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mChain-of-Thought[39m[38;5;12m [39m[38;5;12m(CoT)[39m[38;5;12m [39m[38;5;12mexplanation[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m
|
||
[38;5;12mrule-based[39m[38;5;12m [39m[38;5;12mQA[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexpanding[39m[38;5;12m [39m[38;5;12mshort[39m[38;5;12m [39m[38;5;12manswers[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12mones.[39m[38;5;12m [39m[38;5;12m(5)[39m[38;5;12m [39m[38;5;14m[1mData[0m[38;5;14m[1m [0m[38;5;14m[1mFormating:[0m[38;5;12m [39m[38;5;12mremove[39m[38;5;12m [39m[38;5;12munnecessary[39m[38;5;12m [39m[38;5;12mdecorations.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12muses[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mapproach:[39m
|
||
[38;5;14m[1mStage 1:[0m[38;5;12m Aligns language and image modalities by training the MLP connector.[39m
|
||
[38;5;14m[1mStage 1.5:[0m[38;5;12m Trains the [39m[48;2;30;30;40m[38;5;13m[3mfull[0m[38;5;12m model using a large-scale, diverse dataset (21.6M samples). [39m[48;2;30;30;40m[38;5;13m[3mAll[0m[38;5;12m available visual instruction data is used here, unlike common two-stage approaches, leading to substantial improvements.[39m
|
||
[38;5;14m[1mStage[0m[38;5;14m[1m [0m[38;5;14m[1m2:[0m[38;5;12m [39m[38;5;12mFine-tunes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mcurated,[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12m(4.6M[39m[38;5;12m [39m[38;5;12msamples).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mAdamW.[39m[38;5;12m [39m[38;5;12mEagle[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m
|
||
[38;5;12mmatching[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12mfrontier[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msome[39m[38;5;12m [39m[38;5;12mclosed-source[39m[38;5;12m [39m[38;5;12mVLMs.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mFlorence-2: A Deep Dive into its Unified Architecture and Multi-Task Capabilities[0m
|
||
|
||
[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12mpresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle,[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified,[39m[38;5;12m [39m[38;5;12mprompt-based[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m
|
||
[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12moften[39m[38;5;12m [39m[38;5;12mspecialize[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgeneralist,[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mperforming[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msimple[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhow[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LLMs)[39m[38;5;12m [39m[38;5;12moperate.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2311.06242-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/pdf/2311.06242)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m
|
||
[38;5;12m(https://huggingface.co/spaces/gokaygokay/Florence-2)[39m[38;5;12m [39m
|
||
[38;5;12mBin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mcomprised[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-modality[39m[38;5;12m [39m[38;5;12mencoder-decoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mpowered[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mDaViT[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mtransforms[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mprompts.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m
|
||
[38;5;12mtransformer-based[39m[38;5;12m [39m[38;5;12mmulti-modality[39m[38;5;12m [39m[38;5;12mencoder-decoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12macts[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbrain[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12manalyzing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdesired[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mform.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mgoverning[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12meliminates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mmodifications,[39m[38;5;12m [39m[38;5;12mleading[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mphilosophy[39m[38;5;12m [39m[38;5;12mmirrors[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtrend[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mNLP[39m[38;5;12m [39m[38;5;12mcommunity,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mconsistent[39m[38;5;12m [39m[38;5;12munderlying[39m[38;5;12m [39m
|
||
[38;5;12mstructures[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mpreferred[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mease[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdevelopment.[39m[38;5;12m [39m[38;5;12mFlorence-2's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mspan[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultitude[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mremarkable[39m[38;5;12m [39m[38;5;12madaptability.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mcapturing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12messence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdescriptions.[39m[38;5;12m [39m[38;5;12mIts[39m[38;5;12m [39m[38;5;12mprowess[39m[38;5;12m [39m[38;5;12mextends[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12maccurately[39m[38;5;12m [39m[38;5;12mpinpointing[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mphrases.[39m[38;5;12m [39m[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mopen-vocabulary[39m[38;5;12m [39m
|
||
[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12midentifying[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mnames,[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mif[39m[38;5;12m [39m[38;5;12mthose[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mwere[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mpart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgeneralize[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mconcepts.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m
|
||
[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12mtackles[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meven[39m[38;5;12m [39m[38;5;12mperforms[39m[38;5;12m [39m[38;5;12moptical[39m[38;5;12m [39m[38;5;12mcharacter[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12m(OCR),[39m[38;5;12m [39m[38;5;12mextracting[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mmakes[39m[38;5;12m [39m
|
||
[38;5;12mFlorence-2[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mnumerous[39m[38;5;12m [39m[38;5;12mapplications,[39m[38;5;12m [39m[38;5;12mpushing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mAI.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mMULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning[0m
|
||
|
||
[38;5;12mMULTIINSTRUCT[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mOFA[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mfoundation,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12msequence-to-sequence[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mfor[39m
|
||
[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2212.10773-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2212.10773) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/vt-nlp/multiinstruct) [39m
|
||
[38;5;12mZhiyang Xu, Ying Shen, Lifu Huang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMULTIINSTRUCT[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mOFA[0m[38;5;14m[1m [0m[38;5;14m[1m(Omnipotent[0m[38;5;14m[1m [0m[38;5;14m[1mFast[0m[38;5;14m[1m [0m[38;5;14m[1mAdapters)[0m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12madopts[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mTransformer-based[39m[38;5;12m [39m[38;5;12msequence-to-sequence[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mencodes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mboxes[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12mspace.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mMULTIINSTRUCT[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m
|
||
[38;5;12mtypes,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12moptional[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtasked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12moutputs.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mheart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMULTIINSTRUCT's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel-specific[39m[38;5;12m [39m[38;5;12mMULTIINSTRUCT[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincorporate[39m[38;5;12m [39m[38;5;12minstances[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mrandom[39m[38;5;12m [39m[38;5;12mshuffling[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msampling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtemplates[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12menriching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mexplores[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mstrategies[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mMixed[39m[38;5;12m [39m[38;5;12mInstruction[39m[38;5;12m [39m[38;5;12mTuning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSequential[39m[38;5;12m [39m
|
||
[38;5;12mInstruction[39m[38;5;12m [39m[38;5;12mTuning,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mNATURAL[39m[38;5;12m [39m[38;5;12mINSTRUCTIONS[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12madaptability[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mboosts[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mscenarios.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m
|
||
[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mMULTIINSTRUCT,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mbyte-pair[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVQ-GAN,[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mvocabulary.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m
|
||
[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12msequence-to-sequence[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeeper[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12munderscoring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m
|
||
[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mnamely[39m[38;5;12m [39m[38;5;12mMULTIINSTRUCT[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mNATURAL[39m[38;5;12m [39m[38;5;12mINSTRUCTIONS,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbolster[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMouSi: Poly-Visual-Expert Vision-Language Models[0m
|
||
|
||
[38;5;12mMouSi[39m[38;5;12m [39m[38;5;12mpushes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSAM,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpoly-expert[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcombine[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVicuna,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2401.17221-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2401.17221) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/fudannlplab/mousi) [39m
|
||
[38;5;12mXiaoran[39m[38;5;12m [39m[38;5;12mFan,[39m[38;5;12m [39m[38;5;12mTao[39m[38;5;12m [39m[38;5;12mJi,[39m[38;5;12m [39m[38;5;12mChanghao[39m[38;5;12m [39m[38;5;12mJiang,[39m[38;5;12m [39m[38;5;12mShuo[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mSenjie[39m[38;5;12m [39m[38;5;12mJin,[39m[38;5;12m [39m[38;5;12mSirui[39m[38;5;12m [39m[38;5;12mSong,[39m[38;5;12m [39m[38;5;12mJunke[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mBoyang[39m[38;5;12m [39m[38;5;12mHong,[39m[38;5;12m [39m[38;5;12mLu[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mGuodong[39m[38;5;12m [39m[38;5;12mZheng,[39m[38;5;12m [39m[38;5;12mMing[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mCaishuang[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mRui[39m[38;5;12m [39m[38;5;12mZheng,[39m[38;5;12m [39m[38;5;12mZhiheng[39m[38;5;12m [39m[38;5;12mXi,[39m[38;5;12m [39m[38;5;12mYuhao[39m[38;5;12m [39m[38;5;12mZhou,[39m[38;5;12m [39m[38;5;12mShihan[39m[38;5;12m [39m[38;5;12mDou,[39m[38;5;12m [39m[38;5;12mJunjie[39m[38;5;12m [39m[38;5;12mYe,[39m[38;5;12m [39m[38;5;12mHang[39m[38;5;12m [39m[38;5;12mYan,[39m[38;5;12m [39m[38;5;12mTao[39m[38;5;12m [39m[38;5;12mGui,[39m[38;5;12m [39m[38;5;12mQi[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mXipeng[39m[38;5;12m [39m[38;5;12mQiu,[39m
|
||
[38;5;12mXuanjing[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mZuxuan[39m[38;5;12m [39m[38;5;12mWu,[39m[38;5;12m [39m[38;5;12mYu-Gang[39m[38;5;12m [39m[38;5;12mJiang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMouSi[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(VLMs)[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msurpass[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12minherent[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mreliant[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingular[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcomponent.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpoly-expert[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mnetwork,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mmatching[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mSAM[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m
|
||
[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LLMs),[39m[38;5;12m [39m[38;5;12mnotably[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m[38;5;12mv1.5.[39m[38;5;12m [39m[38;5;12mMouSi[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-expert[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mselects[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpool,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mpoly-expert[0m[38;5;14m[1m [0m[38;5;14m[1mfusion[0m[38;5;14m[1m [0m[38;5;14m[1mnetworks:[0m[38;5;14m[1m [0m[38;5;14m[1ma[0m
|
||
[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mfusion[0m[38;5;14m[1m [0m[38;5;14m[1mmethod[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mQ-Former[0m[38;5;14m[1m [0m[38;5;14m[1mfusion[0m[38;5;14m[1m [0m[38;5;14m[1mmethod.[0m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMouSi[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcharacterized[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-phase[39m[38;5;12m [39m[38;5;12mapproach.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mphase,[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext-only[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmulti-expert[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mkept[39m[38;5;12m [39m[38;5;12mstatic,[39m[38;5;12m [39m[38;5;12mwith[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12msquarely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpoly-visual[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mnetwork.[39m[38;5;12m [39m[38;5;12mSubsequently,[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mphase,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mactivated[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mconjunction[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpoly-visual[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mnetwork,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m
|
||
[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mMouSi[39m[38;5;12m [39m[38;5;12mbenefits[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mpre-existing[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12msimultaneously[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12mMouSi[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mpoly-expert[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mamalgamate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexperts,[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcohesively,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfacilitated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12meither[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m
|
||
[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethod.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mallow[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mcompression[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-channel[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mformat[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMouSi's[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mLCS-558K[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLAION-CC-SBU[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12maimed[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mspaces,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiverse,[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mSFT[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m
|
||
[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mLaVIN: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models[0m
|
||
|
||
[38;5;12mLaVIN[39m[38;5;12m [39m[38;5;12moffers[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcost-effective[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMixture-of-Modality[39m[38;5;12m [39m[38;5;12mAdapter[39m[38;5;12m [39m[38;5;12m(MM-Adapter),[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12moptimization[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mpre-training.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2305.15023v3-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2305.15023v3) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/luogen1996/lavin) [39m
|
||
[38;5;12mGen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mLaVIN[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMixture-of-Modality[39m[38;5;12m [39m[38;5;12mAdaptation[39m[38;5;12m [39m[38;5;12m(MMA)[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mregime,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpioneering[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;14m[1mlightweight[0m[38;5;14m[1m [0m[38;5;14m[1madapters[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfine-tune[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12m(VL)[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLaVIN's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;14m[1mMixture-of-Modality[0m[38;5;14m[1m [0m[38;5;14m[1mAdapter[0m[38;5;14m[1m [0m[38;5;14m[1m(MM-Adapter)[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mconnects[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mmodules,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12moptimization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrelatively[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m
|
||
[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLaVIN[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnotably[39m[38;5;12m [39m[38;5;12mefficient,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMMA[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfine-tune[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minserted[39m[38;5;12m [39m[38;5;12madapters,[39m[38;5;12m [39m[38;5;12mthus[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mcount[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfive[39m[38;5;12m [39m[38;5;12mmillion.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12msubstantially[39m[38;5;12m [39m[38;5;12mlowers[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mtime[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstorage[39m[38;5;12m [39m[38;5;12mrequirements,[39m[38;5;12m [39m[38;5;12mcircumventing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mVL[39m[38;5;12m [39m[38;5;12mpre-training.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mMM-Adapter[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mtransition[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12msingle-[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m
|
||
[38;5;12madaptability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mVL[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mrouting[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12madjusts[39m[38;5;12m [39m[38;5;12madaptations[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mLaVIN's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m
|
||
[38;5;12mdemonstrated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mapplication[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mScienceQA,[39m[38;5;12m [39m[38;5;12mAlphaca-52k,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLaVA-158k.[39m[38;5;12m [39m[38;5;12mScienceQA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12massess[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAlphaca-52k[39m[38;5;12m [39m[38;5;12m(text-only)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLaVA-158k[39m[38;5;12m [39m
|
||
[38;5;12m(text-image[39m[38;5;12m [39m[38;5;12mpairs)[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mleveraged[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexpand[39m[38;5;12m [39m[38;5;12mLaVIN's[39m[38;5;12m [39m[38;5;12mfunctionality[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mchatbot.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mLaVIN's[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12millustrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m
|
||
[38;5;12mcontribute[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minteraction.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mNous-Hermes-2-Vision - Mistral 7B[0m
|
||
|
||
[38;5;12mNous-Hermes-2-Vision[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mOpenHermes-2.5[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mSigLIP-400M[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcustom[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mcalling[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m
|
||
[38;5;12malso[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mfunctionality[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mAction[39m[38;5;12m [39m[38;5;12mModel.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mModel[39m[38;5;14m[1m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m (https://huggingface.co/NousResearch/Nous-Hermes-2-Vision-Alpha) [39m
|
||
[38;5;12mThis project is led by qnguyen3 and teknium.[39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mNous-Hermes-2-Vision[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnotable[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mModels,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mdistinction[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12menhancements[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12melevate[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mbeyond[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m
|
||
[38;5;12mevolution[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;14m[1mOpenHermes-2.5-Mistral-7B[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mSigLIP-400M[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mmoving[39m[38;5;12m [39m[38;5;12maway[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mreliance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12m3B[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m
|
||
[38;5;12mAdditionally,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcustom[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mcalling[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mtransforming[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mVision-Language[39m[38;5;12m [39m[38;5;12mAction[39m[38;5;12m [39m[38;5;12mModel.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mNous-Hermes-2-Vision[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcomprising[39m[38;5;12m [39m[38;5;12m220K[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m
|
||
[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mLVIS-INSTRUCT4V,[39m[38;5;12m [39m[38;5;12m60K[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mShareGPT4V,[39m[38;5;12m [39m[38;5;12m150K[39m[38;5;12m [39m[38;5;12mprivate[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mcalling[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m50K[39m[38;5;12m [39m[38;5;12mconversations[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mteknium's[39m[38;5;12m [39m[38;5;12mOpenHermes-2.5.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m
|
||
[38;5;12mobject[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfollowing,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversational[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcustom[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mcalling,[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtogether[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mway[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12maction-oriented[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mautomation.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mNous-Hermes-2-Vision[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minteract[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mvaluable[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontent,[39m[38;5;12m [39m[38;5;12mthus[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12manalyses[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mresponses[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12munderscored[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mSigLIP-400M,[39m[38;5;12m [39m[38;5;12mopting[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m
|
||
[38;5;12menriched[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcustom[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;14m[1mfunction[0m[38;5;14m[1m [0m[38;5;14m[1mcalling[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mwritten[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtags,[39m[38;5;12m [39m[38;5;12mthus[39m[38;5;12m [39m[38;5;12mbroadening[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mapplication[39m[38;5;12m [39m[38;5;12mscope[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdevelopers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresearchers[39m[38;5;12m [39m[38;5;12malike.[39m[38;5;12m [39m[38;5;12mDespite[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mearly[39m[38;5;12m [39m[38;5;12musage[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mNous-Hermes-2-Vision[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mrevealed[39m[38;5;12m [39m[38;5;12msome[39m[38;5;12m [39m[38;5;12mchallenges,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mhallucinations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspamming[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mEOS[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mRecognizing[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12missues,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mteam,[39m[38;5;12m [39m[38;5;12mled[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mQuan[39m[38;5;12m [39m[38;5;12mNguyen[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mTeknium,[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mcommitted[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreleasing[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m
|
||
[38;5;12mupdated[39m[38;5;12m [39m[38;5;12mversion[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mproblems,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mdedication[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mTinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones[0m
|
||
|
||
[38;5;12mTinyGPT-V[39m[38;5;12m [39m[38;5;12mprioritizes[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12mEVA-ViT[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mPhi-2[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mdespite[39m[38;5;12m [39m
|
||
[38;5;12mits[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12msize.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2312.16862v1-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2312.16862v1)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/DLYuanGod/TinyGPT-V)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/llizhx/TinyGPT-V)[39m[38;5;12m [39m
|
||
[38;5;12mZhengqing Yuan, Zhaoxu Li, Lichao Sun[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mTinyGPT-V[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12myet[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mapplications,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12msmall[39m[38;5;12m [39m[38;5;12mbackbones[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mEVA[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT),[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mPhi-2[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mconstituting[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mcomponents.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mremains[39m[38;5;12m [39m[38;5;12minactive[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12madjustments[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mincorporation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mQ-Former[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mBLIP-2,[39m[38;5;12m [39m[38;5;12maim[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12membed[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mneeding[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12mPhi-2[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m2.7[39m[38;5;12m [39m[38;5;12mbillion-parameter[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcomprehension,[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12moperations[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mlocation[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mdepictions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mTinyGPT-V[39m[38;5;12m [39m[38;5;12munfolds[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mfour[39m[38;5;12m [39m[38;5;12mstages:[39m[38;5;12m [39m[38;5;12mwarm-up,[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mfine-tuning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning.[39m[38;5;12m [39m[38;5;12mEach[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprogressively[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m
|
||
[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12memphasis[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhuman-like[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlater[39m[38;5;12m [39m[38;5;12mstages.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mLAION,[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmore,[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m
|
||
[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mexecution[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnoteworthy[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mTinyGPT-V's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimplementation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnormalization[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLoRA[39m[38;5;12m [39m[38;5;12m(Low-Rank[39m[38;5;12m [39m[38;5;12mAdaptation)[39m[38;5;12m [39m[38;5;12mto[39m
|
||
[38;5;12mstabilize[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moptimize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mAddressing[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mNaN[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mINF[39m[38;5;12m [39m[38;5;12mvalues[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcomputation,[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mmechanisms[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtemplate[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmanage[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mambiguity,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maccurate[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mexecution.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mCoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding[0m
|
||
|
||
[38;5;12mCoVLM[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mViT-L[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mYOLOX[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mnetwork,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPythia[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m
|
||
[38;5;12mcompositional[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.03354v1-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.03354v1) [39m
|
||
[38;5;12mJunyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mCoVLM[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mcommunication[0m[38;5;14m[1m [0m[38;5;14m[1mtokens[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mnetwork,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mCoVLM[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m
|
||
[38;5;12mViT-L[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mYOLOX[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mnetwork,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mPythia[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mwork[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtandem[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mguide[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mcomposing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mentities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrelationships[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mcontext,[39m[38;5;12m [39m[38;5;12menhancing[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12mcommunicate[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mnetwork.[39m[38;5;12m [39m[38;5;12mCoVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcomprising[39m[38;5;12m [39m[38;5;12m97[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mdrawn[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msources.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mpipeline,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12massociating[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mspans[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mentities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12miterative[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m
|
||
[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mform[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtop-down[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbottom-up[39m[38;5;12m [39m[38;5;12mcommunication.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcommunication[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12minteract[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mCC12M,[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLAION400M,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mground[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m
|
||
[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mchoice[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12maimed[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12massociation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mentities,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mCoVLM's[39m[38;5;12m [39m[38;5;12minnovative[39m
|
||
[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mnetworks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mlevel[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcompositional[39m[38;5;12m [39m[38;5;12mreasoning,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mapart[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mGLaMM: Pixel Grounding Large Multimodal Model[0m
|
||
|
||
[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfive-component[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregional[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpixel[39m[38;5;12m [39m[38;5;12mdecoder,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m
|
||
[38;5;12mobject[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.03356-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.03356) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/mbzuai-oryx/groundingLMM) [39m
|
||
[38;5;12mHanoona Rasheed, Muhammad Maaz, Sahal Shaji Mullappilly, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mGLaMM[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore,[39m[38;5;12m [39m[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12mcomprises[39m[38;5;12m [39m[38;5;12mfive[39m[38;5;12m [39m[38;5;12messential[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mGlobal[0m[38;5;14m[1m [0m[38;5;14m[1mImage[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder,[0m[38;5;14m[1m [0m[38;5;14m[1mRegion[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder,[0m[38;5;14m[1m [0m[38;5;14m[1mLanguage[0m[38;5;14m[1m [0m[38;5;14m[1mModel[0m[38;5;14m[1m [0m[38;5;14m[1m(LLM),[0m[38;5;14m[1m [0m[38;5;14m[1mGrounding[0m[38;5;14m[1m [0m[38;5;14m[1mImage[0m[38;5;14m[1m [0m[38;5;14m[1mEncoder,[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mPixel[0m[38;5;14m[1m [0m[38;5;14m[1mDecoder[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minteractions[39m[38;5;12m [39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontent,[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mscene-level[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGlobal[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mEncoder,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mregion-level[39m[38;5;12m [39m[38;5;12minterpretations[39m[38;5;12m [39m[38;5;12mvia[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mRegion[39m[38;5;12m [39m[38;5;12mEncoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdown[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGrounding[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mEncoder.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mPixel[39m[38;5;12m [39m
|
||
[38;5;12mDecoder[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menriches[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;14m[1msegmentation[0m[38;5;14m[1m [0m[38;5;14m[1mmasks[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrespond[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mfidelity.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdual-pathway[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m
|
||
[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mautomated[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmanual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mannotation[39m[38;5;12m [39m[38;5;12mpipelines[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcreate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGrounding-anything[39m[38;5;12m [39m[38;5;12mDataset[39m[38;5;12m [39m[38;5;12m(GranD).[39m[38;5;12m [39m[38;5;12mGranD[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mespecially[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mGrounded[39m[38;5;12m [39m[38;5;12mConversation[39m[38;5;12m [39m[38;5;12mGeneration[39m[38;5;12m [39m[38;5;12m(GCG)[39m[38;5;12m [39m[38;5;12mtask,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12m7.5[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mconcepts[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12m810[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mregions,[39m[38;5;12m [39m[38;5;12mcomplete[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mmasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12msupports[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mphases[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12munderlines[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m
|
||
[38;5;12mconversations[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcontextually[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mstimuli.[39m[38;5;12m [39m[38;5;12mAlignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mGLaMM[39m[38;5;12m [39m[38;5;12mutilize[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision-to-language[39m[38;5;12m [39m[38;5;12m(V-L)[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmapping[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mspace,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m
|
||
[38;5;12meffective[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage-to-prompt[39m[38;5;12m [39m[38;5;12m(L-P)[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mtransforming[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mrelated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mspace.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdual-projection[39m[38;5;12m [39m[38;5;12msystem[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mencoding[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mbolstering[39m[38;5;12m [39m[38;5;12mGLaMM's[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpositioning[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minteractions.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mCOSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training[0m
|
||
|
||
[38;5;12mCOSMO[39m[38;5;12m [39m[38;5;12mpresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpartitioned[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m
|
||
[38;5;12mfunctions.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2401.00849v1-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2401.00849v1) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (http://fingerrec.github.io/cosmo) [39m
|
||
[38;5;12mAlex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mCOSMO[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinctive[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmerges[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mOpen-CLIP,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpartitioned[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM).[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12msystematically[39m[38;5;12m [39m[38;5;12mdivided[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12msegments[39m[38;5;12m [39m
|
||
[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mhandling,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mstreamline[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mintroduction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mclassification[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mCOSMO[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcarried[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mloss,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmanagement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mAdamW[39m[38;5;12m [39m[38;5;12moptimizer,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcosine[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrate[39m[38;5;12m [39m[38;5;12mschedule,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimplementation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mDeepSpeed[39m[38;5;12m [39m[38;5;12mfp16[39m[38;5;12m [39m[38;5;12mprecision,[39m[38;5;12m [39m[38;5;12mdistributed[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12m128[39m[38;5;12m [39m[38;5;12mNVIDIA[39m[38;5;12m [39m[38;5;12mV100[39m[38;5;12m [39m[38;5;12mGPUs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpartitioning[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m
|
||
[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtestament[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mframework's[39m[38;5;12m [39m[38;5;12mcommitment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficacy[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mnotably[39m[38;5;12m [39m[38;5;12madvanced,[39m[38;5;12m [39m[38;5;12mfeaturing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m
|
||
[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;14m[1mText[0m[38;5;14m[1m [0m[38;5;14m[1mFusion[0m[38;5;14m[1m [0m[38;5;14m[1mLayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mloss.[39m[38;5;12m [39m[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mgated[0m[38;5;14m[1m [0m[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mintroduce[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mreduction[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintroducing[39m[38;5;12m [39m[38;5;12mbottlenecks[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mchannels.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlightweight[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mnext-token[39m[38;5;12m [39m
|
||
[38;5;12mprediction.[39m[38;5;12m [39m[38;5;12mCOSMO's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mLAION400M,[39m[38;5;12m [39m[38;5;12mDataComp1B,[39m[38;5;12m [39m[38;5;12mMMC4,[39m[38;5;12m [39m[38;5;12mWebVid,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mHowto-Interlink7M.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mintroduction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mHowto-Interlink7M,[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mparticular,[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m
|
||
[38;5;12mto[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mvideo-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mannotated[39m[38;5;12m [39m[38;5;12mcaptions,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12m14[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mFireLLaVA[0m
|
||
|
||
[38;5;12mFireLLaVA[39m[38;5;12m [39m[38;5;12mbreaks[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mground[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCodeLlama[39m[38;5;12m [39m[38;5;12m34B[39m[38;5;12m [39m[38;5;12mInstruct[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP-ViT-based[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minterpretation[39m[38;5;12m [39m[38;5;12mcomponent,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mlabels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mconversations.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mModel[39m[38;5;14m[1m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m (https://huggingface.co/fireworks-ai/FireLLaVA-13b) [39m
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mFireLLaVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mAs[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfirst[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mkind[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mlineage,[39m[38;5;12m [39m[38;5;12mFireLLaVA[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdual-component[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCodeLlama[39m[38;5;12m [39m[38;5;12m34B[39m[38;5;12m [39m[38;5;12mInstruct[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minterpretation[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12makin[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mOpenAI's[39m[38;5;12m [39m[38;5;12mCLIP-ViT.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinctive[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mlabels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mconversations,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mFireLLaVA[39m[38;5;12m [39m
|
||
[38;5;12mis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcrafted,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12m588K[39m[38;5;12m [39m[38;5;12mlines[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mconversation[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mamalgamates[39m[38;5;12m [39m[38;5;12mpermissive[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mnewly[39m[38;5;12m [39m[38;5;12mgenerated[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mFireworks.ai,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m
|
||
[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12marticulate[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mlabels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m
|
||
[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mcoherent[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mAlthough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mFireLLaVA's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mremain[39m[38;5;12m [39m[38;5;12munder-described,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minferred[39m[38;5;12m [39m
|
||
[38;5;12mthat[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mplays[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12msynthesizing[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mdrawing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmaterials[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFireworks.ai's[39m[38;5;12m [39m[38;5;12mproprietary[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mFireLLaVA[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVLMs[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnavigating[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomplexities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcommercial[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12membodies[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodeling,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12minsights[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mOSS[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcontribute[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mevolving[39m[38;5;12m [39m[38;5;12mlandscape[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m
|
||
[38;5;12mresearch[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdeployment.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mu-LLaVA: Unifying Multi-Modal Tasks via Large Language Model[0m
|
||
|
||
[38;5;12mu-LLaVA[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mprojector-based[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12munifies[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcentral[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m
|
||
[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.05348-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.05348) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/OPPOMKLab/u-LLaVA) [39m
|
||
[38;5;12mJinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;14m[1mu-LLaVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpioneering[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(LLMs)[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mstrengths[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcentral[39m
|
||
[38;5;12mhub,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;14m[1mprojector-based[0m[38;5;14m[1m [0m[38;5;14m[1mstructure[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT-L/14)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLaMA2,[39m[38;5;12m [39m[38;5;12mu-LLaVA[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mflexible[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m
|
||
[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12msystem[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mspecial[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mexpressions,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12min-painting,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menrich[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mu-LLaVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mexecuted[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12mbeginning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcoarse-grained[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mensure[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mspaces[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mestablishing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcommon[39m[38;5;12m [39m[38;5;12mground[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfurther,[39m[38;5;12m [39m
|
||
[38;5;12mmore[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12madaptations.[39m[38;5;12m [39m[38;5;12mFollowing[39m[38;5;12m [39m[38;5;12mthis,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mphase[39m[38;5;12m [39m[38;5;12mfocuses[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrefinement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtargeted[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdual-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m
|
||
[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mu-LLaVA[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12madapt[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mrequirements.[39m[38;5;12m [39m[38;5;12mCentral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mu-LLaVA's[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprojector-based[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mmapping[39m[38;5;12m [39m[38;5;12mhidden[39m[38;5;12m [39m[38;5;12mstates[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mprojectors,[39m[38;5;12m [39m[38;5;12mu-LLaVA[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mfusion,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12membedded[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12msolving.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mConversation-58K,[39m[38;5;12m [39m[38;5;12mDetail-23K,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mothers,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m
|
||
[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12m(VQA),[39m[38;5;12m [39m[38;5;12mreferential[39m[38;5;12m [39m[38;5;12mexpression[39m[38;5;12m [39m[38;5;12mcomprehension[39m[38;5;12m [39m[38;5;12m(RES),[39m[38;5;12m [39m[38;5;12msemantic[39m[38;5;12m [39m[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msalient[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection/segmentation.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12morganization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12munderscore[39m[38;5;12m [39m[38;5;12mu-LLaVA's[39m[38;5;12m [39m[38;5;12mcommitment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12munification[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMoE-LLaVA: Mixture of Experts for Large Vision-Language Models[0m
|
||
|
||
[38;5;12mMoE-LLaVA[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mMixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mExperts[39m[38;5;12m [39m[38;5;12m(MoE)[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m[38;5;12mrouters[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mselectively[39m[38;5;12m [39m[38;5;12mactivate[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12menabling[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2401.15947-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2401.15947)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/PKU-YuanGroup/MoE-LLaVA)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/LanguageBind/MoE-LLaVA)[39m[38;5;12m [39m
|
||
[38;5;12mBin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa Huang, Junwu Zhang, Munan Ning, Li Yuan[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMoE-LLaVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mleap[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;14m[1mMixture[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mExperts[0m[38;5;14m[1m [0m[38;5;14m[1m(MoE)[0m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcharacterized[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msparse[39m[38;5;12m [39m[38;5;12mdesign,[39m[38;5;12m [39m
|
||
[38;5;12mwherein[39m[38;5;12m [39m[38;5;12mindividual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mdirected[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;14m[1mlearnable[0m[38;5;14m[1m [0m[38;5;14m[1mrouters[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtop-k[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mactivated[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12many[39m[38;5;12m [39m[38;5;12mgiven[39m[38;5;12m [39m[38;5;12mtoken's[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m
|
||
[38;5;12malso[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mpaths[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mheart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMoE-LLaVA's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mvisual[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m,[39m[38;5;12m [39m[38;5;14m[1mword[0m[38;5;14m[1m [0m[38;5;14m[1membedding[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;14m[1mmulti-head[0m[38;5;14m[1m [0m[38;5;14m[1mself-attention[0m[38;5;14m[1m [0m[38;5;14m[1mblocks[0m[38;5;12m,[39m[38;5;12m [39m[38;5;14m[1mfeed-forward[0m[38;5;14m[1m [0m[38;5;14m[1mneural[0m[38;5;14m[1m [0m[38;5;14m[1mnetworks[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnotably,[39m[38;5;12m [39m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mMoE[0m[38;5;14m[1m [0m[38;5;14m[1mblocks[0m[38;5;12m [39m[38;5;12mthemselves.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12melements[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mnormalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mresidual[39m[38;5;12m [39m[38;5;12mconnections,[39m[38;5;12m [39m[38;5;12mestablishing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12madaptable[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mMoE-LLaVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgradually[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m
|
||
[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mexcluding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlatter[39m[38;5;12m [39m
|
||
[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12minitialization[39m[38;5;12m [39m[38;5;12mweights[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mAlignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mMoE-LLaVA[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mharmonious[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mlearnable[39m[38;5;12m [39m
|
||
[38;5;12mrouters[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12mallocate[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mapt[39m[38;5;12m [39m[38;5;12mexperts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msubsequently[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mblocks,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mthroughout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mphases—ranging[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mLLaVA-PT[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mHybrid-FT[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLaVA-FT[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMoE[39m[38;5;12m [39m[38;5;12mlayers—further[39m[38;5;12m [39m[38;5;12munderscore[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mdeployment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mprocessing.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mBLIVA: A Simple Multimodal LLM for Better Handling of Text-rich Visual Questions[0m
|
||
|
||
[38;5;12mBLIVA[39m[38;5;12m [39m[38;5;12maugments[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mInstructBLIP[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mAssistant,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mencoded[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext-rich[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontexts,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mexcelling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m
|
||
[38;5;12mquestions.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2308.09936v3-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2308.09936v3) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/mlpc-ucsd/bliva) [39m
|
||
[38;5;12mWenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mBLIVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mInstructBLIP,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mAssistant[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext-rich[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontexts.[39m[38;5;12m [39m[38;5;12mBLIVA's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcapture[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintricacies[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontent[39m
|
||
[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmay[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12moverlooked[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12mdecoding[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mmelding[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mInstructBLIP[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12mencoded[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mBLIVA[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtower,[39m[38;5;12m [39m[38;5;12mresponsible[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12minputs[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membeddings;[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mQ-former[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mrefines[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12membeddings;[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbridges[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdomains,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maccess[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mtapestry[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mBLIVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mstructured[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mscheme:[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mQuestion[39m[38;5;12m [39m[38;5;12mAnswering[39m[38;5;12m [39m[38;5;12m(VQA)[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mbegins[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12msucceeded[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mQ-former[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mremain[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprevent[39m[38;5;12m [39m[38;5;12mcatastrophic[39m[38;5;12m [39m[38;5;12mforgetting.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mBLIVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfinely[39m[38;5;12m [39m
|
||
[38;5;12mattuned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestions.[39m[38;5;12m [39m[38;5;12mBLIVA's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mstand[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlearned[39m[38;5;12m [39m[38;5;12mquery[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12massistant[39m[38;5;12m [39m[38;5;12mbranch[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m
|
||
[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mencoded[39m[38;5;12m [39m[38;5;12mpatch[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mconcatenating[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfeeding[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM,[39m[38;5;12m [39m[38;5;12mBLIVA[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m
|
||
[38;5;12mdemonstrated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12menhancement,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mYTTB-VQA[39m[38;5;12m [39m[38;5;12m(YouTube[39m[38;5;12m [39m[38;5;12mThumbnail[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mQuestion-Answer[39m[38;5;12m [39m[38;5;12mpairs)[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mshowcase[39m[38;5;12m [39m[38;5;12mBLIVA's[39m[38;5;12m [39m
|
||
[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mtext-rich[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12msuitability[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mapplications.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMobileVLM: A Fast, Strong and Open Vision Language Assistant for Mobile Devices[0m
|
||
|
||
[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12moffers[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmobile-optimized[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mViT-L/14[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mMobileLLaMA[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mLightweight[39m[38;5;12m [39m[38;5;12mDownsample[39m[38;5;12m [39m[38;5;12mProjector[39m[38;5;12m [39m[38;5;12m(LDP),[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12malignment[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconstraints[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mdevices.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2312.16886-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2312.16886) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/meituan-automl/mobilevlm) [39m
|
||
[38;5;12mXiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMobileVLM[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcompact[39m[38;5;12m [39m[38;5;12myet[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mdevices,[39m[38;5;12m [39m[38;5;12mdistinguishing[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mblend[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12medge[39m[38;5;12m [39m[38;5;12mcomputing[39m[38;5;12m [39m[38;5;12menvironments.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore,[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mViT-L/14[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m336x336,[39m[38;5;12m [39m[38;5;12mMobileLLaMA—a[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mdevices,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mLightweight[0m[38;5;14m[1m [0m[38;5;14m[1mDownsample[0m[38;5;14m[1m [0m[38;5;14m[1mProjector[0m[38;5;14m[1m [0m[38;5;14m[1m(LDP)[0m
|
||
[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbridges[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12moverhead.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12msynergy[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12malign[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12meffectively,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mwell-suited[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m
|
||
[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mresource[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparamount.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12munfolds[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthree[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mphases,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mcontributing[39m[38;5;12m [39m[38;5;12muniquely[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mdevelopment.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext-centric[39m[38;5;12m [39m
|
||
[38;5;12mRedPajama[39m[38;5;12m [39m[38;5;12mv1[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mlaying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msolid[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mfoundation.[39m[38;5;12m [39m[38;5;12mSubsequent[39m[38;5;12m [39m[38;5;12msupervised[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mmulti-turn[39m[38;5;12m [39m[38;5;12mdialogues[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mhumans[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mChatGPT,[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mconversational[39m[38;5;12m [39m[38;5;12mabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mequipping[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrespond[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mstimuli.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m
|
||
[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mmaking[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12minteractions[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12mplatforms.[39m[38;5;12m [39m[38;5;12mCentral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mMobileVLM's[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLightweight[39m[38;5;12m [39m[38;5;12mDownsample[39m[38;5;12m [39m[38;5;12mProjector[39m[38;5;12m [39m[38;5;12m(LDP),[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mefficient[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mmobile-friendly[39m[38;5;12m [39m[38;5;12moperations[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mdepth-wise[39m[38;5;12m [39m[38;5;12mconvolution,[39m[38;5;12m [39m[38;5;12mLDP[39m[38;5;12m [39m[38;5;12mmanages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdownsample[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmatch[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mdimensions,[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m
|
||
[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mminimizing[39m[38;5;12m [39m[38;5;12mcomputational[39m[38;5;12m [39m[38;5;12mdemands.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mmechanism,[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mconjunction[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mlevels[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12maccuracy[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresponsiveness[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmobile[39m[38;5;12m [39m[38;5;12menvironments.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthe[39m
|
||
[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcarefully[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mRedPajama[39m[38;5;12m [39m[38;5;12mv1[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodeling,[39m[38;5;12m [39m[38;5;12mMobileVLM[39m[38;5;12m [39m[38;5;12mshowcases[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnavigate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmobile-based[39m[38;5;12m [39m
|
||
[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mremarkable[39m[38;5;12m [39m[38;5;12mefficiency.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mFROZEN: Multimodal Few-Shot Learning with Frozen Language Models[0m
|
||
|
||
[38;5;12mFROZEN[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mpairing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained,[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12m(NF-ResNet-50)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mconverts[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprefix,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m
|
||
[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12maltering[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2106.13884-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2106.13884) [39m
|
||
[38;5;12mMaria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mFROZEN[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mPresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextending[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-existing[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdomain,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mtargeting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12melements[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12malter[39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mparameters.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;14m[1mNF-ResNet-50[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtranslate[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m
|
||
[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mautoregressive[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgiven[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12minnovation[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msystem's[39m[38;5;12m [39m[38;5;12mmodularity,[39m[38;5;12m [39m[38;5;12machieved[39m
|
||
[38;5;12mby[39m[38;5;12m [39m[38;5;12mkeeping[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mweights[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;14m[1monly[0m[38;5;14m[1m [0m[38;5;14m[1mupdating[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mvision[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage-caption[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtrain[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m
|
||
[38;5;12msimplifying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFROZEN[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprefix,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeparture[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconventional[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12mtypical[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mtuning.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m
|
||
[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mlinearly[39m[38;5;12m [39m[38;5;12mmapping[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreshaping[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder's[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12mmirroring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfunctionality[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext-based[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtuning.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madapt[39m
|
||
[38;5;12mmore[39m[38;5;12m [39m[38;5;12mfluidly[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcontextually[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12memployment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdynamic[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mprefix[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mfactor[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mFROZEN's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m
|
||
[38;5;12macross[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msettings[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12min-context[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12msolution[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mchallenge[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcentral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mFROZEN's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mvision[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;14m[1m [0m[38;5;14m[1mto[0m[38;5;14m[1m [0m[38;5;14m[1madeptly[0m[38;5;14m[1m [0m[38;5;14m[1mconvert[0m[38;5;14m[1m [0m[38;5;14m[1mimages[0m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mformat[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdual[39m[38;5;12m [39m[38;5;12mpurpose[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12massociated[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdescriptions,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12maccurate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcontextually[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mcaptions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtrainable[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mencapsulates[39m[38;5;12m [39m[38;5;12mFROZEN's[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mpathway[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mFlamingo: a Visual Language Model for Few-Shot Learning[0m
|
||
|
||
[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mpioneers[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver-based[39m[38;5;12m [39m[38;5;12mVLM[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver[39m[38;5;12m [39m[38;5;12mResampler[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mdense[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2204.14198v2-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2204.14198v2) [39m
|
||
[38;5;12mJean-Baptiste[39m[38;5;12m [39m[38;5;12mAlayrac,[39m[38;5;12m [39m[38;5;12mJeff[39m[38;5;12m [39m[38;5;12mDonahue,[39m[38;5;12m [39m[38;5;12mPauline[39m[38;5;12m [39m[38;5;12mLuc,[39m[38;5;12m [39m[38;5;12mAntoine[39m[38;5;12m [39m[38;5;12mMiech,[39m[38;5;12m [39m[38;5;12mIain[39m[38;5;12m [39m[38;5;12mBarr,[39m[38;5;12m [39m[38;5;12mYana[39m[38;5;12m [39m[38;5;12mHasson,[39m[38;5;12m [39m[38;5;12mKarel[39m[38;5;12m [39m[38;5;12mLenc,[39m[38;5;12m [39m[38;5;12mArthur[39m[38;5;12m [39m[38;5;12mMensch,[39m[38;5;12m [39m[38;5;12mKatie[39m[38;5;12m [39m[38;5;12mMillican,[39m[38;5;12m [39m[38;5;12mMalcolm[39m[38;5;12m [39m[38;5;12mReynolds,[39m[38;5;12m [39m[38;5;12mRoman[39m[38;5;12m [39m[38;5;12mRing,[39m[38;5;12m [39m[38;5;12mEliza[39m[38;5;12m [39m[38;5;12mRutherford,[39m[38;5;12m [39m[38;5;12mSerkan[39m[38;5;12m [39m[38;5;12mCabi,[39m[38;5;12m [39m[38;5;12mTengda[39m[38;5;12m [39m[38;5;12mHan,[39m[38;5;12m [39m[38;5;12mZhitao[39m[38;5;12m [39m[38;5;12mGong,[39m[38;5;12m [39m[38;5;12mSina[39m[38;5;12m [39m[38;5;12mSamangooei,[39m[38;5;12m [39m[38;5;12mMarianne[39m[38;5;12m [39m
|
||
[38;5;12mMonteiro,[39m[38;5;12m [39m[38;5;12mJacob[39m[38;5;12m [39m[38;5;12mMenick,[39m[38;5;12m [39m[38;5;12mSebastian[39m[38;5;12m [39m[38;5;12mBorgeaud,[39m[38;5;12m [39m[38;5;12mAndrew[39m[38;5;12m [39m[38;5;12mBrock,[39m[38;5;12m [39m[38;5;12mAida[39m[38;5;12m [39m[38;5;12mNematzadeh,[39m[38;5;12m [39m[38;5;12mSahand[39m[38;5;12m [39m[38;5;12mSharifzadeh,[39m[38;5;12m [39m[38;5;12mMikolaj[39m[38;5;12m [39m[38;5;12mBinkowski,[39m[38;5;12m [39m[38;5;12mRicardo[39m[38;5;12m [39m[38;5;12mBarreira,[39m[38;5;12m [39m[38;5;12mOriol[39m[38;5;12m [39m[38;5;12mVinyals,[39m[38;5;12m [39m[38;5;12mAndrew[39m[38;5;12m [39m[38;5;12mZisserman,[39m[38;5;12m [39m[38;5;12mKaren[39m[38;5;12m [39m[38;5;12mSimonyan[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mFlamingo[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModels[39m[38;5;12m [39m[38;5;12m(VLMs),[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12minterwoven[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12moutputs.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12madoption[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mPerceiver-based[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12madeptly[39m[38;5;12m [39m[38;5;12mmanages[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mchoice[39m[38;5;12m [39m
|
||
[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcomplex,[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mstreams[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtransforming[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mmaps[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mconcise[39m[38;5;12m [39m[38;5;12mnumber[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mPerceiver[0m[38;5;14m[1m [0m[38;5;14m[1mResampler[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mFurther[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;14m[1mgated[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mdense[0m[38;5;14m[1m [0m[38;5;14m[1m(GATED[0m[38;5;14m[1m [0m[38;5;14m[1mXATTN-DENSE)[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mconditioning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m
|
||
[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiverse,[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mculled[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mweb.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mcollectively[39m[38;5;12m [39m[38;5;12mcontribute[39m[38;5;12m [39m
|
||
[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mdistinctive[39m[38;5;12m [39m[38;5;12maspect[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mminimize[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweighted[39m[38;5;12m [39m[38;5;12msum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mper-dataset[39m[38;5;12m [39m[38;5;12mexpected[39m[38;5;12m [39m[38;5;12mnegative[39m[38;5;12m [39m[38;5;12mlog-likelihoods[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mgiven[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m
|
||
[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgradient[39m[38;5;12m [39m[38;5;12maccumulation[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcontexts.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mnamely[39m[38;5;12m [39m[38;5;12mMultiModal[39m[38;5;12m [39m[38;5;12mMassiveWeb[39m[38;5;12m [39m[38;5;12m(M3W),[39m[38;5;12m [39m[38;5;12mALIGN[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mLong[39m[38;5;12m [39m[38;5;12mText[39m[38;5;12m [39m[38;5;12m&[39m[38;5;12m [39m[38;5;12mImage[39m[38;5;12m [39m[38;5;12mPairs[39m[38;5;12m [39m[38;5;12m(LTIP),[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mVideo[39m[38;5;12m [39m[38;5;12m&[39m[38;5;12m [39m[38;5;12mText[39m[38;5;12m [39m[38;5;12mPairs[39m[38;5;12m [39m[38;5;12m(VTP),[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mpurpose.[39m[38;5;12m [39m[38;5;12mM3W[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mALIGN[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mLTIP[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVTP[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvideo-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12madeptness[39m[38;5;12m [39m
|
||
[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques,[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage-causal[39m[38;5;12m [39m[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmanage[39m[38;5;12m [39m[38;5;12mtext-to-image[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12meffectively,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mattend[39m[38;5;12m [39m[38;5;12mselectively[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m
|
||
[38;5;12mthat[39m[38;5;12m [39m[38;5;12mimmediately[39m[38;5;12m [39m[38;5;12mprecede[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgiven[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtoken[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msequence.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgated[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mlayers,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12memploy[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtanh-gating[39m[38;5;12m [39m[38;5;12mmechanism[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmerge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mresidual[39m[38;5;12m [39m[38;5;12mconnection.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12munderscoring[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbreadth[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mmechanisms,[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m
|
||
[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfew-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mscenarios.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mOpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models[0m
|
||
|
||
[38;5;12mOpenFlamingo,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mDeepMind's[39m[38;5;12m [39m[38;5;12mFlamingo,[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mViT-L/14[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoding[39m
|
||
[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2308.01390-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2308.01390) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/mlfoundations/open_flamingo) [39m
|
||
[38;5;12mAnas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt[39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mOpenFlamingo[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mleap[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12madaptation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mDeepMind's[39m[38;5;12m [39m[38;5;12mFlamingo[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m
|
||
[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12m(ViT-L/14)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m7-billion[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mPretrained[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(MPT-7B)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinctive[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minclusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mevery[39m[38;5;12m [39m[38;5;12mfourth[39m
|
||
[38;5;12mdecoder[39m[38;5;12m [39m[38;5;12mblock[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mremains[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mattentively[39m[38;5;12m [39m[38;5;12mmerge[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdecoding[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mOpenFlamingo[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mgrounded[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mharnesses[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mlandscape[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minternet.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mamalgam[39m[38;5;12m [39m[38;5;12mcomprising[39m[38;5;12m [39m[38;5;12mLAION-2B[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMultimodal[39m[38;5;12m [39m[38;5;12mversion[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCommon[39m[38;5;12m [39m[38;5;12mCrawl[39m[38;5;12m [39m[38;5;12m(C4)[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpair[39m[38;5;12m [39m[38;5;12msequences.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfacilitated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mDistributedDataParallel[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m64[39m[38;5;12m [39m[38;5;12mA100[39m[38;5;12m [39m[38;5;12m80GB[39m[38;5;12m [39m[38;5;12mGPUs,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mautomatic[39m[38;5;12m [39m[38;5;12mBF16[39m[38;5;12m [39m[38;5;12mmixed[39m[38;5;12m [39m[38;5;12mprecision[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12moptimized[39m[38;5;12m [39m
|
||
[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mphilosophy,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimportance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mkeeping[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mdynamically[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m
|
||
[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mmodules[0m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdecoding.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mselective[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mOpenFlamingo[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mfuse[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimproving[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcues.[39m[38;5;12m [39m
|
||
[38;5;12mFurthermore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mOpenFlamingo's[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual-textual[39m[38;5;12m [39m[38;5;12minteractions.[39m[38;5;12m [39m[38;5;12mTrained[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12msequences,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdemonstrates[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m
|
||
[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12minterpretation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontent,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mclassification.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mpurpose[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mexpression,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msubstantial[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mAI.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12minnovations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstrategies,[39m[38;5;12m [39m[38;5;12mOpenFlamingo[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdomain[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m
|
||
[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mIDEFICS[0m
|
||
|
||
[38;5;12mIDEFICS,[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12m80B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mFlamingo,[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12msequences,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mGPT-4[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFlamingo-based[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mweb-based[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mOBELICS[39m[38;5;12m [39m[38;5;12mdataset.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mModel[39m[38;5;14m[1m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m (https://huggingface.co/HuggingFaceM4/idefics-80b)[39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mIDEFICS[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12m"an[39m[38;5;12m [39m[38;5;12m80[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mparameters[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,"[39m[38;5;12m [39m[38;5;12mdistinguishing[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmimic[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12msubstantial[39m[38;5;12m [39m[38;5;12madvancements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mcrafted[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maccept[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreflect[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mIDEFICS[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundations[39m[38;5;12m [39m[38;5;12mlaid[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mGPT-4[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFlamingo,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mharmonious[39m[38;5;12m [39m[38;5;12mblend[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingular[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mframework.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mIDEFICS[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mefficiently,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mdevelopment,[39m[38;5;12m [39m[38;5;12mIDEFICS[39m[38;5;12m [39m[38;5;12mfaced[39m[38;5;12m [39m[38;5;12mchallenges[39m[38;5;12m [39m[38;5;12mrelated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mspikes,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mwere[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mmitigated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mrollback[39m[38;5;12m [39m[38;5;12mstrategies[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12madjustments[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrate.[39m[38;5;12m [39m[38;5;12mAn[39m[38;5;12m [39m[38;5;12mauxiliary[39m[38;5;12m [39m[38;5;12mz-loss[39m[38;5;12m [39m[38;5;12mwas[39m[38;5;12m [39m
|
||
[38;5;12mintroduced[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnormalize[39m[38;5;12m [39m[38;5;12mlogits,[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstability.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12madopts[39m[38;5;12m [39m[38;5;12mFlamingo's[39m[38;5;12m [39m[38;5;12mmethodological[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbackbones[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m
|
||
[38;5;12mAlthough[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdetails[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mremain[39m[38;5;12m [39m[38;5;12munder[39m[38;5;12m [39m[38;5;12mwraps,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minferred[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m[38;5;14m[1mmechanisms[0m[38;5;12m [39m[38;5;12makin[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mFlamingo's,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m
|
||
[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mOBELICS—a[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minterleaved[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdocuments—and[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mweb-scraped[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mIDEFICS[39m[38;5;12m [39m[38;5;12maims[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mOBELICS[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mparticular,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maugment[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12maccess[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlonger[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mcontexts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdocument[39m[38;5;12m [39m[38;5;12mtypes.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mIDEFICS's[39m[38;5;12m [39m[38;5;12mcommitment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mapplications,[39m[38;5;12m [39m
|
||
[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrich,[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12mcontent[39m[38;5;12m [39m[38;5;12mfound[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mweb[39m[38;5;12m [39m[38;5;12mdocuments[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mcapabilities.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mPaLI: A Jointly-Scaled Multilingual Language-Image Model[0m
|
||
|
||
[38;5;12mPaLI[39m[38;5;12m [39m[38;5;12mdistinguishes[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mjointly-scaled[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mViT-e[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mmT5-based[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m
|
||
[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2209.06794-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2209.06794) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/google-research/big_vision) [39m
|
||
[38;5;12mXi[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLucas[39m[38;5;12m [39m[38;5;12mBeyer,[39m[38;5;12m [39m[38;5;12mAlexander[39m[38;5;12m [39m[38;5;12mKolesnikov,[39m[38;5;12m [39m[38;5;12mJialin[39m[38;5;12m [39m[38;5;12mWu,[39m[38;5;12m [39m[38;5;12mPaul[39m[38;5;12m [39m[38;5;12mVoigtlaender,[39m[38;5;12m [39m[38;5;12mBasil[39m[38;5;12m [39m[38;5;12mMustafa,[39m[38;5;12m [39m[38;5;12mSebastian[39m[38;5;12m [39m[38;5;12mGoodman,[39m[38;5;12m [39m[38;5;12mIbrahim[39m[38;5;12m [39m[38;5;12mAlabdulmohsin,[39m[38;5;12m [39m[38;5;12mPiotr[39m[38;5;12m [39m[38;5;12mPadlewski,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mSalz,[39m[38;5;12m [39m[38;5;12mXi[39m[38;5;12m [39m[38;5;12mXiong,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mVlasic,[39m[38;5;12m [39m[38;5;12mFilip[39m[38;5;12m [39m[38;5;12mPavetic,[39m[38;5;12m [39m[38;5;12mKeran[39m[38;5;12m [39m[38;5;12mRong,[39m[38;5;12m [39m[38;5;12mTianli[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m
|
||
[38;5;12mKeysers,[39m[38;5;12m [39m[38;5;12mXiaohua[39m[38;5;12m [39m[38;5;12mZhai,[39m[38;5;12m [39m[38;5;12mRadu[39m[38;5;12m [39m[38;5;12mSoricut[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mPALI[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12m(language[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mvision)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12m(language[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtogether)[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12maccepts[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12msubsequently[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12moutput.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mingeniously[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mTransformer,[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mmT5[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mprocessed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mnamed[39m[38;5;12m [39m[38;5;12mViT-e.[39m[38;5;12m [39m[38;5;12mViT-e[39m[38;5;12m [39m[38;5;12mmarks[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m4[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mparameters,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mcheckpoints,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocesses.[39m[38;5;12m [39m
|
||
[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mmethodologies[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiverse,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12maimed[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m[38;5;12mLeveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mexpansive[39m[38;5;12m [39m[38;5;12mimage-language[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m
|
||
[38;5;12mWebLI,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mencompasses[39m[38;5;12m [39m[38;5;12m10[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtexts[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m100[39m[38;5;12m [39m[38;5;12mlanguages,[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtwo-phase[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregime.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlargest[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mvariant,[39m[38;5;12m [39m[38;5;12mPALI-17B.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m
|
||
[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mjust[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mPALI[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12madopting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m
|
||
[38;5;12mmodeling[39m[38;5;12m [39m[38;5;12minterface,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtreats[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtask-agnostic[39m[38;5;12m [39m[38;5;12mperspective,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mtransition[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mcross-attention[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mmechanism[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintegrated[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mTransformer.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mblending[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m
|
||
[38;5;12mWebLI,[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOCR[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mWebLI,[39m[38;5;12m [39m[38;5;12malong[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mothers[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVQ2A-CC3M[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mOpen[39m[38;5;12m [39m[38;5;12mImages,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menriches[39m[38;5;12m [39m[38;5;12mPALI's[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mequipping[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mproficiency.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12mspans[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mmultilingual[39m[38;5;12m [39m
|
||
[38;5;12msettings,[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12m(VQA),[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mPALI's[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mPaLI-3 Vision Language Models: Smaller, Faster, Stronger[0m
|
||
|
||
[38;5;12mPaLI-3[39m[38;5;12m [39m[38;5;12mpresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12myet[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastively[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12m2B[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m3B[39m[38;5;12m [39m[38;5;12mUL2[39m[38;5;12m [39m[38;5;12mTransformer,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m
|
||
[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrobustness.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2310.09199-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2310.09199) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/kyegomez/PALI3) [39m
|
||
[38;5;12mXi[39m[38;5;12m [39m[38;5;12mChen,[39m[38;5;12m [39m[38;5;12mXiao[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mLucas[39m[38;5;12m [39m[38;5;12mBeyer,[39m[38;5;12m [39m[38;5;12mAlexander[39m[38;5;12m [39m[38;5;12mKolesnikov,[39m[38;5;12m [39m[38;5;12mJialin[39m[38;5;12m [39m[38;5;12mWu,[39m[38;5;12m [39m[38;5;12mPaul[39m[38;5;12m [39m[38;5;12mVoigtlaender,[39m[38;5;12m [39m[38;5;12mBasil[39m[38;5;12m [39m[38;5;12mMustafa,[39m[38;5;12m [39m[38;5;12mSebastian[39m[38;5;12m [39m[38;5;12mGoodman,[39m[38;5;12m [39m[38;5;12mIbrahim[39m[38;5;12m [39m[38;5;12mAlabdulmohsin,[39m[38;5;12m [39m[38;5;12mPiotr[39m[38;5;12m [39m[38;5;12mPadlewski,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mSalz,[39m[38;5;12m [39m[38;5;12mXi[39m[38;5;12m [39m[38;5;12mXiong,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mVlasic,[39m[38;5;12m [39m[38;5;12mFilip[39m[38;5;12m [39m[38;5;12mPavetic,[39m[38;5;12m [39m[38;5;12mKeran[39m[38;5;12m [39m[38;5;12mRong,[39m[38;5;12m [39m[38;5;12mTianli[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m
|
||
[38;5;12mKeysers,[39m[38;5;12m [39m[38;5;12mXiaohua[39m[38;5;12m [39m[38;5;12mZhai,[39m[38;5;12m [39m[38;5;12mRadu[39m[38;5;12m [39m[38;5;12mSoricut[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mPaLI-3[0m[38;5;12m [39m[38;5;12m:Its[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastively[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12m2B[39m[38;5;12m [39m[38;5;14m[1mSigLIP[0m[38;5;14m[1m [0m[38;5;14m[1mvision[0m[38;5;14m[1m [0m[38;5;14m[1mmodel[0m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m3B[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mUL2[39m[38;5;12m [39m[38;5;12mTransformer,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPaLI-3[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m
|
||
[38;5;14m[1mcontrastive[0m[38;5;14m[1m [0m[38;5;14m[1mpretraining[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mscale[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12msubsequent[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mincrease[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mfurther.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mensure[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mPaLI-3[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m
|
||
[38;5;12mvisually-situated[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mlocalization,[39m[38;5;12m [39m[38;5;12msupported[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mWeb-scale[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mRefCOCO,[39m[38;5;12m [39m[38;5;12mWebLI,[39m[38;5;12m [39m[38;5;12mCC3M-35L,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcomponent[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPaLI-3[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m
|
||
[38;5;12mmanner,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mscalability,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrobustness.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mcomponent,[39m[38;5;12m [39m[38;5;12mwhich,[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m
|
||
[38;5;12mtext[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfull[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12membedded[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mUL2[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mframework,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12m(VQA).[39m[38;5;12m [39m[38;5;12mPaLI-3's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12mstarting[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12munimodal[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mweb.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoder-decoder[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisually-situated[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mincrease[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m
|
||
[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mFinally,[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mspecialization[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mPaLI-3[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mindividual[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mPaLM-E: An Embodied Multimodal Language Model[0m
|
||
|
||
[38;5;12mPaLM-E[39m[38;5;12m [39m[38;5;12minnovates[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12msensory[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12mreadings,[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mPaLM[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreflects[39m[38;5;12m [39m[38;5;12membodied[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mphysical[39m[38;5;12m [39m[38;5;12mworld.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2303.03378-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2303.03378) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://palm-e.github.io) [39m
|
||
[38;5;12mDanny[39m[38;5;12m [39m[38;5;12mDriess,[39m[38;5;12m [39m[38;5;12mFei[39m[38;5;12m [39m[38;5;12mXia,[39m[38;5;12m [39m[38;5;12mMehdi[39m[38;5;12m [39m[38;5;12mS.[39m[38;5;12m [39m[38;5;12mM.[39m[38;5;12m [39m[38;5;12mSajjadi,[39m[38;5;12m [39m[38;5;12mCorey[39m[38;5;12m [39m[38;5;12mLynch,[39m[38;5;12m [39m[38;5;12mAakanksha[39m[38;5;12m [39m[38;5;12mChowdhery,[39m[38;5;12m [39m[38;5;12mBrian[39m[38;5;12m [39m[38;5;12mIchter,[39m[38;5;12m [39m[38;5;12mAyzaan[39m[38;5;12m [39m[38;5;12mWahid,[39m[38;5;12m [39m[38;5;12mJonathan[39m[38;5;12m [39m[38;5;12mTompson,[39m[38;5;12m [39m[38;5;12mQuan[39m[38;5;12m [39m[38;5;12mVuong,[39m[38;5;12m [39m[38;5;12mTianhe[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mWenlong[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mYevgen[39m[38;5;12m [39m[38;5;12mChebotar,[39m[38;5;12m [39m[38;5;12mPierre[39m[38;5;12m [39m[38;5;12mSermanet,[39m[38;5;12m [39m[38;5;12mDaniel[39m[38;5;12m [39m[38;5;12mDuckworth,[39m[38;5;12m [39m[38;5;12mSergey[39m[38;5;12m [39m[38;5;12mLevine,[39m[38;5;12m [39m[38;5;12mVincent[39m[38;5;12m [39m
|
||
[38;5;12mVanhoucke,[39m[38;5;12m [39m[38;5;12mKarol[39m[38;5;12m [39m[38;5;12mHausman,[39m[38;5;12m [39m[38;5;12mMarc[39m[38;5;12m [39m[38;5;12mToussaint,[39m[38;5;12m [39m[38;5;12mKlaus[39m[38;5;12m [39m[38;5;12mGreff,[39m[38;5;12m [39m[38;5;12mAndy[39m[38;5;12m [39m[38;5;12mZeng,[39m[38;5;12m [39m[38;5;12mIgor[39m[38;5;12m [39m[38;5;12mMordatch,[39m[38;5;12m [39m[38;5;12mPete[39m[38;5;12m [39m[38;5;12mFlorence[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mPaLM-E[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12membodied[39m[38;5;12m [39m[38;5;12mobservations—ranging[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstate[39m[38;5;12m [39m[38;5;12mestimates[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12mmodalities—into[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(LLM)[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mgenerates[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mcompletions[39m[38;5;12m [39m[38;5;12mautoregressively,[39m[38;5;12m [39m[38;5;12mtaking[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12maccount.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mPaLM-E[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m
|
||
[38;5;12mPaLM[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mtransform[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1msequence[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mvectors[0m[38;5;12m [39m[38;5;12mcompatible[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mdimensions.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mcombination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m
|
||
[38;5;12msensor[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mcrafting[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msentences[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mprocesses.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mmethodologies[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mPaLM-E[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mend-to-end,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mcomposed[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mobservations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcross-entropy[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mfunction[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mnon-prefix[39m[38;5;12m [39m[38;5;12mtokens,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformers[39m[38;5;12m [39m[38;5;12m(ViTs)[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mextraction[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m
|
||
[38;5;12mfor[39m[38;5;12m [39m[38;5;12mflexibility[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12moptions[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfreezing[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mco-training[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvaried[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12msets.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mPaLM-E[39m[38;5;12m [39m[38;5;12mbenefits[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdepth[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecificity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mPaLM-E's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12moperation,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m
|
||
[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mreflect[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mblend[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12minput,[39m[38;5;12m [39m[38;5;12mmimicking[39m[38;5;12m [39m[38;5;12membodied[39m[38;5;12m [39m[38;5;12mreasoning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12msentences—interleaved[39m[38;5;12m [39m[38;5;12msequences[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msensor[39m[38;5;12m [39m[38;5;12mobservations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext—through[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;14m[1mself-attention[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12msimilar[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhow[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mhandles[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcohesive[39m[38;5;12m [39m[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mPaLM-E's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m
|
||
[38;5;12mvision-and-language[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mspecialized[39m[38;5;12m [39m[38;5;12mrobotics[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12membodied[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mbackground[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mPaLM-E[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mharness[39m[38;5;12m [39m[38;5;12mcross-domain[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mrobotics[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12malike.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models[0m
|
||
|
||
[38;5;12mMiniGPT-4[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mblends[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mQ-Former[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mfocused[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mquality.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2304.10592v2-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2304.10592v2) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/vision-cair/minigpt-4) [39m
|
||
[38;5;12mDeyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMiniGPT-4[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mpresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mmarries[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfrozen[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mLarge[39m[38;5;12m [39m[38;5;12mLanguage[39m[38;5;12m [39m[38;5;12mModel[39m[38;5;12m [39m[38;5;12m(LLM),[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mVicuna.[39m[38;5;12m [39m
|
||
[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mheart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mMiniGPT-4[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maligning[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mmodalities:[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1msingle[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mQ-Former[0m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mchoice[39m[38;5;12m [39m
|
||
[38;5;12munderscores[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcommitment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mefficiency,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mexisting,[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mMiniGPT-4[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbifurcated[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m
|
||
[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mstages,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msubsequent[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mreliability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnaturalness.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mMiniGPT-4[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12m20,000[39m[38;5;12m [39m[38;5;12msteps[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m256[39m
|
||
[38;5;12mon[39m[38;5;12m [39m[38;5;12m4[39m[38;5;12m [39m[38;5;12mA100[39m[38;5;12m [39m[38;5;12mGPUs,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcombined[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mConceptual[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLAION[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mestablishing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbasic[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mVicuna[39m[38;5;12m [39m
|
||
[38;5;12mLLM.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12msecond[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfinetuning,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m3,500[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdescriptions,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moutput,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mdetailed,[39m[38;5;12m [39m[38;5;12mreliable,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnaturally[39m[38;5;12m [39m[38;5;12mflowing[39m[38;5;12m [39m[38;5;12mtext.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMiniGPT-4's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mdual[39m[38;5;12m [39m[38;5;12mobjectives:[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12moutput[39m[38;5;12m [39m[38;5;12mnaturalness[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdetail.[39m[38;5;12m [39m[38;5;12mInitial[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mbasic[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m
|
||
[38;5;12melements,[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mserves[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mgenerating[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maccurate[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mdescriptions.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstaged[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m
|
||
[38;5;12mMiniGPT-4[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrefined[39m[38;5;12m [39m[38;5;12mbalance[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mproduction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-quality,[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12moutputs,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12mforward[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMiniGPT-v2: large language model as a unified interface for vision-language multi-task learning[0m
|
||
|
||
[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12macts[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mconnecting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mLLaMA-2-chat[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mlayer,[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m
|
||
[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexcelling[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2310.09478v3-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2310.09478v3) [39m
|
||
[38;5;12mJun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMiniGPT-v2[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minterface[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mbackbone[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mbackbone,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mkept[39m[38;5;12m [39m[38;5;12mstatic[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayer[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mmerges[39m[38;5;12m [39m[38;5;12mevery[39m[38;5;12m [39m[38;5;12mfour[39m[38;5;12m [39m[38;5;12mneighboring[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mone.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mconsolidated[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mprojected[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLaMA-2-chat,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12m7-billion[39m[38;5;12m [39m[38;5;12mparameter[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12m(448x448[39m[38;5;12m [39m[38;5;12mpixels).[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstructure[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m
|
||
[38;5;12mprocessing,[39m[38;5;12m [39m[38;5;12mcatering[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy,[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mthree-stage[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomprehensively[39m[38;5;12m [39m[38;5;12mcover[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macquisition[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12menhancement.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mexposed[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmix[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mweakly-labeled[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprogressively[39m[38;5;12m [39m[38;5;12mshifts[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhone[39m
|
||
[38;5;12min[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mimprovements.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfinal[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mrefine[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mresponse[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12minstructions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12midentifier[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m
|
||
[38;5;12mplays[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mreducing[39m[38;5;12m [39m[38;5;12mambiguity[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msharpening[39m[38;5;12m [39m[38;5;12mtask[39m[38;5;12m [39m[38;5;12mdistinction,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madeptly[39m[38;5;12m [39m[38;5;12mnavigate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomplexities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mTo[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moperational[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mMiniGPT-v2[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLAION,[39m[38;5;12m [39m[38;5;12mCC3M,[39m[38;5;12m [39m[38;5;12mSBU,[39m[38;5;12m [39m[38;5;12mGRIT-20M,[39m[38;5;12m [39m[38;5;12mCOCO[39m[38;5;12m [39m[38;5;12mcaption,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mothers,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfulfill[39m[38;5;12m [39m[38;5;12mdistinct[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess—from[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macquisition[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mimprovements[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m
|
||
[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mhandling.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12memployment[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mMiniGPT-v2's[39m[38;5;12m [39m[38;5;12mcapacity[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12massimilate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mapply[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mcontexts,[39m[38;5;12m [39m[38;5;12mpositioning[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mevolving[39m[38;5;12m [39m[38;5;12mlandscape[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-task[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12minterfaces.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mLLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents[0m
|
||
|
||
[38;5;12mLLaVA-Plus[39m[38;5;12m [39m[38;5;12mpioneers[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcreation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12magents[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mskill[39m[38;5;12m [39m[38;5;12mrepository,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12magent[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m
|
||
[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.05437-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.05437) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/LLaVA-VL/LLaVA-Plus-Codebase) [39m
|
||
[38;5;12mShilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mLLaVA-Plus[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mleap[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12magents,[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mpre-trained[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mskill[39m[38;5;12m [39m[38;5;12mrepository.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mLLaVA-Plus[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m
|
||
[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msystematically[39m[38;5;12m [39m[38;5;12mexpand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mactivate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcombine[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12mbased[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12musers'[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mLLaVA-Plus[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcentered[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mscheme[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mrepresenting[39m[38;5;12m [39m
|
||
[38;5;14m[1mmultimodal[0m[38;5;14m[1m [0m[38;5;14m[1minstruction-following[0m[38;5;14m[1m [0m[38;5;14m[1mdata[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12messential[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mend-to-end[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethods,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mutilize[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m
|
||
[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12mgeneration,[39m[38;5;12m [39m[38;5;12mexternal[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mretrieval,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcombinations.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mLLaVA-Plus[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mincorporate[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m
|
||
[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mexpanding[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mabilities[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mtools[39m[38;5;12m [39m[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdatasets—COCO,[39m[38;5;12m [39m[38;5;12mHierText,[39m[38;5;12m [39m[38;5;12mInfoSeek,[39m[38;5;12m [39m[38;5;12mJourneyDB,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mInstruct[39m[38;5;12m [39m[38;5;12mP2P—are[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mskills[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m
|
||
[38;5;12mas[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12msegmentation,[39m[38;5;12m [39m[38;5;12mcaptioning,[39m[38;5;12m [39m[38;5;12mOCR,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexternal[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mretrieval,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mskill[39m[38;5;12m [39m[38;5;12mcompositions.[39m[38;5;12m [39m[38;5;12mLLaVA-Plus[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilize[39m[38;5;12m [39m[38;5;12mraw[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12msignals[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mhuman-AI[39m[38;5;12m [39m
|
||
[38;5;12minteraction[39m[38;5;12m [39m[38;5;12msessions[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mperformance,[39m[38;5;12m [39m[38;5;12mplanning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreasoning.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcombining[39m[38;5;12m [39m[38;5;12muser[39m[38;5;12m [39m[38;5;12minputs,[39m[38;5;12m [39m[38;5;12mtool[39m[38;5;12m [39m[38;5;12mactivation[39m[38;5;12m [39m[38;5;12mprompts,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexecution[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m
|
||
[38;5;12mdialogue[39m[38;5;12m [39m[38;5;12mformat.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12minteraction[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12musers[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mboosts[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mBakLLaVA[0m
|
||
|
||
[38;5;12mBakLLaVA[39m[38;5;12m [39m[38;5;12melevates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mMistral[39m[38;5;12m [39m[38;5;12m7B[39m[38;5;12m [39m[38;5;12mbase[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mLLaVA[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mundergoing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmeticulous[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m
|
||
[38;5;12moutperforming[39m[38;5;12m [39m[38;5;12mcompetitors[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12m13B.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/skunkworksai/bakllava) [39m[38;5;14m[1m![0m[38;5;12mModel[39m[38;5;14m[1m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m (https://huggingface.co/SkunkworksAI/BakLLaVA-1)[39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mBakLLaVA[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mdistinguishing[39m[38;5;12m [39m[38;5;12mitself[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12marchitectural[39m[38;5;12m [39m[38;5;12menhancements[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mLLaVA.[39m[38;5;12m [39m[38;5;12mDeveloped[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m
|
||
[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mBakLLaVA[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mMistral[0m[38;5;14m[1m [0m[38;5;14m[1m7B[0m[38;5;12m [39m[38;5;12mbase,[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;14m[1mLLaVA[0m[38;5;14m[1m [0m[38;5;14m[1m1.5[0m[38;5;14m[1m [0m[38;5;14m[1marchitecture[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpush[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12mbeen[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12moutperform[39m[38;5;12m [39m[38;5;12mnotable[39m[38;5;12m [39m[38;5;12mpredecessors,[39m[38;5;12m [39m
|
||
[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mLlama[39m[38;5;12m [39m[38;5;12m2[39m[38;5;12m [39m[38;5;12m13B,[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munderlying[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12m.The[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mBakLLaVA[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mstage[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12m600K[39m[38;5;12m [39m
|
||
[38;5;12mfiltered[39m[38;5;12m [39m[38;5;12mCC3M[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mestablishing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mconnection.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcomplemented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mstage,[39m[38;5;12m [39m[38;5;12mwhere[39m[38;5;12m [39m[38;5;12m150K[39m[38;5;12m [39m[38;5;12mGPT-generated[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstructions[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mutilized,[39m[38;5;12m [39m[38;5;12msignifying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mtowards[39m[38;5;12m [39m
|
||
[38;5;12mencoding[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtogether.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmethodological[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12moptimizes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mconceptual[39m[38;5;12m [39m[38;5;12mcoverage,[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mBakLLaVA's[39m[38;5;12m [39m
|
||
[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mbenefits[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcompilation[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12m558K[39m[38;5;12m [39m[38;5;12mfiltered[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mLAION/CC/SBU,[39m[38;5;12m [39m[38;5;12mcaptioned[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mBLIP,[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12m158K[39m[38;5;12m [39m[38;5;12mGPT-generated[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12m450K[39m[38;5;12m [39m[38;5;12macademic-task-oriented[39m[38;5;12m [39m[38;5;12mVQA[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12m40K[39m[38;5;12m [39m[38;5;12mShareGPT[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mamong[39m[38;5;12m [39m[38;5;12mothers.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mconcept[39m[38;5;12m [39m[38;5;12mcoverage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreinforcing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtuning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m
|
||
[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mBakLLaVA's[39m[38;5;12m [39m[38;5;12mcommitment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mAI's[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mCogVLM: Visual Expert for Pretrained Language Models[0m
|
||
|
||
[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mmodule,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mQKV[39m[38;5;12m [39m[38;5;12mmatrix[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mMLP[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m
|
||
[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.03079v2-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.03079v2) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/thudm/cogvlm) [39m
|
||
[38;5;12mWeihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mCogVLM[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdeeply[39m[38;5;12m [39m[38;5;12mfuse[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m
|
||
[38;5;12mencoder,[39m[38;5;12m [39m[38;5;14m[1man[0m[38;5;14m[1m [0m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1madapter[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpretrained[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12makin[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mGPT,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexpert[39m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mcomponents[39m[38;5;12m [39m[38;5;12mwork[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtandem[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfacilitate[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcomprehensive,[39m[38;5;12m [39m[38;5;12mencompassing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mphases.[39m[38;5;12m [39m[38;5;12mDuring[39m[38;5;12m [39m[38;5;12mpretraining,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mundergoes[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mReferring[39m[38;5;12m [39m[38;5;12mExpression[39m[38;5;12m [39m[38;5;12mComprehension[39m[38;5;12m [39m[38;5;12m(REC)[39m[38;5;12m [39m[38;5;12macross[39m
|
||
[38;5;12man[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mcomprising[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m1.5[39m[38;5;12m [39m[38;5;12mbillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfeaturing[39m[38;5;12m [39m[38;5;12m40[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mphase[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12minstruction-supervised[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m
|
||
[38;5;12mdatasets,[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mCogVLM's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mvisual[0m[38;5;14m[1m [0m[38;5;14m[1mexpert[0m[38;5;14m[1m [0m[38;5;14m[1mmodule[0m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;14m[1mQKV[0m[38;5;14m[1m [0m[38;5;14m[1m(Query,[0m[38;5;14m[1m [0m[38;5;14m[1mKey,[0m[38;5;14m[1m [0m[38;5;14m[1mValue)[0m[38;5;14m[1m [0m[38;5;14m[1mmatrix[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;14m[1mMLP[0m[38;5;14m[1m [0m[38;5;14m[1m(Multilayer[0m[38;5;14m[1m [0m[38;5;14m[1mPerceptron)[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12machieve[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mvisual-language[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12malignment.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mseamless[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mlayers[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12moverall[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m
|
||
[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrefining[39m[38;5;12m [39m[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12minclude[39m[38;5;12m [39m[38;5;12mLAION-2B,[39m[38;5;12m [39m[38;5;12mCOYO-700M,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m40[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mVQAv2,[39m[38;5;12m [39m[38;5;12mOKVQA,[39m[38;5;12m [39m[38;5;12mTextVQA,[39m[38;5;12m [39m[38;5;12mOCRVQA,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mScienceQA.[39m[38;5;12m [39m
|
||
[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mmultiple[39m[38;5;12m [39m[38;5;12mpurposes,[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mpretraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcaptioning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mexpression[39m[38;5;12m [39m[38;5;12mcomprehension.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdatasets,[39m[38;5;12m [39m
|
||
[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpositioned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexcel[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mmarking[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mCogVLM2: Enhanced Vision-Language Models for Image and Video Understanding[0m
|
||
|
||
[38;5;12mCogVLM2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mopen-source[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpush[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msuccess[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mprevious[39m[38;5;12m [39m[38;5;12mCogVLM[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mfocusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mfusion,[39m[38;5;12m [39m
|
||
[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbroader[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mapplications.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2408.16500-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2408.16500)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/THUDM/CogVLM2)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mHuggingFace[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/🤗-Open%20In%20Spaces-blue.svg)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/collections/THUDM/cogvlm2-6645f36a29948b67dc4eef75)[39m[38;5;12m [39m
|
||
[38;5;12mWenyi[39m[38;5;12m [39m[38;5;12mHong,[39m[38;5;12m [39m[38;5;12mWeihan[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mMing[39m[38;5;12m [39m[38;5;12mDing,[39m[38;5;12m [39m[38;5;12mWenmeng[39m[38;5;12m [39m[38;5;12mYu,[39m[38;5;12m [39m[38;5;12mQingsong[39m[38;5;12m [39m[38;5;12mLv,[39m[38;5;12m [39m[38;5;12mYan[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mYean[39m[38;5;12m [39m[38;5;12mCheng,[39m[38;5;12m [39m[38;5;12mShiyu[39m[38;5;12m [39m[38;5;12mHuang,[39m[38;5;12m [39m[38;5;12mJunhui[39m[38;5;12m [39m[38;5;12mJi,[39m[38;5;12m [39m[38;5;12mZhao[39m[38;5;12m [39m[38;5;12mXue,[39m[38;5;12m [39m[38;5;12mLei[39m[38;5;12m [39m[38;5;12mZhao,[39m[38;5;12m [39m[38;5;12mZhuoyi[39m[38;5;12m [39m[38;5;12mYang,[39m[38;5;12m [39m[38;5;12mXiaotao[39m[38;5;12m [39m[38;5;12mGu,[39m[38;5;12m [39m[38;5;12mXiaohan[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mGuanyu[39m[38;5;12m [39m[38;5;12mFeng,[39m[38;5;12m [39m[38;5;12mDa[39m[38;5;12m [39m[38;5;12mYin,[39m[38;5;12m [39m[38;5;12mZihan[39m[38;5;12m [39m[38;5;12mWang,[39m[38;5;12m [39m[38;5;12mJi[39m[38;5;12m [39m[38;5;12mQi,[39m[38;5;12m [39m[38;5;12mXixuan[39m[38;5;12m [39m[38;5;12mSong,[39m[38;5;12m [39m[38;5;12mPeng[39m[38;5;12m [39m[38;5;12mZhang,[39m[38;5;12m [39m[38;5;12mDebing[39m[38;5;12m [39m[38;5;12mLiu,[39m[38;5;12m [39m
|
||
[38;5;12mBin[39m[38;5;12m [39m[38;5;12mXu,[39m[38;5;12m [39m[38;5;12mJuanzi[39m[38;5;12m [39m[38;5;12mLi,[39m[38;5;12m [39m[38;5;12mYuxiao[39m[38;5;12m [39m[38;5;12mDong,[39m[38;5;12m [39m[38;5;12mJie[39m[38;5;12m [39m[38;5;12mTang[39m[38;5;12m [39m
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
[38;5;12mCogVLM2[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpowerful[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12msequences,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mdownsampled[39m[38;5;12m [39m
|
||
[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mconvolutional[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mSwiGLU[39m[38;5;12m [39m[38;5;12mmodule.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12madapter[39m[38;5;12m [39m[38;5;12mefficiently[39m[38;5;12m [39m[38;5;12mbridges[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mpreserving[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthen[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mexpert[39m
|
||
[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mattention[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFFN[39m[38;5;12m [39m[38;5;12mmodules[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mdecoder.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mcompromising[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12minherent[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mNotably,[39m[38;5;12m [39m
|
||
[38;5;12mCogVLM2-Video[39m[38;5;12m [39m[38;5;12mextends[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mvideos,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mtimestamps[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mmulti-frame[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mtemporal[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mquestion-answering[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mCogVLM2[39m[38;5;12m [39m[38;5;12mfamily[39m[38;5;12m [39m[38;5;12mhas[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12mresults[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m
|
||
[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mMMBench,[39m[38;5;12m [39m[38;5;12mMM-Vet,[39m[38;5;12m [39m[38;5;12mTextVQA,[39m[38;5;12m [39m[38;5;12mMVBench,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVCG-Bench,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvideo[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
|
||
[38;5;14m[1m[4mFerret: Refer and Ground Anything Anywhere at Any Granularity[0m
|
||
|
||
[38;5;12mFERRET,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mexcels[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mreferencing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mrepresentation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprecisely[39m[38;5;12m [39m[38;5;12mpinpoint[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m
|
||
[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mregardless[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcomplexity.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2310.07704v1-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2310.07704v1) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/apple/ml-ferret) [39m
|
||
[38;5;12mHaoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mFERRET[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mpioneers[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mspatially[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12many[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mirrespective[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mshape[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mgranularity,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mopen-vocabulary[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mprecision.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mFERRET[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mhybrid[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mrepresentation,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mmarries[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdepict[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mregions.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m
|
||
[38;5;12mpinpointing[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mlocations[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddressing[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mabstract,[39m[38;5;12m [39m[38;5;12mshapeless[39m[38;5;12m [39m[38;5;12mareas[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFERRET's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mtasked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mderiving[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mspatial-aware[0m[38;5;14m[1m [0m[38;5;14m[1mvisual[0m[38;5;14m[1m [0m[38;5;14m[1msampler[0m[38;5;12m [39m
|
||
[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextract[39m[38;5;12m [39m[38;5;12mregional[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mimage,[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mfeatures.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mintricate[39m[38;5;12m [39m[38;5;12msetup[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mrefers[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m
|
||
[38;5;12melements[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12munprecedented[39m[38;5;12m [39m[38;5;12maccuracy.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFERRET[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mconducted[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mGRIT[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12m1.1[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12msamples[39m[38;5;12m [39m[38;5;12mimbued[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mhierarchical[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mknowledge.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mspatial-aware[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12msampling[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcater[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mshapes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdensities[39m[38;5;12m [39m[38;5;12mfound[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msimultaneous[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mobjects[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages.FERRET's[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mparticularly[39m
|
||
[38;5;12mnoteworthy.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mblending[39m[38;5;12m [39m[38;5;12mdiscrete[39m[38;5;12m [39m[38;5;12mcoordinates[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mcontinuous[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mfeatures,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfreely[39m[38;5;12m [39m[38;5;12mformed[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mground[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12moutputs[39m[38;5;12m [39m[38;5;12maccurately.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12msupported[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mportfolio,[39m[38;5;12m [39m
|
||
[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mGRIT[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mannotations,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mRefCOCOs,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFlickr30k[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection,[39m[38;5;12m [39m[38;5;12mphrase[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mevaluating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mproficiency[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounding.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mmethodologies,[39m[38;5;12m [39m
|
||
[38;5;12mFERRET[39m[38;5;12m [39m[38;5;12madvances[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mreasoning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mcontexts.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mFuyu-8B: A Multimodal Architecture for AI Agents[0m
|
||
|
||
[38;5;12mFuyu-8B[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12magents[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mprojecting[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mtransformer,[39m[38;5;12m [39m[38;5;12msimplifying[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtreating[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12muniformly,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m
|
||
[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mdespite[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mstraightforward[39m[38;5;12m [39m[38;5;12mdesign.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12mLink[39m[38;5;14m[1m (https://img.shields.io/badge/https%3A%2F%2Fwww.adept.ai%2Fblog%2Ffuyu-8b?style=flat&label=Fuyu%208B[0m
|
||
[38;5;12m)[39m[38;5;14m[1m (https://www.adept.ai/blog/fuyu-8b) [0m[38;5;12m![39m[38;5;14m[1mModel[0m[38;5;12m (https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[39m[38;5;14m[1m (https://huggingface.co/adept/fuyu-8b) [0m
|
||
[38;5;12mRohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar[39m
|
||
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mFuyu-8B[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mstreamlined[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdigital[39m[38;5;12m [39m[38;5;12magents,[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mFuyu-8B's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdecoder-only[39m[38;5;12m [39m[38;5;12mtransformer,[39m[38;5;12m [39m[38;5;12ma[39m
|
||
[38;5;12mdeparture[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mrely[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoders.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdirect[39m[38;5;12m [39m[38;5;12mprojection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtransformer's[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mFuyu-8B[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12many[39m[38;5;12m [39m
|
||
[38;5;12mresolution[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mresolution-specific[39m[38;5;12m [39m[38;5;12mmechanisms.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12msimplicity[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mdoes[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mlie[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12melimination[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mcross-attention[39m[38;5;12m [39m[38;5;12mmechanisms[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12madapters,[39m[38;5;12m [39m[38;5;12mstreamlining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mprocesses.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mterms[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mtechniques,[39m[38;5;12m [39m[38;5;12mFuyu-8B[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mtreating[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mpar[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minception[39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mpipeline.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mdoes[39m[38;5;12m [39m[38;5;12maway[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12msimplifying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msupport[39m[38;5;12m [39m[38;5;12marbitrary[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mperform[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12madvantageous[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minteraction.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mFuyu-8B's[39m[38;5;12m [39m[38;5;12mdevelopment,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mVQAv2,[39m[38;5;12m [39m[38;5;12mOKVQA,[39m[38;5;12m [39m[38;5;12mCOCO[39m[38;5;12m [39m[38;5;12mCaptions,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mAI2D,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mbenchmarking[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12magainst[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcaption[39m[38;5;12m [39m[38;5;12mgeneration.[39m[38;5;12m [39m[38;5;12mDespite[39m[38;5;12m [39m[38;5;12mFuyu-8B's[39m[38;5;12m [39m[38;5;12mprimary[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mdigital[39m[38;5;12m [39m[38;5;12magents,[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m
|
||
[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mevaluation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mbroader[39m[38;5;12m [39m[38;5;12mcontexts[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minteraction.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmethodological[39m[38;5;12m [39m[38;5;12msimplicity,[39m[38;5;12m [39m[38;5;12mFuyu-8B[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mdirection[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mAI[39m[38;5;12m [39m[38;5;12magents[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msophisticated[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mreasoning.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mOtterHD: A High-Resolution Multi-modality Model[0m
|
||
|
||
[38;5;12mOtterHD-8B,[39m[38;5;12m [39m[38;5;12minspired[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mFuyu-8B,[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12m(up[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m1024x1024[39m[38;5;12m [39m[38;5;12mpixels)[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12meliminating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m
|
||
[38;5;12mprecise[39m[38;5;12m [39m[38;5;12minterpretation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minstructions.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m [0m[38;5;14m[1m(https://img.shields.io/badge/arXiv-2311.04219v1-b31b1b.svg?style=flat-square)[0m[38;5;12m [39m[38;5;12m(https://arxiv.org/abs/2311.04219v1)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m [0m[38;5;14m[1m(https://badges.aleen42.com/src/github.svg)[0m[38;5;12m [39m[38;5;12m(https://github.com/luodian/otter)[39m[38;5;12m [39m[38;5;14m[1m![0m[38;5;12mGradio[39m[38;5;14m[1m [0m
|
||
[38;5;14m[1m(https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)[0m[38;5;12m [39m[38;5;12m(https://huggingface.co/spaces/Otter-AI/OtterHD-Demo)[39m[38;5;12m [39m
|
||
[38;5;12mBo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu[39m
|
||
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mOtterHD-8B[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mevolutionary[39m[38;5;12m [39m[38;5;12mstep[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmulti-modality[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mdesign,[39m[38;5;12m [39m[38;5;12mbuilding[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mFuyu-8B[0m[38;5;14m[1m [0m[38;5;14m[1marchitecture[0m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mexceptional[39m[38;5;12m [39m[38;5;12mprecision.[39m[38;5;12m [39m[38;5;12mUnlike[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mlimited[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m
|
||
[38;5;12mfixed-size[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mequipped[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhandle[39m[38;5;12m [39m[38;5;12mflexible[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mdimensions,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12minference[39m[38;5;12m [39m[38;5;12mrequirements.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m
|
||
[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12m1024x1024[39m[38;5;12m [39m[38;5;12mpixels.[39m[38;5;12m [39m[38;5;12mInstruction[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m
|
||
[38;5;12mtowards[39m[38;5;12m [39m[38;5;12maccommodating[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mresolutions,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mmixture[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLLaVA-Instruct,[39m[38;5;12m [39m[38;5;12mVQAv2,[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mOKVQA,[39m[38;5;12m [39m[38;5;12mOCRVQA,[39m[38;5;12m [39m[38;5;12mA-OKVQA,[39m[38;5;12m [39m[38;5;12mCOCO-GOI,[39m[38;5;12m [39m[38;5;12mCOCO-Caption,[39m[38;5;12m [39m[38;5;12mTextQA,[39m[38;5;12m [39m[38;5;12mRefCOCO,[39m[38;5;12m [39m[38;5;12mCOCO-ITM,[39m[38;5;12m [39m[38;5;12mImageNet,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mLLaVA-RLHF.[39m[38;5;12m [39m
|
||
[38;5;12mThis[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mFlashAttention-2[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mother[39m[38;5;12m [39m[38;5;12mfused[39m[38;5;12m [39m[38;5;12moperators[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12moptimization,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mPyTorch[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mHuggingFace[39m[38;5;12m [39m[38;5;12mtransformers.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdirect[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpixel-level[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mfacilitated[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mposition[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m
|
||
[38;5;12menables[39m[38;5;12m [39m[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgenerate[39m[38;5;12m [39m[38;5;12mresponses[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minstructions[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mconventional[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12munderscore[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mbroad[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering,[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mrecognition,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext-image[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mareas.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mpatches[39m[38;5;12m [39m[38;5;12malongside[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minstructions,[39m[38;5;12m [39m
|
||
[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12meschews[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mmethods,[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minterpret[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrespond[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12mmarks[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvancement[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m
|
||
[38;5;12moverall[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minteract[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mpositioning[39m[38;5;12m [39m[38;5;12mOtterHD-8B[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnotable[39m[38;5;12m [39m[38;5;12mdevelopment[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modality[39m[38;5;12m [39m[38;5;12mmodels.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models[0m
|
||
|
||
[38;5;12mSPHINX[39m[38;5;12m [39m[38;5;12mpushes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mboundaries[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mLLMs[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mjointly[39m[38;5;12m [39m[38;5;12mmixing[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mweights,[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12munfreezes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12m(LLaMA-2)[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvariety[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2311.07575v1-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2311.07575v1) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/alpha-vllm/)[39m
|
||
[38;5;12mZiyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mSPHINX[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mstands[39m[38;5;12m [39m[38;5;12mout[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12m(MLLM)[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1mjoint[0m[38;5;14m[1m [0m[38;5;14m[1mmixing[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mmodel[0m[38;5;14m[1m [0m[38;5;14m[1mweights[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12munfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mfoster[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12meffective[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12mlearning.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mSPHINX[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mbuilt[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mfoundation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcombines[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mencoders,[39m[38;5;12m [39m
|
||
[38;5;14m[1mtwo[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mlayers[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mLLaMA-2[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mbackbone.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12madopts[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtwo-stage[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mparadigm[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mfollowed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12maimed[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction-following[39m[38;5;12m [39m
|
||
[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodologies,[39m[38;5;12m [39m[38;5;12mSPHINX[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12memphasizes[39m[38;5;12m [39m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mjoint[0m[38;5;14m[1m [0m[38;5;14m[1mmixing[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mmodel[0m[38;5;14m[1m [0m[38;5;14m[1mweights[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mtuning[39m[38;5;12m [39m[38;5;12mtasks,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mcross-modal[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macquisition.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m
|
||
[38;5;12mcomplemented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mregimen[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mreal-world[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msynthetic[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minstruction[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mintroduces[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m
|
||
[38;5;12mhigh-resolution[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mmixed[39m[38;5;12m [39m[38;5;12mscales[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msub-images[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maccommodate[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12minputs.[39m[38;5;12m [39m[38;5;12mMoreover,[39m[38;5;12m [39m[38;5;12mSPHINX[39m[38;5;12m [39m[38;5;12machieves[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12membeddings,[39m[38;5;12m [39m[38;5;12munfreezing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLLM[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mweight-mixing[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mbridges[39m[38;5;12m [39m[38;5;12mdomain-specific[39m[38;5;12m [39m[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12marchitectures[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mparadigms.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mSPHINX,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mLAION-400M,[39m[38;5;12m [39m[38;5;12mLAION-COCO,[39m[38;5;12m [39m[38;5;12mRefinedWeb,[39m[38;5;12m [39m[38;5;12mVQAV2,[39m[38;5;12m [39m[38;5;12mGQA,[39m[38;5;12m [39m[38;5;12mOKVQA,[39m[38;5;12m [39m
|
||
[38;5;12mA-OKVQA,[39m[38;5;12m [39m[38;5;12mOCRVQA,[39m[38;5;12m [39m[38;5;12mTextCaps,[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mLVIS,[39m[38;5;12m [39m[38;5;12mRefCOCO,[39m[38;5;12m [39m[38;5;12mVG,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mFlickr30k,[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmultifaceted[39m[38;5;12m [39m[38;5;12mpurpose.[39m[38;5;12m [39m[38;5;12mThey[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12malignment,[39m[38;5;12m [39m[38;5;12mlanguage-only[39m[38;5;12m [39m[38;5;12mtuning,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12maddressing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mquestion[39m[38;5;12m [39m[38;5;12manswering[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhuman[39m[38;5;12m [39m[38;5;12mpose[39m[38;5;12m [39m[38;5;12mestimation[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mdescriptions[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mregions.[39m[38;5;12m [39m[38;5;12mSPHINX,[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmeticulous[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m
|
||
[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mbenchmark[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmulti-modal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mintegration.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mCLIP: Contrastive Language-Image Pre-training[0m
|
||
|
||
[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mseparate[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmassive[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m400[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpredict[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mrelevant[39m[38;5;12m [39m[38;5;12mcaptions[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mimpressive[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m
|
||
[38;5;12mto[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2103.00020-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2103.00020) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/openai/CLIP) [39m
|
||
[38;5;12mAlec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mCLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mrepresents[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mgroundbreaking[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mbridge[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mgap[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12msupervision.[39m[38;5;12m [39m[38;5;12mIts[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mpredict[39m[38;5;12m [39m[38;5;14m[1mthe[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mmost[0m[38;5;14m[1m [0m[38;5;14m[1mfitting[0m[38;5;14m[1m [0m[38;5;14m[1mcaptions[0m[38;5;14m[1m [0m[38;5;14m[1mfor[0m[38;5;14m[1m [0m[38;5;14m[1mgiven[0m[38;5;14m[1m [0m[38;5;14m[1mimages[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mstems[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m400[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mstate-of-the-art[39m[38;5;12m [39m[38;5;12m(SOTA)[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mapply[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m
|
||
[38;5;12mknowledge[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdownstream[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtask-specific[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtwo[39m[38;5;12m [39m[38;5;12mprimary[39m[38;5;12m [39m[38;5;12mcomponents:[39m[38;5;12m [39m[38;5;14m[1man[0m[38;5;14m[1m [0m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mtext[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mencoders[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m
|
||
[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mapproach,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mobjective[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mseeks[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaximize[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcosine[39m[38;5;12m [39m[38;5;12msimilarity[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mcorrect[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12mminimizing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mincorrect[39m[38;5;12m [39m[38;5;12mones.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12machieved[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1msymmetric[0m[38;5;14m[1m [0m[38;5;14m[1mcross-entropy[0m[38;5;14m[1m [0m[38;5;14m[1mloss[0m[38;5;14m[1m [0m[38;5;14m[1mover[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1msimilarity[0m[38;5;14m[1m [0m[38;5;14m[1mscores[0m[38;5;14m[1m [0m[38;5;14m[1mbetween[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1membeddings[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mimages[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mtexts[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mlink[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mconcepts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mlinguistic[39m[38;5;12m [39m[38;5;12mdescriptions.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mgeneralize[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m
|
||
[38;5;12mis[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12menhanced[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mutilizes.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mcovering[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mconcepts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12msupervision,[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mrepresentations[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mhighly[39m[38;5;12m [39m
|
||
[38;5;12mtransferable[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdomains.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcustom[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m400[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12minternet,[39m[38;5;12m [39m[38;5;12mplays[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mnecessary[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m
|
||
[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12meffectively.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12minnovations,[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mtransferable[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpower[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mversatile[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mMetaCLIP: Demystifying CLIP Data[0m
|
||
|
||
[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12mrefines[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcuration[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12malgorithms[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mCLIP-derived[39m[38;5;12m [39m[38;5;12mmetadata[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcreate[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12msources[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mCommonCrawl,[39m[38;5;12m [39m[38;5;12mresulting[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimproved[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mdataset.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2309.16671-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2309.16671) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/facebookresearch/MetaCLIP) [39m
|
||
[38;5;12mHu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mMetaCLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mRepresents[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcuration[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12mtargeting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;14m[1menhancement[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mtraining[0m[38;5;14m[1m [0m[38;5;14m[1mdatasets[0m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mmetadata[39m[38;5;12m [39m[38;5;12mutilization[39m[38;5;12m [39m[38;5;12mderived[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12mconcepts.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msift[39m[38;5;12m [39m
|
||
[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mraw[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mpools,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCommonCrawl[39m[38;5;12m [39m[38;5;12mdataset,[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcurate[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mhigh-quality,[39m[38;5;12m [39m[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12msubset[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m[38;5;12mbetters[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mmetrics[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mmodels.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12messence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincorporates[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcuration[39m[38;5;12m [39m[38;5;12malgorithms,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12madept[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mleveraging[39m[38;5;12m [39m[38;5;12mmetadata[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpurpose[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mbalancing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menriching[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mterms[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiversity.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mstructured[39m[38;5;12m [39m[38;5;12maround[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;14m[1mdata[0m[38;5;14m[1m [0m[38;5;14m[1mcuration[0m[38;5;14m[1m [0m[38;5;14m[1malgorithms[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpivotal[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12midentifying[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12massembling[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12mcollection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m400[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12minitially[39m[38;5;12m [39m[38;5;12msourced[39m
|
||
[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mCommonCrawl.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12minstrumental[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mMetaCLIP's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdemonstrate[39m[38;5;12m [39m[38;5;12msuperior[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mbenchmarks,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mImageNet[39m[38;5;12m [39m[38;5;12mclassification,[39m[38;5;12m [39m[38;5;12mwhen[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mcurated[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mmethodologies.[39m[38;5;12m [39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethods[39m[38;5;12m [39m[38;5;12memployed[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mMetaCLIP,[39m[38;5;12m [39m[38;5;12mtherefore,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12mjust[39m[38;5;12m [39m[38;5;12mabout[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mabout[39m[38;5;12m [39m[38;5;12mintelligently[39m[38;5;12m [39m[38;5;12mselecting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mmost[39m[38;5;12m [39m[38;5;12mbeneficial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mrepresentative,[39m[38;5;12m [39m[38;5;12mdiverse,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mquality.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mpurpose[39m[38;5;12m [39m[38;5;12mbehind[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mCommonCrawl[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12mframework[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12maddress[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12movercome[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlimitations[39m[38;5;12m [39m[38;5;12mobserved[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mdataset.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mcurating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m
|
||
[38;5;12mbalanced[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mhigh-quality[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12m400[39m[38;5;12m [39m[38;5;12mmillion[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfield[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcuration.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12msignificantly[39m[38;5;12m [39m
|
||
[38;5;12mimprove[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mbenchmarks[39m[38;5;12m [39m[38;5;12mcompared[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpredecessor,[39m[38;5;12m [39m[38;5;12mhighlighting[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimportance[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mquality[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mdiversity[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12machieving[39m[38;5;12m [39m[38;5;12mhigh[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mcuration,[39m[38;5;12m [39m
|
||
[38;5;12mMetaCLIP[39m[38;5;12m [39m[38;5;12moffers[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mpromising[39m[38;5;12m [39m[38;5;12mavenue[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mmachine[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mapplications[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mrobust[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mclassification.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mAlpha-CLIP: A CLIP Model Focusing on Wherever You Want[0m
|
||
|
||
[38;5;12mAlpha-CLIP[39m[38;5;12m [39m[38;5;12mbuilds[39m[38;5;12m [39m[38;5;12mupon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mawareness[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12maddition[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12malpha[39m[38;5;12m [39m[38;5;12mchannel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mencoder,[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmillions[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mRGBA[39m[38;5;12m [39m[38;5;12mregion-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mcontrol[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12memphasis[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12munderstanding.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-22312.03818-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2312.03818) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/SunzeY/AlphaCLIP) [39m
|
||
[38;5;12mZeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;14m[1mAlpha-CLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12menhancement[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moriginal[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mmodel,[39m[38;5;12m [39m[38;5;12mincorporating[39m[38;5;12m [39m[38;5;12mregion[39m[38;5;12m [39m[38;5;12mawareness[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mrepertoire[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mmillions[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mRGBA[39m[38;5;12m [39m[38;5;12mregion-text[39m[38;5;12m [39m[38;5;12mpairs,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmaintain[39m[38;5;12m [39m[38;5;12mCLIP's[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m
|
||
[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mprowess[39m[38;5;12m [39m[38;5;12mwhile[39m[38;5;12m [39m[38;5;12moffering[39m[38;5;12m [39m[38;5;12mprecise[39m[38;5;12m [39m[38;5;12mcontrol[39m[38;5;12m [39m[38;5;12mover[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12memphasis[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mcontent.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mintegrating[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;14m[1malpha[0m[38;5;14m[1m [0m[38;5;14m[1mchannel[0m[38;5;14m[1m [0m[38;5;14m[1minto[0m[38;5;14m[1m [0m[38;5;14m[1mthe[0m[38;5;14m[1m [0m[38;5;14m[1mCLIP[0m[38;5;14m[1m [0m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mencoder[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mAlpha-CLIP[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mdetailed[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mregion-specific[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m
|
||
[38;5;12mmodifying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfoundational[39m[38;5;12m [39m[38;5;12mCLIP[39m[38;5;12m [39m[38;5;12mweights,[39m[38;5;12m [39m[38;5;12mthus[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnuanced[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mrespects[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mdynamics[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mAlpha-CLIP[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mpipeline[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mproduce[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvast[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mRGBA-region[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12minvolves[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcreation[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mequipped[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mforeground[39m[38;5;12m [39m[38;5;12malpha[39m[38;5;12m [39m[38;5;12mchannels[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mcorresponding[39m
|
||
[38;5;12mreferring[39m[38;5;12m [39m[38;5;12mexpressions[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mregions.[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mfine-tuning[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12madditional[39m[38;5;12m [39m[38;5;12malpha[39m[38;5;12m [39m[38;5;12mchannel[39m[38;5;12m [39m[38;5;12minput[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12munderpins[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mperform[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mheightened[39m[38;5;12m [39m[38;5;12mspecificity[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m
|
||
[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mmodels,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mextend[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12m2D[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12m3D[39m[38;5;12m [39m[38;5;12mgeneration[39m[38;5;12m [39m[38;5;12mdomains,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mAlpha-CLIP's[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbroad[39m[38;5;12m [39m[38;5;12mapplicability.[39m[38;5;12m [39m[38;5;12mDatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mLAION-400M,[39m[38;5;12m [39m[38;5;12mLAION-5B,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mGRIT[39m[38;5;12m [39m[38;5;12mplay[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m
|
||
[38;5;12mrole[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mAlpha-CLIP,[39m[38;5;12m [39m[38;5;12mproviding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mspectrum[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12minitial[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mfine-grained[39m[38;5;12m [39m[38;5;12mmask-level[39m[38;5;12m [39m[38;5;12mlabels[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mlocal[39m[38;5;12m [39m[38;5;12mperception[39m[38;5;12m [39m[38;5;12mcapabilities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mchoice[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mensures[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mAlpha-CLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m
|
||
[38;5;12mwell-equipped[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mgeneral[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mcapable[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnuanced,[39m[38;5;12m [39m[38;5;12mregion-specific[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12munderstanding,[39m[38;5;12m [39m[38;5;12msetting[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mintersection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mvision.[39m
|
||
[38;5;12m [39m
|
||
|
||
[38;5;14m[1m[4mGLIP: Grounded Language-Image Pre-training[0m
|
||
|
||
[38;5;12mGLIP[39m[38;5;12m [39m[38;5;12mrevolutionizes[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12munifying[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mphrase[39m[38;5;12m [39m[38;5;12mgrounding,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12munderstand[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexecute[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mobject-level[39m[38;5;12m [39m[38;5;12mprecision[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mawareness[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2112.03857-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2112.03857) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/microsoft/GLIP) [39m
|
||
[38;5;12mLiunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mGLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12minnovatively[39m[38;5;12m [39m[38;5;12munifies[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mphrase[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mredefining[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mphrase[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mchallenge.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m[38;5;12mreformation[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mexploit[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpaired[39m
|
||
[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mequipping[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcomprehend[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mexecute[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mrequire[39m[38;5;12m [39m[38;5;12mobject-level[39m[38;5;12m [39m[38;5;12mprecision,[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mawareness,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12msemantically[39m[38;5;12m [39m[38;5;12mrich[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mrepresentations.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mcore,[39m[38;5;12m [39m[38;5;12mGLIP's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdesigned[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m
|
||
[38;5;12mdeeply[39m[38;5;12m [39m[38;5;12mintegrate[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12munderstanding[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mscenes[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mconjunction[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mprompts.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mGLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcomposed[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mseveral[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m
|
||
[38;5;12meither[39m[38;5;12m [39m[38;5;12mbe[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mConvolutional[39m[38;5;12m [39m[38;5;12mNeural[39m[38;5;12m [39m[38;5;12mNetwork[39m[38;5;12m [39m[38;5;12m(CNN)[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mTransformer,[39m[38;5;12m [39m[38;5;12mtasked[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mextracting[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mor[39m[38;5;12m [39m[38;5;12mbounding[39m[38;5;12m [39m[38;5;12mboxes[39m[38;5;12m [39m[38;5;12mwithin[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mdedicated[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mtext[39m[38;5;12m [39m[38;5;12mprompts[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mprediction[39m[38;5;12m [39m[38;5;12mheads[39m[38;5;12m [39m[38;5;12m(box[39m[38;5;12m [39m
|
||
[38;5;12mclassifier[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mbox[39m[38;5;12m [39m[38;5;12mregressor)[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12musing[39m[38;5;12m [39m[38;5;14m[1mclassification[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mlocalization[0m[38;5;14m[1m [0m[38;5;14m[1mloss[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mdistinctive[39m[38;5;12m [39m[38;5;12mfeature[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mGLIP[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m[38;5;12mfusion[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mspecifically[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mlatter[39m[38;5;12m [39m[38;5;12mstages[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mencoding,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mmerges[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m
|
||
[38;5;12mtextual[39m[38;5;12m [39m[38;5;12minformation[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mcomprehensively[39m[38;5;12m [39m[38;5;12mthan[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mmethods.[39m[38;5;12m [39m[38;5;12mGLIP's[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12memploying[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munified[39m[38;5;12m [39m[38;5;12mformulation[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mamalgamates[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingular[39m[38;5;12m [39m[38;5;12mworkflow.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m
|
||
[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mtrained[39m[38;5;12m [39m[38;5;12mend-to-end,[39m[38;5;12m [39m[38;5;12moptimizing[39m[38;5;12m [39m[38;5;12mlosses[39m[38;5;12m [39m[38;5;12mdefined[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;14m[1mboth[0m[38;5;14m[1m [0m[38;5;14m[1mdetection[0m[38;5;12m [39m[38;5;12m(focusing[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlocalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mclassification)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mgrounding[0m[38;5;12m [39m[38;5;12m(centering[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12malignment[39m[38;5;12m [39m[38;5;12mscores[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mregions[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mcorresponding[39m[38;5;12m [39m[38;5;12mwords[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mprompt).[39m[38;5;12m [39m[38;5;12mSuch[39m[38;5;12m [39m[38;5;12mdeep[39m[38;5;12m [39m
|
||
[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mfeatures[39m[38;5;12m [39m[38;5;12mduring[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal,[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mpaired[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mutilized[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mGLIP,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mCOCO,[39m[38;5;12m [39m[38;5;12mOpenImages,[39m[38;5;12m [39m[38;5;12mObjects365,[39m[38;5;12m [39m[38;5;12mVisual[39m[38;5;12m [39m
|
||
[38;5;12mGenome,[39m[38;5;12m [39m[38;5;12mFlickr30k-entities,[39m[38;5;12m [39m[38;5;12mLVIS,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mPhraseCut,[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mmeticulously[39m[38;5;12m [39m[38;5;12mselected[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcover[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12marray[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mclasses[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mscenarios,[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mserving[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12munique[39m[38;5;12m [39m[38;5;12mpurpose[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mobject[39m[38;5;12m [39m[38;5;12mdetection[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mphrase[39m[38;5;12m [39m[38;5;12mgrounding[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12minstance[39m[38;5;12m [39m[38;5;12msegmentation[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mreferring[39m[38;5;12m [39m
|
||
[38;5;12mexpression[39m[38;5;12m [39m[38;5;12msegmentation.[39m[38;5;12m [39m[38;5;12mThrough[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mGLIP[39m[38;5;12m [39m[38;5;12msets[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mprecedent[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrealm[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12mpre-training,[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12minterpreting[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12minteracting[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtextual[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mImageBind: One Embedding Space To Bind Them All[0m
|
||
|
||
[38;5;12mImageBind[39m[38;5;12m [39m[38;5;12mrevolutionizes[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle,[39m[38;5;12m [39m[38;5;12mjoint[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mintegrates[39m[38;5;12m [39m[38;5;12msix[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12m–[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12maudio,[39m[38;5;12m [39m[38;5;12mdepth,[39m[38;5;12m [39m[38;5;12mthermal,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mIMU[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12m–[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mimage-paired[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcentral[39m[38;5;12m [39m[38;5;12mbinding[39m[38;5;12m [39m[38;5;12magent,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m
|
||
[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mclassification[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mtypes.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2305.05665-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2305.05665) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/facebookresearch/imagebind) [39m
|
||
[38;5;12mRohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mImageBind[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mIntroduces[39m[38;5;12m [39m[38;5;12man[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mcreating[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1mjoint[0m[38;5;14m[1m [0m[38;5;14m[1membedding[0m[38;5;14m[1m [0m[38;5;14m[1mspace[0m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mencompasses[39m[38;5;12m [39m[38;5;12msix[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mmodalities:[39m[38;5;12m [39m[38;5;14m[1mimages,[0m[38;5;14m[1m [0m[38;5;14m[1mtext,[0m[38;5;14m[1m [0m[38;5;14m[1maudio,[0m[38;5;14m[1m [0m[38;5;14m[1mdepth,[0m[38;5;14m[1m [0m[38;5;14m[1mthermal,[0m[38;5;14m[1m [0m[38;5;14m[1mand[0m[38;5;14m[1m [0m[38;5;14m[1mIMU[0m[38;5;14m[1m [0m[38;5;14m[1m(Inertial[0m[38;5;14m[1m [0m[38;5;14m[1mMeasurement[0m[38;5;14m[1m [0m[38;5;14m[1mUnit)[0m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12muniquely[39m[38;5;12m [39m
|
||
[38;5;12memploys[39m[38;5;12m [39m[38;5;12mimage-paired[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcentral[39m[38;5;12m [39m[38;5;12mbinding[39m[38;5;12m [39m[38;5;12magent,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mvision-language[39m[38;5;12m [39m[38;5;12mmodels[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mextend[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mnew,[39m[38;5;12m [39m[38;5;12mpreviously[39m[38;5;12m [39m[38;5;12munlinked[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mBy[39m[38;5;12m [39m[38;5;12mdoing[39m[38;5;12m [39m[38;5;12mso,[39m[38;5;12m [39m[38;5;12mImageBind[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m
|
||
[38;5;12mfacilitates[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mdeeper[39m[38;5;12m [39m[38;5;12mintegration[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mtypes[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mopens[39m[38;5;12m [39m[38;5;12mup[39m[38;5;12m [39m[38;5;12mnew[39m[38;5;12m [39m[38;5;12mavenues[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mclassification[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mapplications.[39m[38;5;12m [39m[38;5;12mAt[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mheart[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mImageBind's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mlies[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mtransformer-based[39m[38;5;12m [39m[38;5;12mdesign,[39m[38;5;12m [39m[38;5;12madapted[39m
|
||
[38;5;12mfor[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mspecific[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mensure[39m[38;5;12m [39m[38;5;12moptimal[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrepresentation.[39m[38;5;12m [39m[38;5;12mFor[39m[38;5;12m [39m[38;5;12minstance,[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mmodality[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mbeing[39m[38;5;12m [39m[38;5;12maugmented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;14m[1mmodality-specific[0m[38;5;14m[1m [0m[38;5;14m[1mlinear[0m[38;5;14m[1m [0m[38;5;14m[1mprojection[0m[38;5;14m[1m [0m[38;5;14m[1mheads[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12madaptations[39m[38;5;12m [39m
|
||
[38;5;12mare[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12muniform[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdisparate[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mtypes,[39m[38;5;12m [39m[38;5;12mensuring[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mlink[39m[38;5;12m [39m[38;5;12mtogether[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmodalities.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12muniformity[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mkey[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mImageBind's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mcreate[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcohesive[39m[38;5;12m [39m
|
||
[38;5;12mand[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mcaptures[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnuances[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mtype.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mmethodology[39m[38;5;12m [39m[38;5;12mbehind[39m[38;5;12m [39m[38;5;12mImageBind[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12mnoteworthy.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12memploys[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning,[39m[38;5;12m [39m[38;5;12mutilizing[39m[38;5;12m [39m[38;5;12mboth[39m[38;5;12m [39m[38;5;12mweb-scale[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mnaturally[39m[38;5;12m [39m[38;5;12moccurring[39m
|
||
[38;5;12mpaired[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mvarious[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12msuch[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mvideo-audio[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mimage-depth[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mstrategy[39m[38;5;12m [39m[38;5;12mallows[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlearn[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msingle[39m[38;5;12m [39m[38;5;12mjoint[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mspace[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mrequiring[39m[38;5;12m [39m[38;5;12mall[39m[38;5;12m [39m[38;5;12mmodalities[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mco-occur,[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12madvantage[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12menhances[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mflexibility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mapplicability.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mAudioset,[39m[38;5;12m [39m[38;5;12mSUN[39m[38;5;12m [39m[38;5;12mRGB-D,[39m[38;5;12m [39m[38;5;12mLLVIP,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mEgo4D,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mprovide[39m[38;5;12m [39m[38;5;12mnaturally[39m[38;5;12m [39m[38;5;12mpaired[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtarget[39m[38;5;12m [39m[38;5;12mmodalities,[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mprocess.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12menable[39m[38;5;12m [39m[38;5;12mImageBind[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m
|
||
[38;5;12memergent[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mclassification[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mretrieval[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mtailored[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12meach[39m[38;5;12m [39m[38;5;12mmodality,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mseamlessly[39m[38;5;12m [39m[38;5;12mnavigate[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mleverage[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcomplex[39m[38;5;12m [39m[38;5;12minterplay[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mdifferent[39m[38;5;12m [39m[38;5;12mforms[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdata.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mSigLIP: Sigmoid Loss for Language Image Pre-Training[0m
|
||
|
||
[38;5;12mSigLIP introduces a simple pairwise sigmoid loss for language-image pre-training, allowing for scalable training with large batch sizes without compromising performance, enabling efficient alignment between image and text representations.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2303.15343-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2303.15343) [39m
|
||
[38;5;12mXiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer [39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mSigLIP[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mnovel[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mproposing[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1msimple[0m[38;5;14m[1m [0m[38;5;14m[1mpairwise[0m[38;5;14m[1m [0m[38;5;14m[1msigmoid[0m[38;5;14m[1m [0m[38;5;14m[1mloss[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mmethod[39m[38;5;12m [39m[38;5;12mcontrasts[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mcontrastive[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mutilizes[39m[38;5;12m [39m[38;5;12msoftmax[39m[38;5;12m [39m[38;5;12mnormalization,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mit[39m[38;5;12m [39m[38;5;12moperates[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs[39m[38;5;12m [39m[38;5;12mwithout[39m
|
||
[38;5;12mnecessitating[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mview[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mpairwise[39m[38;5;12m [39m[38;5;12msimilarities[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mnormalization.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mprimary[39m[38;5;12m [39m[38;5;12madvantage[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mscalability,[39m[38;5;12m [39m[38;5;12mallowing[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarger[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msizes[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mcompromising[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mvision[39m[38;5;12m [39m
|
||
[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mconventional[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtext,[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msigmoid[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mfacilitating[39m[38;5;12m [39m[38;5;12mindependent[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mdesign[39m[38;5;12m [39m[38;5;12menables[39m[38;5;12m [39m[38;5;12mmore[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdynamics,[39m[38;5;12m [39m[38;5;12mparticularly[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcontext[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m
|
||
[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msizes,[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mexamining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12meffects[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mvarying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mnegative[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpositive[39m[38;5;12m [39m[38;5;12mratio[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexample[39m[38;5;12m [39m[38;5;12mpairs.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mmethodologies[39m[38;5;12m [39m[38;5;12mfocus[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mexploiting[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msizes,[39m[38;5;12m [39m[38;5;12mdelving[39m[38;5;12m [39m[38;5;12minto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mdynamics[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mhow[39m[38;5;12m [39m[38;5;12mbatch[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mvariations[39m[38;5;12m [39m[38;5;12minfluence[39m[38;5;12m [39m
|
||
[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mintroduction[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msigmoid[39m[38;5;12m [39m[38;5;12mloss[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mpivotal,[39m[38;5;12m [39m[38;5;12menabling[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mtrain[39m[38;5;12m [39m[38;5;12meffectively[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthese[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mbatches[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12minvestigating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mrelationship[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mratio[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mnegative[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mpositive[39m[38;5;12m [39m[38;5;12mexamples[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12moptimization[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mexample[39m[38;5;12m [39m
|
||
[38;5;12mpair[39m[38;5;12m [39m[38;5;12mselection.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mLiT[39m[38;5;12m [39m[38;5;12mimage-text[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mWebLI[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mintegral[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12maiming[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12machieve[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mrepresentational[39m[38;5;12m [39m[38;5;12mspaces[39m[38;5;12m [39m[38;5;12mbetween[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtexts.[39m[38;5;12m [39m[38;5;12mThese[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mchosen[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mtheir[39m[38;5;12m [39m[38;5;12mutility[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12massessing[39m[38;5;12m [39m
|
||
[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mtransfer[39m[38;5;12m [39m[38;5;12mcapabilities,[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12mwell[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mexploring[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12msigmoid[39m[38;5;12m [39m[38;5;12mloss-based[39m[38;5;12m [39m[38;5;12mtraining.[39m[38;5;12m [39m[38;5;12mIn[39m[38;5;12m [39m[38;5;12messence,[39m[38;5;12m [39m[38;5;12mSigLIP[39m[38;5;12m [39m[38;5;12mmarks[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mstride[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mlanguage-image[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12minnovative[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12msigmoid[39m
|
||
[38;5;12mloss,[39m[38;5;12m [39m[38;5;12menhancing[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mefficiency.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mnot[39m[38;5;12m [39m[38;5;12monly[39m[38;5;12m [39m[38;5;12msimplifies[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12meliminating[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mneed[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mglobal[39m[38;5;12m [39m[38;5;12mnormalization[39m[38;5;12m [39m[38;5;12mbut[39m[38;5;12m [39m[38;5;12malso[39m[38;5;12m [39m[38;5;12mshowcases[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12madaptability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mdata[39m[38;5;12m [39m[38;5;12mhandling.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mstrategic[39m[38;5;12m [39m
|
||
[38;5;12mselection[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfurther[39m[38;5;12m [39m[38;5;12munderscores[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mcapability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mforge[39m[38;5;12m [39m[38;5;12maligned[39m[38;5;12m [39m[38;5;12mrepresentational[39m[38;5;12m [39m[38;5;12mspaces,[39m[38;5;12m [39m[38;5;12mpaving[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mway[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12madvanced[39m[38;5;12m [39m[38;5;12mzero-shot[39m[38;5;12m [39m[38;5;12mlearning[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mefficient[39m[38;5;12m [39m[38;5;12mmultimodal[39m[38;5;12m [39m[38;5;12mintegration.[39m
|
||
|
||
|
||
[38;5;14m[1m[4mViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[0m
|
||
|
||
[38;5;12mThe[39m[38;5;12m [39m[38;5;12mVision[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12m(ViT)[39m[38;5;12m [39m[38;5;12mrevolutionizes[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mapplying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimages,[39m[38;5;12m [39m[38;5;12mprocessing[39m[38;5;12m [39m[38;5;12mthem[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12msequence[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mfixed-size[39m[38;5;12m [39m[38;5;12mpatches,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mdemonstrating[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mcan[39m[38;5;12m [39m[38;5;12mbenefit[39m[38;5;12m [39m[38;5;12mfrom[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mpower[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m
|
||
[38;5;12mtransformers,[39m[38;5;12m [39m[38;5;12msurpassing[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mconvolutional[39m[38;5;12m [39m[38;5;12mneural[39m[38;5;12m [39m[38;5;12mnetwork[39m[38;5;12m [39m[38;5;12m(CNN)[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12maid[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlarge-scale[39m[38;5;12m [39m[38;5;12mtraining[39m[38;5;12m [39m[38;5;12mdatasets.[39m
|
||
|
||
[38;5;14m[1m![0m[38;5;12marXiv[39m[38;5;14m[1m (https://img.shields.io/badge/arXiv-2010.11929v2-b31b1b.svg?style=flat-square)[0m[38;5;12m (https://arxiv.org/abs/2010.11929v2) [39m[38;5;14m[1m![0m[38;5;12mGitHub[39m[38;5;14m[1m (https://badges.aleen42.com/src/github.svg)[0m[38;5;12m (https://github.com/google-research/vision_transformer) [39m
|
||
[38;5;12mAlexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby[39m
|
||
|
||
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[38;5;12m [39m
|
||
[48;5;235m[38;5;249m[49m[39m
|
||
[38;5;14m[1mThe[0m[38;5;14m[1m [0m[38;5;14m[1mVision[0m[38;5;14m[1m [0m[38;5;14m[1mTransformer[0m[38;5;14m[1m [0m[38;5;14m[1m(ViT)[0m[38;5;12m:[39m[38;5;12m [39m[38;5;12mA[39m[38;5;12m [39m[38;5;12mparadigm[39m[38;5;12m [39m[38;5;12mshift[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mapplying[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12marchitecture,[39m[38;5;12m [39m[38;5;12mpredominantly[39m[38;5;12m [39m[38;5;12mused[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mnatural[39m[38;5;12m [39m[38;5;12mlanguage[39m[38;5;12m [39m[38;5;12mprocessing,[39m[38;5;12m [39m[38;5;12mdirectly[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mimages.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12minnovatively[39m[38;5;12m [39m[38;5;12mprocesses[39m[38;5;12m [39m[38;5;12mimages[39m[38;5;12m [39m[38;5;12mas[39m[38;5;12m [39m[38;5;14m[1ma[0m[38;5;14m[1m [0m[38;5;14m[1msequence[0m[38;5;14m[1m [0m[38;5;14m[1mof[0m[38;5;14m[1m [0m[38;5;14m[1mfixed-size[0m[38;5;14m[1m [0m
|
||
[38;5;14m[1mpatches[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12makin[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mhow[39m[38;5;12m [39m[38;5;12mtokens[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mtreated[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;14m[1mtext[0m[38;5;14m[1m [0m[38;5;14m[1mapplications[0m[38;5;12m.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mapproach[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfacilitated[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mminimal[39m[38;5;12m [39m[38;5;12mmodifications[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mtransformer[39m[38;5;12m [39m[38;5;12mcomponents,[39m[38;5;12m [39m[38;5;12memphasizing[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12madaptability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mrelying[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m
|
||
[38;5;12mconvolutional[39m[38;5;12m [39m[38;5;12mneural[39m[38;5;12m [39m[38;5;12mnetworks'[39m[38;5;12m [39m[38;5;12m(CNNs)[39m[38;5;12m [39m[38;5;12minductive[39m[38;5;12m [39m[38;5;12mbiases.[39m[38;5;12m [39m[38;5;12mViT's[39m[38;5;12m [39m[38;5;12marchitecture[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mdistinguished[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12muse[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mlinear[39m[38;5;12m [39m[38;5;12membedding[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;14m[1mimage[0m[38;5;14m[1m [0m[38;5;14m[1mpatches[0m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;14m[1mposition[0m[38;5;14m[1m [0m[38;5;14m[1membeddings[0m[38;5;12m,[39m[38;5;12m [39m[38;5;12mwhich[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcrucial[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mmaintaining[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mspatial[39m[38;5;12m [39m[38;5;12mhierarchy[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mcore[39m[38;5;12m [39m
|
||
[38;5;12mof[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mstandard[39m[38;5;12m [39m[38;5;12mTransformer[39m[38;5;12m [39m[38;5;12mencoder[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mincludes[39m[38;5;12m [39m[38;5;12mmultiheaded[39m[38;5;12m [39m[38;5;12mself-attention[39m[38;5;12m [39m[38;5;12m(MSA)[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mmultilayer[39m[38;5;12m [39m[38;5;12mperceptron[39m[38;5;12m [39m[38;5;12m(MLP)[39m[38;5;12m [39m[38;5;12mblocks,[39m[38;5;12m [39m[38;5;12mcomplemented[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mlayer[39m[38;5;12m [39m[38;5;12mnormalization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mresidual[39m[38;5;12m [39m[38;5;12mconnections,[39m[38;5;12m [39m[38;5;12munderscoring[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mefficiency[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mrobustness[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mhandling[39m[38;5;12m [39m
|
||
[38;5;12mvisual[39m[38;5;12m [39m[38;5;12mdata.[39m[38;5;12m [39m[38;5;12mTraining[39m[38;5;12m [39m[38;5;12mmethodologies[39m[38;5;12m [39m[38;5;12mfor[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mare[39m[38;5;12m [39m[38;5;12mcharacterized[39m[38;5;12m [39m[38;5;12mby[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mscalability[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12msignificant[39m[38;5;12m [39m[38;5;12mimpact[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12msize[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mperformance.[39m[38;5;12m [39m[38;5;12mInitially,[39m[38;5;12m [39m[38;5;12mViT[39m[38;5;12m [39m[38;5;12mexhibits[39m[38;5;12m [39m[38;5;12mmodest[39m[38;5;12m [39m[38;5;12maccuracies[39m[38;5;12m [39m[38;5;12mwithout[39m[38;5;12m [39m[38;5;12mstrong[39m[38;5;12m [39m[38;5;12mregularization[39m[38;5;12m [39m[38;5;12mtechniques.[39m[38;5;12m [39m[38;5;12mHowever,[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m
|
||
[38;5;12mperformance[39m[38;5;12m [39m[38;5;12mescalates[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mscale[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtraining,[39m[38;5;12m [39m[38;5;12mshowcasing[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mpotential[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12moutperform[39m[38;5;12m [39m[38;5;12mtraditional[39m[38;5;12m [39m[38;5;12mCNN[39m[38;5;12m [39m[38;5;12mapproaches[39m[38;5;12m [39m[38;5;12mthrough[39m[38;5;12m [39m[38;5;12mextensive[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mdatasets.[39m[38;5;12m [39m[38;5;12mThis[39m[38;5;12m [39m[38;5;12mprocess[39m[38;5;12m [39m[38;5;12mhighlights[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mcritical[39m[38;5;12m [39m[38;5;12mrole[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mdataset[39m[38;5;12m [39m[38;5;12mselection[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12mViT's[39m[38;5;12m [39m[38;5;12mtraining[39m
|
||
[38;5;12mregimen.[39m[38;5;12m [39m[38;5;12mIt[39m[38;5;12m [39m[38;5;12mis[39m[38;5;12m [39m[38;5;12mfine-tuned[39m[38;5;12m [39m[38;5;12mon[39m[38;5;12m [39m[38;5;12msmaller[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mfollowing[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mcomprehensive[39m[38;5;12m [39m[38;5;12mpre-training[39m[38;5;12m [39m[38;5;12mphase[39m[38;5;12m [39m[38;5;12mthat[39m[38;5;12m [39m[38;5;12mleverages[39m[38;5;12m [39m[38;5;12mlarge[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m[38;5;12mlike[39m[38;5;12m [39m[38;5;12mImageNet-21k[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mJFT-300M[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12menhance[39m[38;5;12m [39m[38;5;12mmodel[39m[38;5;12m [39m[38;5;12mgeneralization[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mperformance[39m[38;5;12m [39m[38;5;12macross[39m[38;5;12m [39m[38;5;12ma[39m[38;5;12m [39m[38;5;12mwide[39m[38;5;12m [39m[38;5;12mrange[39m[38;5;12m [39m[38;5;12mof[39m[38;5;12m [39m[38;5;12mtasks.[39m[38;5;12m [39m[38;5;12mThe[39m[38;5;12m [39m[38;5;12mdatasets[39m[38;5;12m [39m
|
||
[38;5;12memployed,[39m[38;5;12m [39m[38;5;12mincluding[39m[38;5;12m [39m[38;5;12mImageNet,[39m[38;5;12m [39m[38;5;12mCIFAR-100,[39m[38;5;12m [39m[38;5;12mVTAB,[39m[38;5;12m [39m[38;5;12mImageNet-21k,[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mJFT-300M,[39m[38;5;12m [39m[38;5;12mserve[39m[38;5;12m [39m[38;5;12mdual[39m[38;5;12m [39m[38;5;12mpurposes:[39m[38;5;12m [39m[38;5;12mbenchmarking[39m[38;5;12m [39m[38;5;12mthe[39m[38;5;12m [39m[38;5;12mmodel's[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mclassification[39m[38;5;12m [39m[38;5;12mcapabilities[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12mevaluating[39m[38;5;12m [39m[38;5;12mits[39m[38;5;12m [39m[38;5;12mtransferability[39m[38;5;12m [39m[38;5;12mto[39m[38;5;12m [39m[38;5;12mdiverse[39m[38;5;12m [39m[38;5;12mtasks[39m[38;5;12m [39m[38;5;12mwith[39m[38;5;12m [39m[38;5;12mlimited[39m[38;5;12m [39m[38;5;12mdata,[39m[38;5;12m [39m[38;5;12mthereby[39m[38;5;12m [39m[38;5;12mestablishing[39m
|
||
[38;5;12mViT's[39m[38;5;12m [39m[38;5;12mversatility[39m[38;5;12m [39m[38;5;12mand[39m[38;5;12m [39m[38;5;12meffectiveness[39m[38;5;12m [39m[38;5;12min[39m[38;5;12m [39m[38;5;12madvancing[39m[38;5;12m [39m[38;5;12mimage[39m[38;5;12m [39m[38;5;12mrecognition[39m[38;5;12m [39m[38;5;12mtasks.[39m
|
||
|
||
|
||
[38;2;255;187;0m[4mImportant References[0m
|
||
|
||
[38;5;12m- [39m[38;5;14m[1mGuide to Vision-Language Models (VLMs) by Görkem Polat[0m[38;5;12m (https://encord.com/blog/vision-language-models-guide/)[39m
|
||
[38;5;12m- [39m[38;5;14m[1mVLM Primer by Aman Chadha[0m[38;5;12m (https://aman.ai/primers/ai/VLM/#google_vignette)[39m
|
||
[38;5;12m- [39m[38;5;14m[1mGeneralized Visual Language Models by Lilian Weng[0m[38;5;12m (https://lilianweng.github.io/posts/2022-06-09-vlm/)[39m
|
||
|
||
[38;5;12mvlmarchitectures Github: https://github.com/gokayfem/awesome-vlm-architectures[39m
|