How vision-language models align visual and text representations using contrastive learning, cross-modal attention, and CLIP-style training.

The Vision-Language Alignment Problem

The modality gap in CLIP and vision-language models: why image and text embeddings occupy separate regions despite contrastive training.

The Modality Gap

Discover how multimodal vision-language models like CLIP, ALIGN, and LLaVA scale with data, parameters, and compute following Chinchilla-style power laws.

Multimodal Scaling Laws

Master LoRA, bottleneck adapters, and prefix tuning for parameter-efficient fine-tuning of vision-language models like LLaVA with minimal compute and memory.

vision-language

Concepts Related to vision-language

The Vision-Language Alignment Problem

The Modality Gap

Multimodal Scaling Laws

Vision-Language Adapters: Parameter-Efficient Multimodal Fine-tuning