vision-and-language-pre-training

Here are 11 public repositories matching this topic...

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

nlp computer-vision deep-learning transformers pytorch chinese pretrained-models multi-modal clip coreml-models contrastive-loss vision-language multi-modal-learning image-text-retrieval vision-and-language-pre-training

Updated Aug 29, 2025
Jupyter Notebook

salesforce / BLIP

Star

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

image-captioning visual-reasoning visual-question-answering vision-language vision-language-transformer image-text-retrieval vision-and-language-pre-training

Updated Aug 5, 2024
Jupyter Notebook

phellonchen / awesome-Vision-and-Language-Pre-training

Star

Recent Advances in Vision and Language Pre-training (VLP)

vision-and-language multimodal-deep-learning pretraining vision-and-language-pre-training vlp

Updated Jun 6, 2023

zhjohnchan / awesome-vision-and-language-pretraining

Star

A curated list of vision-and-language pre-training (VLP). :-)

pre-training multi-modal-learning vision-and-language-pre-training

Updated Jul 6, 2022

mala-lab / SIC-CADS

Star

Code Implementation of "Simple Image-level Classification Improves Open-vocabulary Object Detection" (AAAI'24)

object-detection vision-and-language-pre-training foundation-models vision-language-model open-vocabulary-detection

Updated Jan 12, 2024
Python

PrithivirajDamodaran / vision-language-modelling-series

Sponsor

Star

Companion Repo for the Vision Language Modelling YouTube series - https://bit.ly/3PsbsC2 - by Prithivi Da. Open to PRs and collaborations

multimodal-interactions vision-and-language multimodal-deep-learning multimodal-representation vision-and-language-navigation vision-and-language-pre-training

Updated Aug 16, 2022
Jupyter Notebook

JianqiangWan / VLPT-STD

Star

Vision-Language Pre-Training for Boosting Scene Text Detectors (CVPR2022)

multimodal-deep-learning scene-text-detection vision-and-language-pre-training

Updated Mar 21, 2022

marialymperaiou / knowledge-enhanced-multimodal-learning

Star

A list of research papers on knowledge-enhanced multimodal learning

Updated Dec 8, 2022

SHTUPLUS / GITM-MR

Star

The official implementation for the ICCV 2023 paper "Grounded Image Text Matching with Mismatched Relation Reasoning".

vision-and-language vision-and-language-pre-training vision-language-dataset vision-language-model vision-language-learning

Updated Dec 8, 2023
Python

musicman217 / GARE-text-video-retrieval

Star

Official implementation of "Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval" ---【NeurIPS 2025】

multi-modality cross-modal-retrieval vision-and-language-pre-training text-video-retrieval

Updated Oct 23, 2025
Python

jyoung105 / koSigLIP

Star

Korean version of CLIP which achieves Korean cross-modal retrieval and representation generation.

nlp computer-vision deep-learning transformers pytorch korean pretrained-models multi-modal coreml-models contrastive-loss vision-language multi-modal-learning image-text-retrieval vision-and-language-pre-training siglip

Updated Nov 20, 2024

Improve this page

Add a description, image, and links to the vision-and-language-pre-training topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the vision-and-language-pre-training topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vision-and-language-pre-training

Here are 11 public repositories matching this topic...

OFA-Sys / Chinese-CLIP

salesforce / BLIP

phellonchen / awesome-Vision-and-Language-Pre-training

zhjohnchan / awesome-vision-and-language-pretraining

mala-lab / SIC-CADS

PrithivirajDamodaran / vision-language-modelling-series

JianqiangWan / VLPT-STD

marialymperaiou / knowledge-enhanced-multimodal-learning

SHTUPLUS / GITM-MR

musicman217 / GARE-text-video-retrieval

jyoung105 / koSigLIP

Improve this page

Add this topic to your repo