🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Accelerare lo sviluppo di grandi modelli multimodali (LMMs) con
lmms-eval. Supportiamo la maggior parte delle attività di testo, immagine, video e audio.
🏠 Home Page LMMs-Lab | 🤗 Dataset Huggingface | 
📖 Attività Supportate (100+) | 🌟 Modelli Supportati (30+) | 📚 Documentazione
Valutare i modelli multimodali è più difficile di quanto sembri. Abbiamo centinaia di benchmark, ma nessun modo standard per eseguirli. I risultati variano tra i laboratori. I confronti diventano inaffidabili. Abbiamo lavorato per affrontare questo problema - non attraverso uno sforzo eroico, ma attraverso un processo sistematico.
Gennaio 2026 - Abbiamo riconosciuto che il ragionamento spaziale e compositivo rimanevano punti ciechi nei benchmark esistenti. Abbiamo aggiunto CaptionQA, SpatialTreeBench, SiteBench e ViewSpatial. Per i team che eseguono pipeline di valutazione remota, abbiamo introdotto un server di valutazione HTTP (#972). Per coloro che necessitano di rigore statistico, abbiamo aggiunto CLT e la stima dell'errore standard raggruppato (#989).
Ottobre 2025 (v0.5) - L'audio era stato una lacuna. I modelli potevano sentire, ma non avevamo un modo coerente per testarli. Questa versione ha aggiunto una valutazione audio completa, il caching delle risposte per l'efficienza e oltre 50 varianti di benchmark che spaziano tra audio, visione e ragionamento. Note di rilascio.
Siamo in un viaggio entusiasmante verso la creazione dell'Intelligenza Artificiale Generale (AGI), simile all'entusiasmo dell'allunaggio degli anni '60. Questo viaggio è alimentato da modelli linguistici avanzati (LLMs) e grandi modelli multimodali (LMMs), sistemi complessi capaci di comprendere, apprendere e svolgere un'ampia varietà di compiti umani.
Per misurare quanto sono avanzati questi modelli, utilizziamo una varietà di benchmark di valutazione. Questi benchmark sono strumenti che ci aiutano a comprendere le capacità di questi modelli, mostrandoci quanto siamo vicini al raggiungimento dell'AGI. Tuttavia, trovare e utilizzare questi benchmark è una grande sfida.
Nel campo dei modelli linguistici, il lavoro di lm-evaluation-harness ha stabilito un prezioso precedente. Abbiamo assorbito il design squisito ed efficiente di lm-evaluation-harness e introdotto lmms-eval, un framework di valutazione meticolosamente realizzato per una valutazione coerente ed efficiente degli LMM.
Utilizziamo uv per la gestione dei pacchetti per garantire che tutti gli sviluppatori utilizzino esattamente le stesse versioni dei pacchetti. Prima, installa uv:
curl -LsSf https://astral.sh/uv/install.sh | shPer lo sviluppo con ambiente coerente:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Raccomandato
uv pip install -e ".[all]"
# Se vuoi usare uv sync
# uv sync # Questo crea/aggiorna il tuo ambiente da uv.lockPer eseguire comandi:
uv run python -m lmms_eval --help # Eseguire qualsiasi comando con uv runPer uso diretto da Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Potresti dover aggiungere e includere il tuo yaml delle attività se usi questa installazione
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitAltri esempi in examples/models
Valutazione di Modello Compatibile con OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shValutazione di vLLM
bash examples/models/vllm_qwen2vl.shValutazione di LLaVA-OneVision
bash examples/models/llava_onevision.shValutazione di LLaVA-OneVision1_5
bash examples/models/llava_onevision1_5.shValutazione di LLaMA-3.2-Vision
bash examples/models/llama_vision.shValutazione di Qwen2-VL
bash examples/models/qwen2_vl.sh
bash examples/models/qwen2_5_vl.shValutazione con tensor parallel per modelli più grandi (llava-next-72b)
bash examples/models/tensor_parallel.shValutazione con SGLang per modelli più grandi (llava-next-72b)
bash examples/models/sglang.shAltri Parametri
python3 -m lmms_eval --helpVariabili d'ambiente Prima di eseguire esperimenti e valutazioni, ti consigliamo di esportare le seguenti variabili d'ambiente nel tuo ambiente. Alcune sono necessarie per l'esecuzione di determinate attività.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Altre possibili variabili d'ambiente includono
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY ecc.Problemi comuni dell'ambiente
A volte potresti riscontrare alcuni problemi comuni, ad esempio errori relativi a httpx o protobuf. Per risolvere questi problemi, puoi prima provare:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Se stai usando numpy==2.x, a volte può causare errori
python3 -m pip install numpy==1.26;
# A volte sentencepiece è necessario per il funzionamento del tokenizer
python3 -m pip install sentencepiece;Consulta la nostra documentazione.
lmms_eval è un fork di lm-eval-harness. Consigliamo di leggere la documentazione di lm-eval-harness per informazioni rilevanti.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}