Use n_gen from context, fix tps mismatch in gemma3 #3954

hebangwen · 2025-10-17T06:03:15Z

This PR is trying to address #3947 . When benchmarking gemma3, this model generates eos token very quick, i.e. 3~4 tokens, but we still calculate the decoding tps by 128. So this model displays a very high decoding speed.

before fix:

model	modelSize	backend	threads	precision	llm_demo	speed(tok/s)
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=128 decode=128	45.88 ± 0.54 316.10 ± 2.58
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=256 decode=128	45.63 ± 0.53 311.16 ± 1.67
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=512 decode=128	45.00 ± 0.34 11.91 ± 0.14

after fix:

model	modelSize	backend	threads	precision	llm_demo	speed(tok/s)
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=128 decode=128	44.90 ± 0.46 12.28 ± 0.22
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=256 decode=128	45.41 ± 0.14 12.22 ± 0.04
gemma-3-1b-it-qat-q4_0-gguf-MNN	994.65 MiB	CPU	4	Low	prompt=512 decode=128	45.00 ± 0.08 12.04 ± 0.02

fix: use n_gen from context

7d0a035

hebangwen mentioned this pull request Oct 17, 2025

[Bug] llm_bench 在 ARM CPU 上测试 gemma-3-1b-it 模型时出现异常高的解码速度（1500 toks/s） #3947

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Use n_gen from context, fix tps mismatch in gemma3 #3954

Use n_gen from context, fix tps mismatch in gemma3 #3954

Uh oh!

hebangwen commented Oct 17, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Uh oh!

Use n_gen from context, fix tps mismatch in gemma3 #3954

Are you sure you want to change the base?

Use n_gen from context, fix tps mismatch in gemma3 #3954

Uh oh!

Conversation

hebangwen commented Oct 17, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant