LLM benchmark metrics platforms AI Large Language Model 大语言模型各种任务评价指标评价标准评价平台语文写作,编程,数学等等

2025-04-19. Category & Tags: AIGC, LLM, Large-Language-Model, 大语言模型, 语言模型, Benchmark, Metrics

经验 #

模型对比本人经验 2026-02 #

设计、审美、文案、编程: Claude (交互体验最好)。严谨、逻辑、细节/小众技术问题: GPT Pro (但是文案断层地差)。画图、前端、有灵感、有创意、激进、不严谨、道德放宽 (灰色合法的方法)、夸夸机、顺从、自带 Google 搜索: Gemini。

模型对比个人经验 2026-03 #

模型	前端	后端	架构	指令遵循	总分
ChatGPT 5.4	7	10	10	10	37
Claude 4.6 Opus	9	8	8	8	33
ChatGPT 5.3 CodeX	5	9	8	10	32
Gemini-3.0-Pro	10	7	6	8	31
Kimi-K2.5 第三方量化部署	8	7	8	8	31
GLM-5	6	7	8	8	29
MiniMax-M2.5	7	7	7	7	28
Gemini-3.1-Pro	7	6	6	7	26
Doubao-seed-2.0-Pro	7	5	6	6	24
Step-3.5-Flash	5	6	6	6	23
Qwen-3.5	5	6	6	6	23
Mimo-V2-Flash	5	6	6	6	23
DeepSeek-V3.2	5	5	5	5	20
Gemini-3.0-Flash	4	4	4	4	16
Grok 4.1 Thinking Fast	0	0	0	0	0
GLM-4.6	0	0	0	0	0

ref: 圣徒城的小诺 video, web

综合 Combined Information #

actively updating…

Arena Leaderboard - a Hugging Face Space by lmarena-ai. LLM-stats.com : inc. Price, Sizes etc., human votes. Arena.AI: AI Ranking & LLM Leaderboard LiveBench.ai. ArtificialAnalysis.ai （面向非 coding 的工作）访问需要网络工具，或者在 OpenRouter 看 https://openrouter.ai/openai/gpt-5.4/benchmarks

幻觉排行榜 #

由于 " 不输出=0 分，输出带有错误=低分 " 的训练，导致大模型有幻觉。新模型可能由于倾向于大胆推测导致比老模型更容易有幻觉，例如 Gemini 3 （13.5%）比 2.5 （3.3%）幻觉比例高很多。 vectara/hallucination-leaderboard

Coding, Programming #

baseline: 人类专家 97%.

SWE-bench (情境：修 Bug)
- leaderboard: (last update 2025-02) top: 33% Claude 3.7 sonnet.
- 侧重于实际应用，
- 由普林斯顿大学开发，真实 GitHub Issue 修复，需跨文件编辑、通过单元测试
- measured in ELO rating
- a dataset that tests systems’ ability to solve GitHub issues automatically, contains 2,294 Issue-Pull Request pairs from 12 popular Python repositories. Evaluation is performed by unit test verification using post-PR behavior.
BigCodeBench
- leaderboard on HF (last update 2025-02) leaderboard github.io: top Gemini-Exp-1206 ~ Deepseek 40%.
- 侧重于实际应用
- 更侧重复杂 API 调用全新生成代码（AI 独立解决问题的能力）
- 由 BigCode 项目创建，扩展自 Stack Overflow（ODEX 数据集）
- 包括两个主要部分：BigCodeBench-Complete（基于详细文档字符串的代码补全）和 BigCodeBench-Instruct（基于自然语言指令的代码生成）
- measured in ELO rating
- 使用 Pass@1 和 " 校准的 Pass@1"
- 为每个任务提供了复杂的、面向用户的指令，包括清晰的功能描述、输入/输出格式、错误处理和已验证的交互示例。避免逐步的任务指令，相信有能力的 LLM 应该能够从用户的角度以开放的方式理解和解决任务。我们通过测试用例验证特定功能
- BigCodeBench 基准测试从 139 个库和 7 个域中调用多个函数调用作为工具，用于 1140 个细粒度任务。为了严格评估 LLMs，每个任务包含 5.6 个测试用例，平均分支覆盖率为 99%
- 结论：与人类表现相比，LLM 在 BigCodeBench-Complete 上的表现显著低于人类表现，在 BigCodeBench-Instruct 上的表现甚至更低。 ref
Aider’s polyglot benchmark
- leaderboard: (last update 2025-06) top 73% Gemini 2.5 pro.
- 侧重于实际应用
- 强调严格遵循要求和规范
- 来源于 Exercism 高难度题目，225 challenging Exercism coding exercises across C++, Go, Java, JavaScript, Python, and Rust
- 更倾向于对已有代码进行修改编辑、debug、refactor 等 ??? (有介绍，没发现实际证据)
MBPP (Mostly Basic Python Programming)
- 由 Google 发布
- 包含约 1000 个众包的 Python 编程问题，旨在由入门级程序员解决。每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例，用于检查功能正确性。MBPP 的目标是衡量模型从自然语言描述中合成短 Python 程序的能力
HumanEval
- 比较简单,逐渐抛弃
- LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响，这使得其在评估 LLM 的泛化能力方面不够可靠 ref
- 由 OpenAI 开发，是评估 LLM 从文档字符串生成功能正确代码能力的最广泛认可的研究基准之一。它包含 164 个手写编程问题，每个问题都带有函数签名、文档字符串、函数体以及若干单元测试。HumanEval 侧重于评估模型在理解语言、进行推理以及解决与算法和简单数学相关的问题的能力
APIBench
ODEX
DS-1000
Codeforces
- 侧重于实际应用？编程竞赛（简短且独立的算法任务或独立的函数调用）
LCB LiveCodeBench
- leaderboard
- 侧重于编程竞赛（简短且独立的算法任务或独立的函数调用）
- LiveCodeBench 从三个竞赛平台（即 LeetCode、AtCoder 和 CodeForces）的竞赛中收集了 2023 年 5 月至今发布的 400+ 个高质量编码问题，并评估了 18 个基本 LLMs 和 34 个指令调优 LLMs。
CodeElo
- 侧重于编程竞赛（简短且独立的算法任务或独立的函数调用）
APPS (Automated Programming Progress Standard)
- 包含 10000 个来自 Codewars、AtCoder、Kattis 和 Codeforces 等平台的编程问题的综合基准测试，涵盖了从初级到高级的各种难度级别。
CodeEval: ComplexCodeEval, CoderEval, CrossCodeEval, SwiftEval
MultiPL-E
StackEval
CanAiCode

e.g. 城市图片浏览与交互网站架构方案 #

Claude 3.7

评估指标	FastAPI + Vue.js	Flask + jQuery	Django + React	Express + React
上手难度（10 分最难）	6/10	3/10	8/10	7/10
编程效率	8/10	6/10	9/10	8/10
前端运行效率	9/10	6/10	9/10	9/10
后端运行效率	9/10	7/10	7/10	8/10
文档和社区丰富程度	8/10	9/10	10/10	9/10
现有功能模块丰富程度	7/10	8/10	10/10	9/10
长期维护性	8/10	6/10	9/10	8/10
部署复杂度（10 分最复杂）	6/10	4/10	7/10	6/10

综合分析最低上手门槛: Flask + jQuery/Bootstrap (3+4=7 分)，适合快速开发和学习中等难度平衡: FastAPI + Vue.js (5+6=11 分)，提供良好性能与适中学习曲线高性能高门槛: FastAPI + React (5+8=13 分) 或 Django + React (7+8=15 分) 语言统一: Node.js 全栈 (5+6=11 分)，JavaScript 贯穿前后端需要注意的是，实际上手难度还与个人背景有关。如果您已有 Python 经验，Python 后端方案的上手难度会降低；如果您熟悉 JavaScript，则 Node.js 方案和前端框架的上手难度会相应降低。

Writing #

SuperGlue
- General Language Understanding Evaluation
- a more challenging successor to GLUE, also has seen LLMs consistently perform at impressive levels, often reaching or exceeding human baselines.

Math, Reasoning #

AIME 2024, AIME 2025
- American Invitational Mathematics Examination
- high-school-level mathematical reasoning, requiring step-by-step logic beyond simple arithmetic
Beyond AIME

Science, Reasoning #

GPQA Diamond
ARC-AGI
- AI2 Reasoning Challenge
- focuses on reasoning and applying background knowledge to answer grade-school science questions

REFs #

ref OpenDS ref ZhiHu

In General and/or Other Info #

GPT/Gemini 免费 #

可以手动对话式编程。

Cursor (内置默认 Claude) = Clien + Deepseek API (刚发布的好东西都有点慢) #

Deepseek 在理工科/编程方面，可以完全代替 GPT / Gemini，但是文字相关问题不够灵动。 Claude 编程非常强, 受到广大程序员喜欢, 但是中国完全没法用, 封禁很严格。

Cursor + MCP 详细示例 #

Cursor+MCP 实现用嘴操纵数据库，太丝滑了！（多个编程例子） https://mp.weixin.qq.com/s/0l6-nEw-ZwkY5vD13pAo-w

VSCode + Co-pilot API (2k/mon) #

VSCode + CodeGeeX #

(by 智谱清言)：简单有用，但是能力不如 Deepseek 等，适合新手或者写注释。 / 通译零码

Google #

Veo2 对标 Sora;
Gemini 2.0 Flash Thinking 对标 o1;
- Gemini 2.0 (对内) & Gemini 2.0 Flash (对外开放，1500 times/day)
Agent: Project Astra 对标？

LLM benchmark metrics platforms AI Large Language Model 大语言模型各种任务评价指标 评价标准 评价平台 语文写作,编程,数学 等等