AI LLM (Large Language Model) benchmark metrics platforms 大语言模型各种任务评价指标 评价平台 评价标准 语文写作,编程,数学 等等

AI LLM (Large Language Model) benchmark metrics platforms 大语言模型各种任务评价指标 评价平台 评价标准 语文写作,编程,数学 等等

2025-04-19. Category & Tags: AIGC, LLM, Large Language Model, 大语言模型, 语言模型, Benchmark, Metrics

See also the main item: /llm.

Price, Sizes #

Unit: /M tokens Prices are from OpenRouter.ai & SiliconFlow.cn.

Model Context Input Output Model Size
DeepSeek V3 0324 64K $0.27/¥ 8 $1.1 685B
DeepSeek V3 164K $0.38 $0.89 671B
DeepSeek R1 164K $0.5/¥ 16 $2.18 671B
Grok 3 Beta 131K $3 $15 ?
Gemini 2.5 Pro Prev. 1M $1.25 $10 ?
Claude 3.7 Sonnet & Sonnet Thinking 200K $3 $15 ?
qwen-2.5-coder-32b-instruct 33K $0.07/¥ 1.26 $0.15 32B
qwen/qwen-2.5-72b-instruct 33K $0.12 $0.39 72B

Coding, Programming #

baseline: 人类专家 97%.

  • SWE-bench
    • leaderboard: top: 33% Claude 3.7 sonnet.
    • 侧重于实际应用,
    • 由普林斯顿大学开发,真实 GitHub Issue 修复,需跨文件编辑、通过单元测试
    • measured in ELO rating
    • a dataset that tests systems’ ability to solve GitHub issues automatically, contains 2,294 Issue-Pull Request pairs from 12 popular Python repositories. Evaluation is performed by unit test verification using post-PR behavior.
  • BigCodeBench
    • leaderboard on HF, leaderboard github.io: top Gemini-Exp-1206 ~ Deepseek 40%.
    • 侧重于实际应用
    • 更侧重复杂 API 调用全新生成代码 (AI 独立解决问题的能力)
    • 由 BigCode 项目创建,扩展自 Stack Overflow(ODEX 数据集)
    • 包括两个主要部分:BigCodeBench-Complete(基于详细文档字符串的代码补全)和 BigCodeBench-Instruct(基于自然语言指令的代码生成)
    • measured in ELO rating
    • 使用 Pass@1 和 “校准的 Pass@1”
    • 为每个任务提供了复杂的、面向用户的指令,包括清晰的功能描述、输入/输出格式、错误处理和已验证的交互示例。避免逐步的任务指令,相信有能力的 LLM 应该能够从用户的角度以开放的方式理解和解决任务。我们通过测试用例验证特定功能
    • BigCodeBench 基准测试从 139 个库和 7 个域中调用多个函数调用作为工具,用于 1140 个细粒度任务。为了严格评估 LLMs,每个任务包含 5.6 个测试用例,平均分支覆盖率为 99%
    • 结论:与人类表现相比,LLM 在 BigCodeBench-Complete 上的表现显著低于人类表现,在 BigCodeBench-Instruct 上的表现甚至更低。 ref
  • Aider’s polyglot benchmark
    • leaderboard: top 73% Gemini 2.5 pro.
    • 侧重于实际应用
    • 强调严格遵循要求和规范
    • 来源于 Exercism 高难度题目,225 challenging Exercism coding exercises across C++, Go, Java, JavaScript, Python, and Rust
    • 更倾向于对已有代码进行修改编辑、debug、refactor 等 ??? (有介绍,没发现实际证据)
  • MBPP (Mostly Basic Python Programming)
    • 由 Google 发布
    • 包含约 1000 个众包的 Python 编程问题,旨在由入门级程序员解决。每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例,用于检查功能正确性。MBPP 的目标是衡量模型从自然语言描述中合成短 Python 程序的能力
  • HumanEval
    • 比较简单,逐渐抛弃
    • LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响,这使得其在评估 LLM 的泛化能力方面不够可靠 ref
    • 由 OpenAI 开发,是评估 LLM 从文档字符串生成功能正确代码能力的最广泛认可的研究基准之一。它包含 164 个手写编程问题,每个问题都带有函数签名、文档字符串、函数体以及若干单元测试。HumanEval 侧重于评估模型在理解语言、进行推理以及解决与算法和简单数学相关的问题的能力
  • APIBench
  • ODEX
  • DS-1000
  • Codeforces
    • 侧重于实际应用?编程竞赛(简短且独立的算法任务或独立的函数调用)
  • LCB LiveCodeBench
    • 侧重于编程竞赛(简短且独立的算法任务或独立的函数调用)
    • LiveCodeBench 从三个竞赛平台(即 LeetCode、AtCoder 和 CodeForces)的竞赛中收集了 2023 年 5 月至今发布的 400+ 个高质量编码问题,并评估了 18 个基本 LLMs 和 34 个指令调优 LLMs。
  • CodeElo
    • 侧重于编程竞赛(简短且独立的算法任务或独立的函数调用)
  • APPS (Automated Programming Progress Standard)
    • 包含 10000 个来自 Codewars、AtCoder、Kattis 和 Codeforces 等平台的编程问题的综合基准测试,涵盖了从初级到高级的各种难度级别。
  • CodeEval: ComplexCodeEval, CoderEval, CrossCodeEval, SwiftEval
  • MultiPL-E
  • StackEval
  • CanAiCode

e.g. 城市图片浏览与交互网站架构方案 #

Claude 3.7

评估指标 FastAPI + Vue.js Flask + jQuery Django + React Express + React
上手难度(10 分最难) 6/10 3/10 8/10 7/10
编程效率 8/10 6/10 9/10 8/10
前端运行效率 9/10 6/10 9/10 9/10
后端运行效率 9/10 7/10 7/10 8/10
文档和社区丰富程度 8/10 9/10 10/10 9/10
现有功能模块丰富程度 7/10 8/10 10/10 9/10
长期维护性 8/10 6/10 9/10 8/10
部署复杂度(10 分最复杂) 6/10 4/10 7/10 6/10

综合分析 最低上手门槛: Flask + jQuery/Bootstrap (3+4=7 分),适合快速开发和学习 中等难度平衡: FastAPI + Vue.js (5+6=11 分),提供良好性能与适中学习曲线 高性能高门槛: FastAPI + React (5+8=13 分)或 Django + React (7+8=15 分) 语言统一: Node.js 全栈 (5+6=11 分),JavaScript 贯穿前后端 需要注意的是,实际上手难度还与个人背景有关。如果您已有 Python 经验,Python 后端方案的上手难度会降低;如果您熟悉 JavaScript,则 Node.js 方案和前端框架的上手难度会相应降低。

Writing #

  • SuperGlue
    • General Language Understanding Evaluation
    • a more challenging successor to GLUE, also has seen LLMs consistently perform at impressive levels, often reaching or exceeding human baselines.

Math, Reasoning #

  • AIME 2024, AIME 2025
    • American Invitational Mathematics Examination
    • high-school-level mathematical reasoning, requiring step-by-step logic beyond simple arithmetic
  • Beyond AIME

Science, Reasoning #

  • GPQA Diamond
  • ARC-AGI
    • AI2 Reasoning Challenge
    • focuses on reasoning and applying background knowledge to answer grade-school science questions

REFs #

ref OpenDS ref ZhiHu

In General and/or Other Info #

GPT/Gemini 免费 #

可以手动对话式编程。

Cursor (内置默认 Claude) = Clien + Deepseek API (刚发布的好东西都有点慢) #

Deepseek 在理工科/编程方面,可以完全代替 GPT / Gemini,但是文字相关问题不够灵动。 Claude 编程非常强, 受到广大程序员喜欢, 但是中国完全没法用, 封禁很严格。

Cursor + MCP 详细示例 #

Cursor+MCP 实现用嘴操纵数据库,太丝滑了!(多个编程例子) https://mp.weixin.qq.com/s/0l6-nEw-ZwkY5vD13pAo-w

VSCode + Co-pilot API (2k/mon) #

VSCode + CodeGeeX #

(by 智谱清言):简单有用,但是能力不如 Deepseek 等,适合新手或者写注释。 / 通译零码

Google #

  • Veo2 对标 Sora;
  • Gemini 2.0 Flash Thinking 对标 o1;
    • Gemini 2.0 (对内) & Gemini 2.0 Flash (对外开放,1500 times/day)
  • Agent: Project Astra 对标 ?