AI LLM (Large Language Model) benchmark metrics platforms 大语言模型各种任务评价指标 评价平台 评价标准 语文写作,编程,数学 等等
See also the main item: /llm. Coding, Programming # baseline: 人类专家 97%. SWE-bench leaderboard: top: 33% Claude 3.7 sonnet. 侧重于实际应用, 由普林斯顿大学开发,真实 GitHub Issue 修复,需跨文件编辑、通过单元测试 measured in ELO rating a dataset that tests systems’ ability to solve GitHub issues automatically, contains 2,294 Issue-Pull Request pairs from 12 popular Python repositories. Evaluation is performed by unit test verification using post-PR behavior. BigCodeBench leaderboard on HF, leaderboard github.io: top Gemini-Exp-1206 ~ Deepseek 40%. 侧重于实际应用 更侧重复杂 API 调用全新生成代码 (AI 独立解决问题的能力) 由 BigCode 项目创建,扩展自 Stack Overflow(ODEX 数据集) 包括两个主要部分:BigCodeBench-Complete(基于详细文档字符串的代码补全)和 BigCodeBench-Instruct(基于自然语言指令的代码生成) measured in ELO rating 使用 Pass@1 和 “校准的 Pass@1” 为每个任务提供了复杂的、面向用户的指令,包括清晰的功能描述、输入/输出格式、错误处理和已验证的交互示例。避免逐步的任务指令,相信有能力的 LLM 应该能够从用户的角度以开放的方式理解和解决任务。我们通过测试用例验证特定功能 BigCodeBench 基准测试从 139 个库和 7 个域中调用多个函数调用作为工具,用于 1140 个细粒度任务。为了严格评估 LLMs,每个任务包含 5. ...