Benchmark

LLM benchmark metrics platforms AI Large Language Model 大语言模型各种任务评价指标 评价标准 评价平台 语文写作,编程,数学 等等

2025-04-19. Category & Tags: AIGC, LLM, Large-Language-Model, 大语言模型, 语言模型, Benchmark, Metrics

See also the main item: /LLM-. 模型对比本人经验 2026-02 # 设计、审美、文案、编程: Claude (交互体验最好)。 严谨、逻辑、细节/小众技术问题: GPT Pro (但是文案断层地差)。 画图、前端、有灵感、有创意、激进、不严谨、道德放宽 (灰色合法的方法)、夸夸机、顺从、自带 Google 搜索: Gemini。 模型对比个人经验 2026-03 # 模型 前端 后端 架构 指令遵循 总分 ChatGPT 5.4 7 10 10 10 37 Claude 4.6 Opus 9 8 8 8 33 ChatGPT 5.3 CodeX 5 9 8 10 32 Gemini-3.0-Pro 10 7 6 8 31 Kimi-K2.5 第三方 量化 部署 8 7 8 8 31 GLM-5 6 7 8 8 29 MiniMax-M2. ...