大语言模型

AI LLM (Large Language Model) benchmark metrics platforms 大语言模型各种任务评价指标 评价平台 评价标准 语文写作,编程,数学 等等

2025-04-19. Category & Tags: AIGC, LLM, Large Language Model, 大语言模型, 语言模型, Benchmark, Metrics

See also the main item: /llm. Coding, Programming # baseline: 人类专家 97%. SWE-bench leaderboard: top: 33% Claude 3.7 sonnet. 侧重于实际应用, 由普林斯顿大学开发,真实 GitHub Issue 修复,需跨文件编辑、通过单元测试 measured in ELO rating a dataset that tests systems’ ability to solve GitHub issues automatically, contains 2,294 Issue-Pull Request pairs from 12 popular Python repositories. Evaluation is performed by unit test verification using post-PR behavior. BigCodeBench leaderboard on HF, leaderboard github.io: top Gemini-Exp-1206 ~ Deepseek 40%. 侧重于实际应用 更侧重复杂 API 调用全新生成代码 (AI 独立解决问题的能力) 由 BigCode 项目创建,扩展自 Stack Overflow(ODEX 数据集) 包括两个主要部分:BigCodeBench-Complete(基于详细文档字符串的代码补全)和 BigCodeBench-Instruct(基于自然语言指令的代码生成) measured in ELO rating 使用 Pass@1 和 “校准的 Pass@1” 为每个任务提供了复杂的、面向用户的指令,包括清晰的功能描述、输入/输出格式、错误处理和已验证的交互示例。避免逐步的任务指令,相信有能力的 LLM 应该能够从用户的角度以开放的方式理解和解决任务。我们通过测试用例验证特定功能 BigCodeBench 基准测试从 139 个库和 7 个域中调用多个函数调用作为工具,用于 1140 个细粒度任务。为了严格评估 LLMs,每个任务包含 5. ...

LLM (Large Language Model) 大语言模型 Workflow Platform 工作流平台对比

2025-04-05. Category & Tags: AIGC, GPT, ChatGPT, LLM, Large Language Model, 大语言模型, 语言模型, Workflow Platform, 工作流平台, Comparison

See also the main item: /LLM. AI Agent Platforms / Workflow Platforms 模型 可控性 费用 用户量、社区 一句话介绍 本地部署 LangChain MIT 社区(Star70k+) 代码构建链式工作流,集成多类工具 PromptFlow (微软) MIT Azure 集成 微软开源工具,调试部署复杂 AI 链 Node-RED Apache 2 物联网/开发者领域主流 可视化流程编排,插件扩展 AI 节点, 界面有待提高. n8n.io ~开源 (in comp. only) 免费 社区(star40k+) ≈ 半开源 Coze. 开源自动化平台,可扩展节点 支持 ComfyUI GPL 3 社区(star25k+) 开源 AI 绘画工作流,支持高精度参数自定义 Flowise Apache 2 社区(star16k+) 低代码拖拽搭建 AI 工作流 支持 Dify Apache 2- (NO workspaces) 基础功能免费,定制模型收费 千万级用户 直观 AI 工作流可视化构建,可定制,插件需定制 支持 Make. ...

Open-WebUI

2025-02-02. Category & Tags: AIGC, GPT, ChatGPT, LLM, Large Language Model, 大语言模型, 语言模型, Frontend, 前端

See also the main item: /LLM. docker run -d -p 3000:8080 -e OPENAI_API_BASE_URLS="https://api.siliconflow.cn/v1/" -e OPENAI_API_KEY=<my_api_key> -v open-webui:/path/to/docker-v-data --name open-webui --restart always ghcr.io/open-webui/open-webui:main ps: tried --env HTTPS_PROXY="http://192.168.50.107:1080" which does not help downloading speed from docker-hub. Official github Flux 画图

LLM (Large Language Model) 大语言模型

2024-07-29. Category & Tags: AIGC, GPT, ChatGPT, LLM, Large Language Model, 大语言模型, 语言模型

See also (all LLM related posts & content): AI-Tools for online/handy AI tools for specific purposes, e.g. PowerPoint Slides, text2pic 文生图/视频平台, text2music 文生音乐平台, 数字人/虚拟主播平台 etc. MCP for MCP servers’ aggregation platforms (MCP 聚合平台网站) (inc. Google A2A). /llm-benchmark: LLM Model benchmarks metrics & leaderboards routers (model providers): OpenRouter.ai gemini 2.5 pro: free account 50~1000 requests/day requesty.ai gemini 2.5 pro: no limit SiliconFlow.cn 硅基流动 API translator: NewAPI OneAPI backends: vLLM /llmflow: LLM WorkFlow /rag-agent-frameworks /chatglm /fastchat-vicuna /llamaindex llama factory /ollama llama. ...