Learning Curve 学习曲线 有两种
一种,横轴是样本数(这种是真正的原始定义)。 Learning curve (machine learning) - Wikipedia. Tutorial: Learning Curves for Machine Learning in Python for Data Science.
另一种,横轴是训练 epoch 数(这种是一部分的认为的)。 How to use Learning Curves to Diagnose Machine Learning Model Performance - MachineLearningMastery.com. bak-ever. bak-clip.
引言
#
阅读本文的前提:已知机器学习相关基本概念,详见 /ml-do-it )。
由于表格形式的数据集(tabular dataset,例如下图),是大部分机器学习算法所接受的格式,因此各种数据的表格化是非常重要的思维范式。
ref
表格化的方法关键词:时滞 OR 前导,搜索关键词 lag OR lead,对应 python 函数 shift。
而时间序列数据(time-series data 简称 时序数据),如下图所示,一般包括时间戳和当时的数据数值。大部分数据集内相邻的采样点是时间间隔相等,例如 10 分钟(更低频率采样的数据集可能是 1 小时 、1 天等等)为一个采样时间单位。
时间戳或时序序号 对应数据 2026-01-01 00:00 601 2026-01-01 00:10 602 2026-01-01 00:20 603 2026-01-01 00:30 604 2026-01-01 00:40 605 2026-01-01 00:50 606 2026-01-01 01:00 607 2026-01-01 01:10 608 2026-01-01 01:20 609 2026-01-01 01:30 610 2026-01-01 01:40 611 2026-01-01 01:50 612 2026-01-01 02:00 613 2026-01-01 02:10 614 2026-01-01 02:20 615 2026-01-01 02:30 616 2026-01-01 02:40 617 2026-01-01 02:50 618 2026-01-01 03:00 619 对于这个时序数据,现在的任务是根据已有的数据,预测未来一个时间单位后的时间点的数值。现在是 03:00,要预测 03:10 的数值。当然,之后时间前进了,例如到 3:30,要预测的时间点也前进到 3:40。那就要建立一个各时间点通用的模型(不只是用于预测 03:10),即映射关系,从“某个时刻的状态 (state) x“ 到 ”未来 1 个时间单位后的时间点的数值 y“ 的映射关系。
...
网站内称呼:佬友
新佬友入站必看 入站基础指南:https://linux.do/t/topic/26306 探索汇总合集:https://linux.do/t/topic/1401642 信任等级科普:https://linux.do/t/topic/2460 等级权限表:https://linux.do/t/topic/18797
文章的部分内容被密码保护:
--- DON'T MODIFY THIS LINE --- 登录时,输入邮箱后会出现选择:电子邮件登录链接。 晋升到信任等级 1 方式如下
进入至少 5 个话题帖 阅读至少 30 个评论帖 总共花费 10 分钟阅读帖子 基本 10 分钟就能升到 1 级(会收到站内信升级通知),这样能减少被清理的概率,后续保持互动基本没问题。 v4
常见翻译(含识别错误的翻译软件格式):
Claude=Cloud Claude=clawed Superpower=Superpower Superpowers=Superpowers 插件=plugin supabase=superbase supabase=super base 对话=session 前斜线=forward slash 斜线=slash 最大 token 长度=max token 终端 Terminal=Terminal 智能体 Agent=agent 更新=update 自动补全=auto complete VS Code=vsco dor 临时处理 ad-hoc=ad-hoc 临时处理 ad-hoc=ad hoc 训练=train 训练数据=training data 训练集=training set 训练集=training dataset 训练集=training set 验证=evaluate 验证数据=evaluation data 验证集=evaluation dataset 验证集=evaluation set 测试=test 测试数据=testing data 测试集=testing dataset 测试集=testing set NPM run dev=npm run dev NPM run build=npm run build
English Chinese ad-hoc, ad hoc (fix/method) 特设的(修改/方法) training (dataset) 训练(集) n.
...
“if you plan to use deep learning extensively (>150 hrs/mo), building your own deep learning workstation might be the right move.” [medium]
Baidu AI Studio (only for PaddlePaddle) Paperspace (cooperating with fast.ai) Google Colab (cooperating with fast.ai) vast.ai (C2C/P2P sharing, very cheap, a lot of time to init/load/unload) Kaggle (max 6h, good GPU but complex steps to use) MS Azure Amazon FloydHub (special CLI interface) ref:
CN intro: Paperspace vs. Colab, 2019 Best Deals in Deep Learning Cloud Providers, 2018 比较云GPU平台
德州农工大学开源RLCard:帮你快速训练会斗地主的智能体
See simple DEF & code in 邱锡鹏 教授 2020 神经网络与深度学习.
See also:
(hands on) Basics - Machine Learning - Just-do-it, inc. books with codes Math Books Theory, Papers of Deep Learning DL > DEEP LEARNING BOOKS ( & CODES ) Favoured
#
DSML (Kroese, Botev et.al. - Chapman Press 2019-11) 《Data Science and Machine Learning: Mathematical and Statistical Methods》. With public datasets, code and pdf online. ISBN 9781138492530.
官方英文PDF 中文版:(澳) 迪尔克·P. 克洛泽 等 著,Dirk P. Kroese,于俊伟, 刘楠 (译),《数据科学与机器学习: 数学与统计方法》,机械工业出版社, ISBN 9787111711391, 2023 NNDL, Neural Networks and Deep Learning.
...
Read also:
A 20-Year Community Roadmap for Artificial Intelligence Research in the US - 109 pages, AAAI. (CN intro: 美国人工智能研究的 20 年社区路线图(讨论稿)) Best Paper Awards in Computer Science (since 1996) (cn: DataWhale) AI Benchmark: web, cn intro Cheatsheets AI 最全干货超级大列表,100+ 张速查表全了! (github) 热心网友推荐真正有价值的机器学习课程 Papers with code/data: AI 研习社 paper.yanxishe.com PapersWithCode.com (highly automated), esp. SotaBench.com (CN intro) g/zziz/pwc DatasetList.com by Nikola for CV, NLP, self-driving. DEFs Relation Overview
#
Most terminologies have been defined well, except “data mining” as the biggest concept.
...
See also:
/ml-do-it: Machine Learning - Just-do-it (hands on) Basics /ml-books Learning Machine Learning, ML Books (may w/ Codes), after some hands-on experiences /ml-understand: ML Understandability / Interpratation / Comprehensibility & Causality dl-theory /dl-do-it: Deep Learning Hands On /Math-Books: Theory, Papers of Deep Learning DL
See also:
/ml-: Machine Learning (ML) (the main item, all in one index) /dl-theory > ## cnn visualization/comprehensibility 可解释的机器学习 (What) 可解释性的重要性 (Why) 具体如何解释 (How) Insights which can be extracted from the models Permutation Importance Partial Dependency Plots SHAP Values SHAP Values in Advance LIME (万金油), Tree interpreter, etc.
凭什么相信你,我的CNN模型?关于CNN模型可解释性的思考 inc.:CAM, Grad-CAM, Lime.
Book by Christoph Molnar: Interpretable Machine Learning – A Guide for Making Black Box Models Explainable (GitHub), (CN)
...