ML - Just-do-it (hands on) Basics, of Machine Learning

ML - Just-do-it (hands on) Basics, of Machine Learning

2017-03-13. Category & Tags: Machine Learning

See also: ML books.

This article collects some useful materials for non-theory learners like engineers.

快速开始 QUICK START #

image.png ref

对于一般意义的建模,如上图,从给定的蓝色数据点采样数据集,通过一些计算步骤(例如最小二乘算法的各个步骤),可以拟合出一个从 自变量 x因变量 y 的映射关系/函数,例如 $y=0.5 x^2 + 15000$。在机器学习中,这个具体的能够直接从输入的数据 (自变量) x=(x1, x2 … xn) 计算出预测值 y 的映射关系/函数,称为模型,而从给定的采样数据集,计算出这个模型的步骤,称为算法。(输入、输出都可能是多个变量,例如 y=(y1, y2…yn) )

大部分机器学习算法接受的数据是表格式数据集(Tabular Dataset),例如房价数据表格:

image.png ref

模型可以用一个事物(此处为房子)的多个容易直接获得的 " 特征 (features)",例如: 面积、卧室数量、浴室数量、地段分、房龄 等等,来预测不容易直接获得的一个或多个属性,例如: 房价,被预测的属性,称为 " 标签 label 或 目标 target “。特征可以理解为自变量 x,标签/目标可以理解为因变量 y。

如果标签是连续数值(例如房屋价格),通过此数据集计算出模型的算法即为回归算法,如果是类别(例如鸢尾花的种类),算法即为分类算法。(ps: 标签是带有顺序的分类的有序分类算法、不用标签无监督学习算法等等,暂时不用在意。)

经典机器学习(Classic Machine Learning) #

Hello-world: 泰坦尼克幸存预测(分类)

特殊数据之时间序列 #

基本思维:先学会复现 时序数据表格化 (Tabular Data) +Hello-world 级别普通算法。 (另外还有 " 差分 " 等方法用来稳定序列,但不属于 " 表格化 " 要讨论的内容。)

【先看此文】: Time Series Dataset to Tabular Dataset 时间序列表格化

时间序列分析–时间序列常用3种运算(时滞-前导-差分)_哔哩哔哩_bilibili, (bak:YT-bingo)

(时间序列预测基本概念 - 知乎, bak1 (bak2)

image.png

时间序列预测概述 - 知乎 bak1, bak2

ps: 还有一个偏统计学和数字信号处理的偏门算法: prophet

深度学习(Deep Learning) #

Hello-world: 手写数字识别

特殊数据之时间序列 #

Hello-world: LSTM

跟随更多教程 SOME TUTORIALS #

Book: python-machine-learning-book code on github

ML from scratch (py) Erik Linder-Norén, Stockholm

Machine learning, in numpy (so, also scratch, but a lot Neural Nets & RL) David Bourgin, CA

7 Types of Regression Techniques you should know (modern regressions) analyticsvidhya evernote backup

GitHub 标星 1.3k!一款功能强大的特征选择工具 2019.11

Causality analysis: MS dowhy, Causalinference in py (inactive), CausalInference in Julia, IBM causallib etc.

Machine Learning Logistics, by Ted Dunning, Ellen Friedman @O’Reilly full text. Keywords: Rendezvous Architecture; Data Science in Production; Model Management from the Front Lines.

Rendezvous Architecture.puml example by PlantUML component-diagram (组件图): planttext url