ML - Just-do-it (hands on) Basics, of Machine Learning
See also: ML books. This article collects some useful materials for non-theory learners like engineers. 快速开始 QUICK START # ref 对于一般意义的建模,如上图,从给定的蓝色数据点采样数据集,通过一些计算步骤(例如最小二乘算法的各个步骤),可以拟合出一个从 自变量 x 到 因变量 y 的映射关系/函数,例如 $y=0.5 x^2 + 15000$。在机器学习中,这个具体的能够直接从输入的数据 (自变量) x=(x1, x2 … xn) 计算出预测值 y 的映射关系/函数,称为模型,而从给定的采样数据集,计算出这个模型的步骤,称为算法。(输入、输出都可能是多个变量,例如 y=(y1, y2…yn) ) 大部分机器学习算法接受的数据是表格式数据集(Tabular Dataset),例如房价数据表格: ref 模型可以用一个事物(此处为房子)的多个容易直接获得的 " 特征 (features)",例如: 面积、卧室数量、浴室数量、地段分、房龄 等等,来预测不容易直接获得的一个或多个属性,例如: 房价,被预测的属性,称为 " 标签 label 或 目标 target “。特征可以理解为自变量 x,标签/目标可以理解为因变量 y。 如果标签是连续数值(例如房屋价格),通过此数据集计算出模型的算法即为回归算法,如果是类别(例如鸢尾花的种类),算法即为分类算法。(ps: 标签是带有顺序的分类的有序分类算法、不用标签无监督学习算法等等,暂时不用在意。) 经典机器学习(Classic Machine Learning) # Hello-world: 泰坦尼克幸存预测(分类) 简单算法,搜索:泰坦尼克 机器学习 sklearn sklearn 即 sci-kit learn 包,内有有很多常用算法,例如(选一个复现即可) Github code , Gitee bak AaronJny/simple_titanic: scikit-learn在kaggle Titanic数据集上的简单实践。 还可以用 graphviz 画图1 画图2 进阶算法,搜索:xgb 房价预测(回归) XGB,即 xgboost,通用(分类回归通吃、允许缺失值)、高性能,因此经久不衰。例如: Regression by XGBoost 基于XGBoost的回归预测实践 , bak XGBoost算法回归任务:房价预测 - Heywhale. ...