Time Series

Time Series Dataset to Tabular Dataset for Machine Learning Deep Learning 时间序列表格化,用于机器学习/深度学习

2026-03-03. Category & Tags: Machine Learning, Tabular Dataset, Time Series

引言 # 阅读本文的前提:已知机器学习相关基本概念,详见 /ml-do-it )。 由于表格形式的数据集(tabular dataset,例如下图),是大部分机器学习算法所接受的格式,因此各种数据的表格化是非常重要的思维范式。 ref 表格化的方法关键词:时滞 OR 前导,搜索关键词 lag OR lead,对应 python 函数 shift。 而时间序列数据(time-series data 简称 时序数据),如下图所示,一般包括时间戳和当时的数据数值。大部分数据集内相邻的采样点是时间间隔相等,例如 10 分钟(更低频率采样的数据集可能是 1 小时 、1 天等等)为一个采样时间单位。 时间戳或时序序号 对应数据 2026-01-01 00:00 601 2026-01-01 00:10 602 2026-01-01 00:20 603 2026-01-01 00:30 604 2026-01-01 00:40 605 2026-01-01 00:50 606 2026-01-01 01:00 607 2026-01-01 01:10 608 2026-01-01 01:20 609 2026-01-01 01:30 610 2026-01-01 01:40 611 2026-01-01 01:50 612 2026-01-01 02:00 613 2026-01-01 02:10 614 2026-01-01 02:20 615 2026-01-01 02:30 616 2026-01-01 02:40 617 2026-01-01 02:50 618 2026-01-01 03:00 619 对于这个时序数据,现在的任务是根据已有的数据,预测未来一个时间单位后的时间点的数值。现在是 03:00,要预测 03:10 的数值。当然,之后时间前进了,例如到 3:30,要预测的时间点也前进到 3:40。那就要建立一个各时间点通用的模型(不只是用于预测 03:10),即映射关系,从“某个时刻的状态 (state) x“ 到 ”未来 1 个时间单位后的时间点的数值 y“ 的映射关系。 ...