交通流预测数据集去哪找:PeMS 衍生基准与国内可得入口

交通流预测是时空图神经网络研究的核心任务之一,公开数据相对成熟,找起来并不算难。这个领域的研究几乎共用同一套底座:加州交通局(Caltrans)PeMS 系统采集的探测器数据,以及由它衍生出来的一组标准基准集(PEMS03、PEMS04、PEMS07、PEMS08,配合速度类的 METR-LA、PEMS-BAY)。国内相关论文里,大多数用的都是这几个集或它们的整理版。真正需要留意的差别在于两点:一是「原始逐探测器数据」和「已经整理好、可以直接跑」的打包版之间隔着注册、申请或解压密码这道门槛;二是国内官方渠道(交通运输部、国家统计局)只有宏观统计口径,拿不到路段级的逐分钟流量。下面按这个思路,把可用来源逐个列清楚。

去哪找:真实来源清单

原始来源:加州 PeMS 系统

几乎所有 PEMS 基准集都源自这里。它实时接入约 4 万个探测器,覆盖加州各大都会高速,提供十余年的历史归档数据;原始探测器每 30 秒采一次,通常聚合成 5 分钟一格使用。

  • 加州交通局 PeMS 官方系统:https://pems.dot.ca.gov

所有 PEMS 基准集的原始真身。批量取数需要注册账号,门槛较高,且以加州高速为主、非国内路网。以官方页面为准。

  • Caltrans PeMS 数据源说明页:https://dot.ca.gov/programs/traffic-operations/mpr/pems-source

官方对 PeMS 数据来源与归档服务的说明,可用来核实数据覆盖范围与获取方式。

因为直接从官方站取原始数据门槛高,研究者普遍改用别人整理好的打包版(见下文 GitHub 仓)。

国内直接可访问的现成入口

这几个平台在国内访问稳定,多数无需额外门槛,是最省事的起点。

  • 阿里云天池 交通流量数据集:https://tianchi.aliyun.com/dataset/200110

国内可直接访问的现成交通流量数据集入口。天池为国内较大的数据平台,脱敏开放。具体格式与许可以数据集页面为准。

  • 百度飞桨 AI Studio 智慧交通流量预测数据集:https://aistudio.baidu.com/aistudio/datasetdetail/40468

国内免额外门槛可取的交通流量预测集,可在飞桨平台直接建模训练。

  • 百度飞桨 AI Studio Q-traffic 交通预测数据集:https://aistudio.baidu.com/aistudio/datasetdetail/76

较为少见的、基于百度地图的国内交通预测集,含三个子集;研究/个人用途免费,商用需另获授权。

  • 飞桨 AI Studio 交通领域数据集集锦:https://aistudio.baidu.com/aistudio/projectdetail/3438634

把交通领域多个数据集汇总的项目页,适合快速浏览国内可得资源。

国际学术源

  • UCI 机器学习库 Traffic Flow Forecasting:https://archive.ics.uci.edu/dataset/608/traffic+flow+forecasting

约 4.2MB,CC BY 4.0 许可,可用 ucimlrepo 包直接导入代码。权威学术源,适合入门与复现。

  • Kaggle Traffic Prediction Dataset:https://www.kaggle.com/datasets/fedesoriano/traffic-prediction-dataset

四个路口的逐小时流量数据。Kaggle 需登录,国内访问可能需科学上网。

  • LargeST 大规模加州交通预测基准(NeurIPS 2023):https://github.com/liuxu77/LargeST

目前规模最大的加州交通预测基准,含 2017–2021 年的 h5 格式流量、传感器元数据 csv、邻接矩阵 npy;CA 子集托管在 Kaggle。

打包下载最省事:研究者的 GitHub 仓

想复现论文基准,直接从这些仓取数最快,它们已经把 PEMS 系列整理成可直接运行的格式。

  • Davidham3/STSGCN(PEMS03/04/07/08 打包):https://github.com/Davidham3/STSGCN

研究者整理的 PEMS 系列打包源,STSGCN_data.tar.gz 解压密码为 p72z。属第三方整理,链接与密码以仓库 README 为准。

  • guoshnBJTU/ASTGCN-2019-pytorch(PEMS04/08 数据):https://github.com/guoshnBJTU/ASTGCN-2019-pytorch

ASTGCN 官方 pytorch 版,data 目录直接带 PEMS04/PEMS08 流量数据,是复现论文最省事的取数路径之一。

  • LibCity 原始数据文档(多集统一格式):https://bigscity-libcity-docs.readthedocs.io/en/latest/user_guide/data/raw_data.html

把多个交通时空数据集统一成一致格式并集中托管,适合一站取多集、做横向对比。

多城市与速度类补充源

  • UTD19 多城市交通数据集(ETH Zurich):https://utd19.ethz.ch/

汇集全球 40 城、2.3 万余个固定探测器,号称公开可得的最大多城市交通集。需在其页面申请访问。

  • witgaw/METR-LA(Hugging Face):https://huggingface.co/datasets/witgaw/METR-LA

METR-LA 速度基准集的 Hugging Face 托管版,便于用 datasets 库直接加载。HF 访问可能需科学上网。

  • IEEE DataPort 加州交通网络数据集(打包·受限):https://ieee-dataport.org/documents/california-traffic-network-datasets-metr-la-pems-bay-pems04-and-pems08-traffic-speed-and

把 METR-LA、PEMS-BAY、PEMS04、PEMS08 整合打包,但下载需 IEEE DataPort 订阅,属受限源。

国内官方(宏观统计,非可建模流量)

需要说明的是,下面两个官方源提供的是统计口径,不是路段级的逐分钟流量时序,无法直接用于交通流预测建模。列在这里,是为了让你少走弯路:如果你要的是「国内城市的真实路段流量」,官方公开渠道基本给不了。

  • 交通运输部 数据频道:https://www.mot.gov.cn/shuju/

官方发布货运量、港口吞吐、城市客运、跨区域人流等统计口径,非路段级逐分钟流量。

  • 交通运输部 数据开放专栏:https://www.mot.gov.cn/sjkf/

47 个无条件开放数据集约 600 万条,含线路站点、班次、货车信息等;仍属统计/名录类,非原始流量时序。

  • 国家统计局 交通运输统计入口:https://www.stats.gov.cn/fw/bmdcxmsp/bmdcxmml/202302/t20230215_1906998.html

与交通运输部协同的统计调查项目目录,宏观指标口径。想要国内城市真实路段流量,公开基本拿不到,以官方页面为准。

可得性与替代路径

  • 哪些能免登录直取:国内入口(天池、飞桨)通常无需额外门槛即可访问;GitHub 打包版(STSGCN、ASTGCN、LibCity)可直接下载,适合复现论文;UCI 集可用代码包一行导入。这三类是最顺的起点。
  • 哪些需要注册或申请:加州 PeMS 官方站要注册账号才能批量取原始数据;UTD19 需在其页面申请访问;Kaggle、Hugging Face 需登录,国内访问可能需科学上网。
  • 哪些受限:IEEE DataPort 上的加州交通网络打包集需要订阅才能下载。
  • 找不到时的替代:如果只是想跑通交通流预测的基准实验,用加州 PeMS 衍生集(PEMS03/04/07/08、METR-LA、PEMS-BAY)即可,它们是这个领域事实上的通用底座;不必执着于从官方站取原始逐探测器数据。和鲸社区本轮未检索到专门的交通流量原始集直链,如需在该平台查找,建议以「交通流量」「交通预测」为关键词站内自查,以其官方页面为准。

需要明确的一个局限:想要国内城市路段级的真实流量,公开渠道基本没有,通常只能依靠地方交管合作,或使用高德、百度等商业地图 API(收费、有配额)。不要拿加州的数据硬套国内场景后当作国内真实流量使用。

使用前须知

  1. 许可以官方页面为准,商用尤其要核对。UCI 的 Traffic Flow Forecasting 为 CC BY 4.0;百度 Q-traffic 等基于地图的数据集限研究/个人用途,商用需另获授权。其余数据集的具体许可,请回到各数据集官方页面确认,不要默认可用。
  2. GitHub 打包版是第三方整理。像 STSGCN_data.tar.gz 带解压密码 p72z 这类,链接与密码可能随仓库更新而变动,请以对应仓库 README 为准。
  3. 数量与覆盖为概述口径。文中传感器数量、时间跨度等为常见口径,具体以你实际下载到的版本为准。
  4. 注意同名相近的数据集与子集归属。PEMS03/04/07/08 是流量类、METR-LA 与 PEMS-BAY 是速度类,选用前先确认任务需要的是流量还是速度;引用论文编号或链接时逐一核对归属,别把一个集的信息安到另一个上。

如果来源太分散

这类需求的真正痛点,往往不是「有没有数据」,而是数据散在加州官方站、十几个研究者的 GitHub 仓、天池/飞桨/Kaggle/UCI 各家平台之间,且「原始逐探测器」和「已整理好可直接跑」之间隔着注册、申请、解压密码的门槛。

如果你觉得来源太分散、或想节省逐一试错验证的时间,数聚天成可以做一次深度数据可得性检索:把原始真身在哪、现成打包在哪、国内免登录能直取的在哪理成一张清单,并对每个来源如实告知到底能不能拿到——比如国内路段级真实流量公开基本拿不到、IEEE DataPort 那条要订阅、官方站要注册——而不是甩一堆链接让你自己判断。找不到对口来源时,我们也会如实说明,并给出替代路径。

说明:本文为公开资料整理,仅供参考;平台政策、许可、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。