经典房颤基准:MIT-BIH Atrial Fibrillation Database
MIT-BIH Atrial Fibrillation Database 是房颤检测领域用得最久的基准之一,含 25 条长程动态心电记录(多为阵发性房颤),每条约 10 小时、双导联、采样率 250 Hz。它的标注是按节律分段给出的(.atr 文件),类型包括 AFIB(房颤)、AFL(房扑)、J(交界性心律)和 N(其他),并附预先计算好的 R 波位置。开放获取、免费直接下载,遵循 Open Data Commons Attribution 许可。做房颤起止检测、节律分段,这通常是第一站。
短单导分类竞赛数据:PhysioNet/CinC Challenge 2017
PhysioNet/CinC Challenge 2017 面向「从一段 30 到 60 秒的短单导心电中判断是否房颤」,训练集 8528 条单导记录,采样率 300 Hz,由 AliveCor 便携设备(手指接触双电极)采集,长度多在 9 到 60 秒。标注是整条记录一个标签,分为 N(正常窦律)、A(房颤)、O(其他心律)、~(噪声)。开放获取、免费下载。它最贴近可穿戴 / 手持设备场景,但房颤样本占比不高,类别不平衡明显。
长程动态监测:Long Term AF Database
Long Term AF Database 含 84 条长程记录,每条约 24 到 25 小时、双导联、采样率 128 Hz,受试者为阵发性或持续性房颤患者。它同时提供自动 QRS 标注和经人工核对的参考标注(含逐拍类型与节律变化),适合研究房颤在长时间内的发作、终止与转换。开放获取、免费下载。注意采样率只有 128 Hz,与其他数据集混用时往往需要重采样。
海量逐拍标注:Icentia11k
Icentia11k 是规模极大的连续单导原始心电数据集,来自 11000 名使用 CardioSTAT 设备的患者,单导、采样率 250 Hz,单人最长约两周,逐拍标注总量达数十亿。节律标签包含正常窦律、房颤(AFib)、房扑(AFlutter),由技师团队全程审核。开放获取,但许可为 CC BY-NC-SA 4.0(非商用、相同方式共享),且未压缩体量约 1.1 TB,下载存储前要预留空间。适合做表征学习、大规模预训练。
大规模临床 12 导:PTB-XL
PTB-XL 含 21799 条 10 秒标准 12 导临床心电,来自 18869 名患者,提供 500 Hz 与 100 Hz 两种采样率版本。标注由心脏科医生按 SCP-ECG 标准给出,覆盖诊断、形态与节律三类陈述,房颤作为节律类陈述包含在内(每条可有多个标签)。开放获取、免费下载,CC BY 4.0 许可,并自带推荐的训练 / 测试划分。适合做多标签分类与跨任务基准,但具体房颤记录数以官方页面为准。
多类别 12 导竞赛数据:CPSC 2018
CPSC 2018(中国生理信号挑战赛 2018)含 6877 条 12 导心电(另有 CPSC-Extra 约 3453 条),采样率 500 Hz,长度 6 到 60 秒,覆盖一种正常与八种异常类型,房颤(AF)是其中之一。该数据现可通过 PhysioNet/CinC Challenge 2020 的源数据获取,开放获取、CC BY 4.0 许可。整条记录级别标注,适合做多类别 12 导分类。
多中心汇总:PhysioNet/CinC Challenge 2020
如果你想一次性拿到跨多个数据库、统一格式的 12 导数据,PhysioNet/CinC Challenge 2020 汇总了 CPSC、PTB/PTB-XL、INCART、Georgia 等来源,公开训练数据数万条,采样率因来源而异(500 Hz 居多,PTB 为 1000 Hz、INCART 为 257 Hz),标注采用统一的 SNOMED CT 诊断编码,房颤是其中明确的诊断标签之一。开放获取、CC BY 4.0。它是做大规模、多源 12 导研究的便利入口,但要留意各子库采样率和导联细节不一致。
含房颤片段的经典库:MIT-BIH Arrhythmia Database
MIT-BIH Arrhythmia Database 是心律失常研究的奠基性数据集,含 48 段约半小时的双导联记录(47 名受试者),采样率 360 Hz,逐拍标注约 11 万条,同时带节律标注,其中部分记录包含房颤(AFIB)节律段。开放获取、免费下载。它本身不是房颤专用库,但常被用作补充房颤片段或做跨库验证。
选择建议与常见坑
按用途挑来源:做房颤检测(有 / 无、起止)优先看 MIT-BIH AFib 与 Long Term AF,节律分段标注最对口;做单导 / 可穿戴场景的二分类或四分类,用 Challenge 2017;做 12 导多类别分型,用 PTB-XL、CPSC 2018 或汇总后的 Challenge 2020;做长程监测、表征学习或大规模预训练,用 Icentia11k;要补充经典房颤片段或跨库验证,用 MIT-BIH Arrhythmia。
几个反复踩的坑要提前注意:一是标注口径不一致,节律分段、逐拍、整条单标签互不等价,混用前要先统一定义,别把整条标签当成逐拍真值;二是类别严重不平衡,房颤样本往往远少于正常窦律,直接训练容易学偏,需要重采样或加权;三是采样率不统一(128 / 250 / 300 / 360 / 500 / 1000 Hz 都有),跨库合并几乎一定要重采样并对齐滤波带宽;四是导联与设备差异,单导设备数据和临床 12 导不能简单互通;五是许可差别,多数为 CC BY 或 Open Data Commons 可自由使用,但 Icentia11k 为非商用许可,产品化前务必逐条核对。
如果你不确定某个房颤 ECG 数据集现在还能不能下、标注方式是否符合你的任务,数聚天成的检索服务可以帮你跨多个公开来源定位与核对——我们只做诚实的检索定位,不夸大覆盖、不承诺独家,记录数、采样率与条款一律以各来源官方页面为准。
参考来源
- https://physionet.org/content/afdb/1.0.0/
- https://physionet.org/content/challenge-2017/1.0.0/
- https://physionet.org/content/ltafdb/1.0.0/
- https://physionet.org/content/icentia11k-continuous-ecg/1.0/
- https://physionet.org/content/ptb-xl/1.0.3/
- https://physionet.org/content/challenge-2020/1.0.2/
- https://physionet.org/content/mitdb/1.0.0/
