过来人跟你说几句:找作物病虫害数据集,这几件事早该知道
第一件事:先搞清楚,你到底要的是“病”还是“虫”?
这听着像废话,但真坑了不少人。我一开始也是“病虫害病虫害”地叫,以为是一回事,结果翻了大半天才发现——它是两套完全不同的数据集。
- 病害:叶子上的斑点、霉斑、枯黄这些。经典的集像PlantVillage(官方仓库:https://github.com/spMohanty/PlantVillage-Dataset),5万多张实验室拍的单片叶子照,苹果、葡萄、番茄那些都有。这个集是免费直下的,不用注册,但注意,它是在干净背景下拍的单叶,你搬到大田里用,效果会打折扣——模型在数据集上跑95%,真做起来到地里可能掉到70%都不奇怪。
- 虫害:蚜虫、螟虫这些虫子本身。绕不开的是IP102(https://github.com/xpwu95/IP102),7.5万张图、102类害虫,其中1.9万张还带框,能做检测。也是免费直下。
别信那些“病虫害合集”的贴子,那是别人拼的拼盘,不是官方权威。先想好你要“病”还是“虫”,再去对应的地方找,省去一半时间。
第二件事:知道去哪找,但更要会挑
我刚开始也是傻乎乎全网乱搜,后来发现几个靠谱入口,按需取用就行。
国内网络最友好:飞桨AI Studio和阿里云天池
- 飞桨AI Studio(https://aistudio.baidu.com/datasetoverview):国内直接下,不用翻墙。搜“病虫害”就有PlantVillage镜像、农业病虫害辨识、小麦病害这些。要注册百度账号,但免费。
- 阿里云天池(https://tianyi.aliyun.com/):搜水稻病害(7000张)或102类害虫(2万张YOLO格式的),需要阿里云账号。也是免费。
想要真实场景的:别只看实验室集
如果你真想做成实际能用的,优先找“田间实拍”的集。比如Kaggle上的Cassava木薯叶病害(https://www.kaggle.com/competitions/cassava-leaf-disease-classification),2万多张是乌干达农民用手机在田里拍的,带杂草、光线乱七八糟的,但模型练出来搬到实际里掉点少。需要注册Kaggle账号,接受竞赛规则才能下。
还有Zenodo上的PlantSeg分割集(https://zenodo.org/records/14051480),也是田间拍的。但注意:这个集是CC BY-NC 4.0,禁止商用。你如果做商业项目,看到“NC”就要立刻绕道。
一个提醒:失效的集别死磕
有个AI Challenger 2018农作物病害集(61类、4.7万张),国内以前很有名。但原官网已经停运了,现在网上只有第三方转存的百度网盘链接(https://github.com/spytensor/plants_disease_detection,提取码iksk)。这玩意随时可能挂,完整性也没人保证。与其赌这个,不如直接用飞桨或天池上同类集,更稳当。
第三件事:许可证必须看,别踩版权坑
这是最容易出事的。我说几个典型:
- PlantVillage:大多说是CC BY 3.0(署名即可),但以官方仓库的LICENSE为准。
- Zenodo上PlantSeg:CC BY-NC 4.0,不能商用,否则可能被告。
- Kaggle上的Cassava:受竞赛规则约束,得看清楚能不能商用。
做商业项目之前,必须逐个核对官方页面的LICENSE,别信镜像站标注的。另外,二手资料里的数字也别照搬(比如PlantVillage有说54305的、有说54306的),以官方一手为准。
第四件事:如果嫌太散,想省力点
上面这些来源散在七八个平台,“病”和“虫”两套、“实验室”和“田间”两种货、许可证还各有不同——挨个翻、挨个判断能不能下、能不能商用,确实费时费力。
我当初就是这么干的,翻了两天才理清头绪。如果你不想自己逐个平台核验,也可以让数聚天成 DeepSData帮你做一次深度数据可得性检索:你说需求,我们帮你把散落在各处的来源一次性归拢,按“病害/虫害”“实验室/田间”“分类/检测/分割”分好类,然后诚实告诉你每个集到底能不能真拿到——是免费直下、要注册、要接受规则,还是官方已失效只剩第三方转存,以及许可证能不能商用。失效的(比如AI Challenger)会如实标出来,并给你替代路径。
它不承诺“一定找得到”,但保证覆盖够广、研判够诚实。你不用自己一个一个试,把精力省下来干正事。要不要用,看你自己。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://github.com/spMohanty/PlantVillage-Dataset
- https://www.kaggle.com/datasets/emmarex/plantdisease
- https://huggingface.co/datasets/BrandonFors/Plant-Diseases-PlantVillage-Dataset
- https://github.com/xpwu95/IP102
- https://www.kaggle.com/datasets/rtlmhjbn/ip02-dataset
- https://aistudio.baidu.com/datasetoverview
- https://tianchi.aliyun.com/
- https://www.kaggle.com/competitions/cassava-leaf-disease-classification
- https://github.com/spytensor/plants_disease_detection
- https://zenodo.org/records/14051480
- https://zhuanlan.zhihu.com/p/451142782
