数据集(Datasets)


以下数据集都来源于公开数据集,主要用于《机器学习》、《深度学习》、《计算机视觉》等课程教学使用。


序号 名称 数据集描述 课程 下载
1 鸢尾花数据集
  • 鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用其作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法,从此而被众人所知,尤其是在机器学习这个领域。
  • 鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。
  • 《机器学习》
  • 《机器学习实训》
  • 《深度学习》
2 MNIST手写字体
  • MNIST数据集包含70000个样本,其中训练集60000个,测试集10000个。每个样本都分为图片和标签,图片是28*28的像素矩阵,标签是0~9的10个数字。
  • 《机器学习》
  • 《机器学习实训》
3 Adult成人相亲
  • 该数据集由Barry Becker从1994人口普查数据库中提取得到。该数据集包含48842个连续或离散的实例。其中训练集32561个,测试集16281个。 预测任务是确定一个人年薪是否超过50K。
  • 《机器学习》
4 糖尿病预测数据集
  • 该数据集包含数据集中共包含768个样本(entries),每个样本8种特征。其中Outcome是样本的标签(即类别),0表示没有糖尿病,1表示患有糖尿病。
  • 《机器学习》
5 LFW人脸识别数据集
  • LFW (Labled Faces in the Wild)人脸数据集:是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。当然,在深度学习流行的今天,LFW数据集的识别率已经达到99.78%。
  • 《机器学习》
6 Stock股票信息
  • 该数据集是2020年2月15日收盘之后从证券交易软件中导出的数据。包含3776个样本,每个样本包含10种特征。可以用来演示各种回归算法,预测股票的涨跌。
  • 《机器学习》
7 Caltech101-16类
  • Caltech101的图像分类中抽取其中16类。
  • 《深度学习实训》
8 Gesture手势识别
  • Gesture是土耳其Ankara Ayrancı Anadolu高中搜集的学生手势数据集,该数据集包含数据集中共包含0-9的手势共10个类别,2062个样本(entries),每个样本都是彩色图片。 Gesture文件夹中,包含Main和infer两个子文件夹,其中Main包含训练和测试的所有样本,infer是用于推理的10个样本。
  • 《深度学习》
9 车牌识别数据集
  • VehicleLicense车牌识别数据集包含16151张单字符数据,所有的单字符均为严格切割且都转换为黑白二值图像(如下第一行:训练数据所示)。真实检测的数据如下图(第二行:原始车牌)所示。第三行处理后的车牌是根据真实检测的车牌进行精致编辑,总共包含8幅720×170的测试样本(test01-08)。
  • 注意:由于本例中的测试代码并没有包含严格图像分割及预处理代码,因此无法很好识别原始车牌及非标准车牌(标准车牌为蓝底白字,光线充足),此例仅供简单验证。
  • 数据集中包含三个文件夹:dataset, Infer, Infer0。其中dataset为训练验证测试数据,Infer为处理后的车牌,Infer0为原始车牌。
  • 《深度学习》
10 CIFAR10数据集
  • CIFAR-10 是一个包含60000张图片的数据集。其中每张照片为32*32的彩色照片,每个像素点包括RGB三个数值,数值范围 0-255。所有样本分为10个类别,分别是: 'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'。其中50000张训练集,10000张测试集。
  • 《深度学习》
11 蔬菜数据集(三类)
  • 该数据包含黄瓜(cuke)、莴笋(lettuce)、莲藕(lotus_root)三个类别,共计300个样本。 数据中包含一个划分数据集的代码,可实现按照7:1:2的比例划分vegetables数据集。此外,数据集中包含额外的12幅图片用于做预测。
  • 《深度学习》