数据集(Datasets)


以下数据集都来源于公开数据集,主要用于《机器学习》、《深度学习》、《计算机视觉》等课程教学使用。


序号 名称 数据集描述 课程 下载
1 鸢尾花数据集
  • 鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用其作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法,从此而被众人所知,尤其是在机器学习这个领域。
  • 鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。
  • 《机器学习》
  • 《机器学习实训》
  • 《深度学习》
2 MNIST手写字体
  • MNIST数据集包含70000个样本,其中训练集60000个,测试集10000个。每个样本都分为图片和标签,图片是28*28的像素矩阵,标签是0~9的10个数字。
  • 《机器学习》
  • 《机器学习实训》
3 Adult成人相亲
  • 该数据集由Barry Becker从1994人口普查数据库中提取得到。该数据集包含48842个连续或离散的实例。其中训练集32561个,测试集16281个。 预测任务是确定一个人年薪是否超过50K。
  • 《机器学习》
4 糖尿病预测数据集
  • 该数据集包含数据集中共包含768个样本(entries),每个样本8种特征。其中Outcome是样本的标签(即类别),0表示没有糖尿病,1表示患有糖尿病。
  • 《机器学习》
5 LFW人脸识别数据集
  • LFW (Labled Faces in the Wild)人脸数据集:是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。当然,在深度学习流行的今天,LFW数据集的识别率已经达到99.78%。
  • 《机器学习》
6 Stock股票信息
  • 该数据集是2020年2月15日收盘之后从证券交易软件中导出的数据。包含3776个样本,每个样本包含10种特征。可以用来演示各种回归算法,预测股票的涨跌。
  • 《机器学习》
7 Caltech101-16类
  • Caltech101的图像分类中抽取其中16类。
  • 《深度学习实训》