TensorFlow 中最大的 30 个机器学习数据集

作者:Limarc Ambalina
编译:ronghuaiyang

导读: 包括图像,视频,音频,文本,非常的全。

由谷歌 Brain 的研究人员创建的 TensorFlow 是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow 库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的 TensorFlow 数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

  1. CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过 20 万名名人的图像。

celebrity face images dataset 每幅图像包含 5 个面部特征点和 40 个二值属性标注。

  1. Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含 130 多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32 和 64 x 64。
  2. Lsun – Lsun 是一个大型图像数据集,用于帮助训练模型理解场景。数据集包含超过 900 万张图像,这些图像被划分为场景类别,例如卧室、教室和餐厅。
  3. Bigearthnet – Bigearthnet 是另一个大型数据集,包含来自 Sentinel-2 卫星的航空图像。每幅图像覆盖 1.2 km x 1.2 km 的地面。每张图像包括 43 个不平衡标签。
  4. Places 365 – 顾名思义,Places 365 包含了 180 多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365 是用于场景识别任务的最大数据集之一。
  5. Quickdraw Bitmap – Quickdraw 数据集是 Quickdraw 玩家社区绘制的图像集合。它包含了 500 万幅横跨 345 个类别的画作。这个版本的 Quickdraw 数据集包括 28 x 28 灰度格式的图像。
  6. SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个 TensorFlow 数据集,用来训练数字识别算法。它包含 600,000 个真实世界的图像数据样本,这些数据被裁剪成 32 x 32 像素。
  7. VGGFace2 – 最大的人脸图像数据集之一,VGGFace2 包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有 362 张图像。
  8. COCO – 由谷歌,FAIR, Caltech 和更多的合作者制作,COCO 是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset 数据集包含 330,000 张图像,其中 200,000 张已被标注。在这些图像中有分布在 80 个类别中的 150 万个物体实例。

10、Open Images Challenge 2019 – 包含大约 900 万幅图像,这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码,以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4 有 600 个不同的物体类包含 1460 万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含 2000 个面部图像,所有标注了 3D 人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的 UCF101 是一个用来训练动作识别模型的视频数据集。该数据集有 13,320 个跨越 101 个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的 BAIR Robot Pushing 包含了 44000 个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是 MNIST 基准数据集的一个变体,Moving MNIST 包含 10,000 个视频。

16、EMNIST – 扩展 MNIST 包含从原始 MNIST 数据集转换为 28 x 28 像素格式的数字。



音频数据集

17、CREMA-D – CREMA-D 是为情感识别任务而创建的,包括声音情感表达。这个数据集包含 7,442 个音频片段,由 91 个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech 是一个简单的音频数据集,它包含 1000 小时的英语语音,这些语音来自 LibriVox 项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约 585 小时的英语演讲,是在谷歌 Brain team 成员的协助下准备的。Libritts 最初是为文本到语音(TTS)研究设计的,但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium 是一个包含超过 110 小时的英语 TED 演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb 是一个用于扬声器识别任务的大型音频数据集,包含来自 1,251 名扬声器的超过 150,000 个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common 抓取是 Web 页面数据的开放源码存储库。它有 40 多种语言,涵盖了 7 年的数据。

23、Civil Comments – 这个数据集包含了来自 50 个英语新闻网站的超过 180 万份公众评论。

24、IRC Disentanglement – 这个 TensorFlow 数据集包含了来自 Ubuntu IRC 频道的 77000 多条评论。每个样本的元数据包括消息 ID 和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试,它包含 10 亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含 570,000 对人类书写的句子的语料库。所有对都经过人工标记,以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的 SNLI 的扩展,它包含了原始数据集的 570,000 对句子,分类为:entailment,contradiction 和 neutral。

28、MultiNLI – 以 SNLI 数据集为模型,MultiNLI 包括 433,000 对句子对,它们都标注了 entailment 信息。

29、Wiki40b – 这个大规模数据集包括来自 40 种不同语言的维基百科文章的文本。数据已经被清洗,非内容部分以及结构化对象已经被删除。

30、Yelp Polarity Reviews – 这个数据集包含 59.8 万个高度两极分化的 Yelp 评论。它们是从 2015 年 Yelp 数据集挑战赛的数据中提取出来的。

英文原文:https://lionbridge.ai/datasets/tensorflow-datasets-machine-learning/


本文地址:https://www.6aiq.com/article/1594376861493
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出