AI 开源数据集 Top 39 NLP、语音等 6 大类

来源:未知 浏览 94次 时间 2021-06-09 00:04

下面是一些精心收集的非常好的开放数据集也是人工智能研究中不应该错过的数据集。

标签解释

[经典]这些是人工智能领域非常著名的数据集。很少有研究人员或工程师从未听说过它们。

[有用]这些是精心设计的数据集更接近真实世界。此外SEO排名服务更接近真实世界。此外这些数据集通常对产品和研发都很有用

[学术]这些数据集通常被用作机器学习和人工智能学术研究的基准或基线。无论好坏研究人员使用这些数据集来验证算法。

[过时]这些数据集不管是否实用都有很长的历史。

计算机视觉
[学术、经典和过时] MNIST:最常用的完整性检查数据集B&W手写数字图像大小为25×25但在MNIST上的良好性能并不意味着模型本身是好的。

地址:

[经典旧] CIFAR 10安培;Cifar 100: 32× 32彩色图像数据集虽然不常用但也可用作完整性检查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

[实用、学术、经典]图像网:新算法实际使用的图像数据集。许多图像应用编程接口公司从他们的REST接口获得标签网站优化但也可用作完整性检查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

[实用、学术、经典]图像网:新算法实际使用的图像数据集。许多图像应用编程接口公司从他们的REST接口获得标签这被怀疑是类似于1000类的WordNet下一级的ImageNet。

地址:

LSUN:用于场景理解和多任务辅助(房间布局估计、重要性预测等)。)。

地址:

[学术] PASCAL VOC:一个通用的图像分割/分类数据集它对于真实图像的注释不是特别有用但是对于基线非常有用。

地址:

[学术] SVHN:数据来自谷歌街景中的房屋数量它可以被用作野外的周期性MNIST。

地址:

可可小姐:一个通用的图像理解/字幕数据集。

地址:

[有用]视觉基因组:一个非常详细的视觉知识数据集包含大约10万幅图像的深字母。

地址:

[有用的学术的经典的过时的]野外标记人脸:用名字标识符标记的人脸区域数据集常用于训练人脸识别系统。

地址:

自然语言处理
[有用和学术]文本分类数据集:一个文本分类数据集包含8个子数据集可用于文本分类样本大小从12万到3.6M问题范围从2年级到14年级。这些数据来自DBPedia、亚马逊、Yelp和雅虎!搜狗和股份公司。

地址:

[实用和学术]维基文本:一个大型语言建模语料库由Salesforce MetaMind设计来源于维基百科文章。

地址:

[有用]问题对:来自Quora的第一个数据集包含重复/语义相似性标签。

地址:https://data . quora . com/first-quora-dataset-release-question-pairs

[有用的学术的]小组:斯坦福大学的问答数据集被广泛用于问答和阅读理解其中每个问题和答案都以文本片段的形式出现。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU问答数据集:人工生成的问题/答案对根据维基百科文章进行难度评级。

地址:~ark/QA-data/

[有用]马鲁巴数据集:用于有状态自然语言理解研究的人工精细数据集。

地址:https://datasets.maluuba.com/

[有用的学术的]十亿字:一个大的和通用的语言建模数据集通常用于分布式的字表示如word2vec或手套。

地址:

【有用学术】普通爬行:十亿字节规模的网络爬行数据集常用于学习单词嵌入。

地址:

bAbi:阅读理解和回答FAIR问题的数据集。

地址:https://research.fb.com/projects/babi/

[学术]儿童书籍测试:从古腾堡项目的儿童书籍中提取的基线(问题+背景答案)。这个数据集对回答问题、阅读理解和模拟陈述很有用。

地址:https://research.fb.com/projects/babi/

斯坦福情感树库:一个标准的情感数据集其中每个句子分析树的每个节点都有精细的情感注释。

地址:

[经典过时] 20个新闻组:文本分类的经典数据集通常用于纯分类或作为任何红外/索引算法的基准。

地址:~jason/20Newsgroups/

[经典旧]路透社:完全基于分类的旧新闻文本数据集通常在教程中使用。

地址:

[经典古老] IMDB:第二医院的一个古老且相对较小的情感分类数据集。

地址:~amaas/data/sentiment/

[经典旧] UCI的Spambase:这是一个有着悠久历史的经典垃圾邮件数据集来自著名的UCI机器学习图书馆。由于其独特的设计细节该数据集可用作学习个性化垃圾邮件过滤的有趣基准。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

声音

大多数语音识别数据集都是专有的因为它们对创建该数据集的公司有很大的价值。因此本部分中的大多数可用公共数据集都是旧的。

[学术过时] 2000 HUB5英语:它只包含英语语音数据集在百度最近的论文《深度语音:扩展端到端语音识别》中使用。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

[学术] LibriSpeech:包含文本和声音的有声读物数据集由许多人阅读近500小时的清晰音频组成包含书籍的章节结构。

地址:

[有用的学术的]沃克斯福吉:带重音的发音清晰数据集对于测试模型在不同重音或语调下的稳健性非常有用。

地址:

[学术、经典和过时] TIMIT:英语语音识别数据集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

标签: 地址数据学术经典