AI换脸资源 | 机器学习高质料数据集大合辑

发布日期：2024-11-01 19:02 点击次数：79

AI换脸

起首 | 大数据文摘

大

数

据

在机器学习中，寻找数据集也瑕瑜常攻击的一步。质料高约略干系性高的数据集对模子的查验瑕瑜常有匡助的。

那么用于机器学习的灵通数据集有哪些呢？小编给大师推选一份高质料的数据集，这些数据集约略涵盖规模等闲（比如 Kaggle），约略极端细化（比如自动驾驶汽车的数据）。

av在线

率先，在搜索数据集时，在卡内基·梅隆大学有以下说法：

数据集不应远大，因为你不但愿破耗多半时刻算帐数据。

数据集不应该有太多行或列，因此很容易使用。

数据越干净越好 —— 清洗大型数据集至极耗时。

数据不错解答一些真谛的问题。

1 数据集查找器

Kaggle：Kaggle是由连合创举东谈主、首席实际官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开辟商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台依然诱导了80万名数据科学家的祥和。

在这个平台中不错找到多样数据，从拉面的评分、篮球数据，到西雅图的宠物捏照看有尽有。

https://www.kaggle.com/

UCI机器学习库（UCI Machine Learning Repository）：这是汇集上最早的数据集起首之一，是寻找多样真谛数据集的第一遴荐。诚然用户提供的数据集的清洁度不太雷同，但绝大多数齐是干净的。咱们不错从 UCI 机器学习库胜利下载数据，无需注册。

VisualData：在这里盘算推算机视觉数据集按类别分组，而况支持搜索查询。

https://www.visualdata.io/

2 大师政府数据集

Data.gov：在这里不错下载到多个好意思国政府机构的数据。从政府预算到学校得益。但要翔实的是，许多数据还有待进一步有计划。

https://www.data.gov/

食物环境舆图集（Food Environment Atlas）：当地的食物遴荐若何影响好意思国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务景况（School system finances）：这里有好意思国粹校系统财务景况的探访。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据（Chronic disease data）：好意思国各地慢性病标的的数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

好意思国国度教师统计中心（The US National Center for Education Statistics）：来自好意思国和宇宙各地的教师机构和教师东谈主口统计数据。

https://nces.ed.gov/

英国数据做事：英国最大的社会、经济和东谈主口数据采集机构。

https://www.ukdataservice.ac.uk/

数据好意思国（Data USA）：全面的、可视化的好意思国大师数据。

3 金融和经济

Quandl：内部有许多经济和金融数据，你不错使用这些数据成就权衡经济标的或股价的模子。

https://www.quandl.com/

宇宙银行灵通数据（World Bank Open Data）：涵盖宇宙各地东谈主口统计、多半经济和发展标的的数据集。

https://data.worldbank.org/

货币基金组织的数据（IMF Data）：海外货币基金组织公布对于海外金融、债务率、外汇储备、商品价钱和投资的数据AI换脸。

https://www.imf.org/en/Data

英国金融时报金融时报市集数据（Financial Times Market Data：）：内部有来自宇宙各地的最新金融市集信息，包括股票价钱指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势（Google Trends）：不雅察和分析连系互联网搜索活动和宇宙各地新闻故事趋势的数据。

?q=google&ctab=0&geo=all&date=all&sort=0

好意思国经济协会(AEA)：这这里你不错找到好意思国宏不雅经济的干扫数据。

https://www.aeaweb.org/resources/data/us-macro-regional

4 机器学习数据集

Labelme：数据鸠合包含多半有标注的图像数据。

ImageNet：是一个用于视觉对象识别软件有计划的大型可视化数据库。卓绝1400万的图像URL被ImageNet手动疑望。把柄 WordNet 眉目结构来组织，其中眉目结构的每个节点齐由成百上千个图像来形容。

-net.org/

LSUN：场景相识与许多辅助任务（房间布局预计，明显性权衡等）

MS COCO：通用图像的相识和翰墨形容。

COIL 100：在 360 度旋转中以各个角度成像的 100 个不同的物体。

-100.php

视觉基因组：极熟察备的视觉常识库，配以0 万张带有翰墨形容的图像。

谷歌的Open Images：“常识分享”（Creative Commons）下的900万个图像网址鸠合，已标注卓绝6，000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild：13，000个东谈主脸标记图像，用于开辟波及面部识别的运用要道。

-www.cs.umass.edu/lfw/

Stanford Dogs Dataset：包含20580张图片和120个不同的狗品种类别。

室内场景识别（Indoor Scene Recognition）：这是一个极端细化的数据集，由于大多数在“户外”场景中推崇精熟的场景识别模子在室内推崇欠安，因而这个数据集极端灵验。内有 67 个室内类别，共 15，620 张图像。

5 厚谊分析

多域厚谊分析数据集（Multidomain sentiment analysis dataset）：一个比拟有历史的数据集，内部还有一些来自亚马逊的家具驳倒。

~mdredze/datasets/sentiment/

IMDB：影评，亦然比拟有历史的二元豪情分类数据集、数据限度相对较小，内部有 25，000 条电影驳倒。

~amaas/data/sentiment/

斯坦福厚谊树银行（Stanford Sentiment Treebank）：带有厚谊疑望的范例豪情数据集。

Sentiment140：一个流行的数据集，它使用16万条推文，并把颜料等等标记剔除了。

-students/

Twitter 好意思国航空公司豪情数据集 (Twitter US Airline Sentiment)：自 2015 年 2 月以来好意思国航空公司的 Twitter 数据，分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

6 自动驾驶

Berkeley DeepDrive BDD100k：这是当今最大的自动驾驶数据集。内部有卓绝 1，100 多个小时驾驶体验的视频，包含10 万个在一天中不同期段以及在不同天气条目下的数据。

-data.berkeley.edu/

百度 Apolloscapes：大型数据集，界说了26种不同的语义项，如汽车，自行车，行东谈主，建筑物，街灯等。

Comma.ai：卓绝7个小时的高速公路驾驶视频。内部的数据包括汽车的速率、加快度、转向角和GPS坐标。

https://archive.org/details/comma-dataset

城市景不雅数据集：记载50个不同城市的城市街谈场景的大型数据集。

https://www.cityscapes-dataset.com/

CSSAD数据集：包含自动车辆的感知和导航等数据，但肃穆于发达国度的谈路。

-dataset

麻省理工学院AGE实验室（MIT AGE Lab:）：在AgeLab采集的1，000多小时多传感器驾驶数据集的样本。

-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：智能和安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志，车辆检测，交通讯号灯和轨迹阵势。

博世袖珍交通灯数据集（Bosch Small Traffic Light Dataset）：用于深刻学习的小交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

Lara交通灯识别（LaRa Traffic Light Recognition）：巴黎交通灯的数据集。

WPI 数据集：交通灯、行东谈主和车谈检测的数据集。

7 当然言语处理

从容数据集：内部有从容集团高档惩办层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊驳倒：内部有3500万条来自亚马逊的驳倒，时刻长度为18年。数据包括家具和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngram：来自Google书本的词汇鸠合。

https://aws.amazon.com/datasets/google-books-ngrams/

博客语料库：从blogger.com采集的681，288篇博客著述。每个博客至少包含200个常用的英语单词。

~koppel/BlogCorpus.htm

维基百科畅达数据（Wikipedia Links data）：维基百科全文。该数据集包含来自400多万篇著述，近19亿字。你不错对字、短语或段落自身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子典籍列表：Project Gutenberg的附加疑望的电子书列表。

:Offline_Catalogs

加拿大议会的文本块（Hansards text chunks of Canadian Parliament）：来自第36届加拿大议会记载的130万对文本。

-language/download/hansard/

危机角落 (Jeopardy)：来自问答游戏节目《危机角落》(Jeopardy) 的卓绝 20 万个问题的归档。

_jeopardy_questions_in_a_json_file/

英文SMS垃圾邮件采集（SMS Spam Collection in English）：包含5，574条英文垃圾邮件的数据集。

~tiago/smsspamcollection/

Yelp驳倒（Yelp Reviews）：Yelp发布的一个灵通数据集，包含卓绝500万次驳倒。

https://www.yelp.com/dataset

UCI的垃圾邮件库（UCI’s Spambase）：一个大型垃圾邮件数据集，用于垃圾邮件过滤。

https://archive.ics.uci.edu/ml/datasets/SpambaseAI换脸

第四色

AI换脸 资源 | 机器学习高质料数据集大合辑

AI换脸资源 | 机器学习高质料数据集大合辑