丝袜玉足
AI换脸
起首 | 大数据文摘
大
数
据
在机器学习中,寻找数据集也瑕瑜常攻击的一步。质料高约略干系性高的数据集对模子的查验瑕瑜常有匡助的。
那么用于机器学习的灵通数据集有哪些呢?小编给大师推选一份高质料的数据集,这些数据集约略涵盖规模等闲(比如 Kaggle),约略极端细化(比如自动驾驶汽车的数据)。
av在线率先,在搜索数据集时,在卡内基·梅隆大学有以下说法:
数据集不应远大,因为你不但愿破耗多半时刻算帐数据。
数据集不应该有太多行或列,因此很容易使用。
数据越干净越好 —— 清洗大型数据集至极耗时。
数据不错解答一些真谛的问题。
1 数据集查找器
Kaggle:Kaggle是由连合创举东谈主、首席实际官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开辟商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台依然诱导了80万名数据科学家的祥和。
在这个平台中不错找到多样数据,从拉面的评分、篮球数据,到西雅图的宠物捏照看有尽有。
https://www.kaggle.com/
UCI机器学习库(UCI Machine Learning Repository):这是汇集上最早的数据集起首之一,是寻找多样真谛数据集的第一遴荐。诚然用户提供的数据集的清洁度不太雷同,但绝大多数齐是干净的。咱们不错从 UCI 机器学习库胜利下载数据,无需注册。
VisualData:在这里盘算推算机视觉数据集按类别分组,而况支持搜索查询。
https://www.visualdata.io/
2 大师政府数据集
Data.gov:在这里不错下载到多个好意思国政府机构的数据。从政府预算到学校得益。但要翔实的是,许多数据还有待进一步有计划。
https://www.data.gov/
食物环境舆图集(Food Environment Atlas):当地的食物遴荐若何影响好意思国饮食的数据。
https://catalog.data.gov/dataset/food-environment-atlas-f4a22
学校系统财务景况(School system finances):这里有好意思国粹校系统财务景况的探访。
https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
慢性病数据(Chronic disease data):好意思国各地慢性病标的的数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
好意思国国度教师统计中心(The US National Center for Education Statistics):来自好意思国和宇宙各地的教师机构和教师东谈主口统计数据。
https://nces.ed.gov/
英国数据做事:英国最大的社会、经济和东谈主口数据采集机构。
https://www.ukdataservice.ac.uk/
数据好意思国(Data USA):全面的、可视化的好意思国大师数据。
3 金融和经济
Quandl: 内部有许多经济和金融数据,你不错使用这些数据成就权衡经济标的或股价的模子。
https://www.quandl.com/
宇宙银行灵通数据(World Bank Open Data):涵盖宇宙各地东谈主口统计、多半经济和发展标的的数据集。
https://data.worldbank.org/
货币基金组织的数据(IMF Data):海外货币基金组织公布对于海外金融、债务率、外汇储备、商品价钱和投资的数据AI换脸。
https://www.imf.org/en/Data
英国金融时报金融时报市集数据(Financial Times Market Data:):内部有来自宇宙各地的最新金融市集信息,包括股票价钱指数、商品和外汇。
https://markets.ft.com/data/
谷歌趋势(Google Trends):不雅察和分析连系互联网搜索活动和宇宙各地新闻故事趋势的数据。
?q=google&ctab=0&geo=all&date=all&sort=0
好意思国经济协会(AEA):这这里你不错找到好意思国宏不雅经济的干扫数据。
https://www.aeaweb.org/resources/data/us-macro-regional
4 机器学习数据集
Labelme:数据鸠合包含多半有标注的图像数据。
ImageNet: 是一个用于视觉对象识别软件有计划的大型可视化数据库。卓绝1400万的图像URL被ImageNet手动疑望。把柄 WordNet 眉目结构来组织,其中眉目结构的每个节点齐由成百上千个图像来形容。
-net.org/
LSUN:场景相识与许多辅助任务(房间布局预计,明显性权衡等)
MS COCO:通用图像的相识和翰墨形容。
COIL 100:在 360 度旋转中以各个角度成像的 100 个不同的物体。
-100.php
视觉基因组:极熟察备的视觉常识库,配以0 万张带有翰墨形容的图像。
谷歌的Open Images:“常识分享”(Creative Commons)下的900万个图像网址鸠合,已标注卓绝6,000个类别的标签。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
Labelled Faces in the Wild:13,000个东谈主脸标记图像,用于开辟波及面部识别的运用要道。
-www.cs.umass.edu/lfw/
Stanford Dogs Dataset:包含20580张图片和120个不同的狗品种类别。
室内场景识别(Indoor Scene Recognition):这是一个极端细化的数据集,由于大多数在“户外”场景中推崇精熟的场景识别模子在室内推崇欠安,因而这个数据集极端灵验。内有 67 个室内类别,共 15,620 张图像。
5 厚谊分析
多域厚谊分析数据集(Multidomain sentiment analysis dataset):一个比拟有历史的数据集,内部还有一些来自亚马逊的家具驳倒。
~mdredze/datasets/sentiment/
IMDB: 影评,亦然比拟有历史的二元豪情分类数据集、数据限度相对较小,内部有 25,000 条电影驳倒。
~amaas/data/sentiment/
斯坦福厚谊树银行(Stanford Sentiment Treebank):带有厚谊疑望的范例豪情数据集。
Sentiment140:一个流行的数据集,它使用16万条推文,并把颜料等等标记剔除了。
-students/
Twitter 好意思国航空公司豪情数据集 (Twitter US Airline Sentiment):自 2015 年 2 月以来好意思国航空公司的 Twitter 数据,分类为正面、负面和中性推文。
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
6 自动驾驶
Berkeley DeepDrive BDD100k:这是当今最大的自动驾驶 数据集。内部有卓绝 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同期段以及在不同天气条目下的数据。
-data.berkeley.edu/
百度 Apolloscapes:大型数据集,界说了26种不同的语义项,如汽车,自行车,行东谈主,建筑物,街灯等。
Comma.ai:卓绝7个小时的高速公路驾驶视频。内部的数据包括汽车的速率、加快度、转向角和GPS坐标。
https://archive.org/details/comma-dataset
城市景不雅数据集:记载50个不同城市的城市街谈场景的大型数据集。
https://www.cityscapes-dataset.com/
CSSAD数据集:包含自动车辆的感知和导航等数据,但肃穆于发达国度的谈路。
-dataset
麻省理工学院AGE实验室(MIT AGE Lab:):在AgeLab采集的1,000多小时多传感器驾驶数据集的样本。
-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通讯号灯和轨迹阵势。
博世袖珍交通灯数据集(Bosch Small Traffic Light Dataset):用于深刻学习的小交通灯数据集。
https://hci.iwr.uni-heidelberg.de/node/6132
Lara交通灯识别(LaRa Traffic Light Recognition):巴黎交通灯的数据集。
WPI 数据集:交通灯、行东谈主和车谈检测的数据集。
7 当然言语处理
从容数据集:内部有从容集团高档惩办层的电子邮件数据。
https://www.cs.cmu.edu/~./enron/
亚马逊驳倒:内部有3500万条来自亚马逊的驳倒,时刻长度为18年。数据包括家具和用户信息、评级等。
https://snap.stanford.edu/data/web-Amazon.html
Google Books Ngram:来自Google书本的词汇鸠合。
https://aws.amazon.com/datasets/google-books-ngrams/
博客语料库:从blogger.com采集的681,288篇博客著述。每个博客至少包含200个常用的英语单词。
~koppel/BlogCorpus.htm
维基百科畅达数据(Wikipedia Links data):维基百科全文。该数据集包含来自400多万篇著述,近19亿字。你不错对字、短语或段落自身的一部分进行搜索。
https://code.google.com/p/wiki-links/downloads/list
Gutenberg电子典籍列表:Project Gutenberg的附加疑望的电子书列表。
:Offline_Catalogs
加拿大议会的文本块(Hansards text chunks of Canadian Parliament):来自第36届加拿大议会记载的130万对文本。
-language/download/hansard/
危机角落 (Jeopardy):来自问答游戏节目《危机角落》(Jeopardy) 的卓绝 20 万个问题的归档。
_jeopardy_questions_in_a_json_file/
英文SMS垃圾邮件采集(SMS Spam Collection in English):包含5,574条英文垃圾邮件的数据集。
~tiago/smsspamcollection/
Yelp驳倒(Yelp Reviews):Yelp发布的一个灵通数据集,包含卓绝500万次驳倒。
https://www.yelp.com/dataset
UCI的垃圾邮件库(UCI’s Spambase):一个大型垃圾邮件数据集,用于垃圾邮件过滤。
https://archive.ics.uci.edu/ml/datasets/SpambaseAI换脸