第四色
  • 首页
  • 丝袜玉足
  • 玉足吧
  • 高跟玉足
  • 红色av社区
  • 红色av
  • av排名
  • 丝袜玉足

    AI换脸 资源 | 机器学习高质料数据集大合辑

    发布日期:2024-11-01 19:02    点击次数:71

    AI换脸 资源 | 机器学习高质料数据集大合辑

    AI换脸

    起首 | 大数据文摘

    在机器学习中,寻找数据集也瑕瑜常攻击的一步。质料高约略干系性高的数据集对模子的查验瑕瑜常有匡助的。

    那么用于机器学习的灵通数据集有哪些呢?小编给大师推选一份高质料的数据集,这些数据集约略涵盖规模等闲(比如 Kaggle),约略极端细化(比如自动驾驶汽车的数据)。

    av在线

    率先,在搜索数据集时,在卡内基·梅隆大学有以下说法:

    数据集不应远大,因为你不但愿破耗多半时刻算帐数据。

    数据集不应该有太多行或列,因此很容易使用。

    数据越干净越好 —— 清洗大型数据集至极耗时。

    数据不错解答一些真谛的问题。

    1 数据集查找器

    Kaggle:Kaggle是由连合创举东谈主、首席实际官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开辟商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台依然诱导了80万名数据科学家的祥和。

    在这个平台中不错找到多样数据,从拉面的评分、篮球数据,到西雅图的宠物捏照看有尽有。

    https://www.kaggle.com/

    UCI机器学习库(UCI Machine Learning Repository):这是汇集上最早的数据集起首之一,是寻找多样真谛数据集的第一遴荐。诚然用户提供的数据集的清洁度不太雷同,但绝大多数齐是干净的。咱们不错从 UCI 机器学习库胜利下载数据,无需注册。

    VisualData:在这里盘算推算机视觉数据集按类别分组,而况支持搜索查询。

    https://www.visualdata.io/

    2 大师政府数据集

    Data.gov:在这里不错下载到多个好意思国政府机构的数据。从政府预算到学校得益。但要翔实的是,许多数据还有待进一步有计划。

    https://www.data.gov/

    食物环境舆图集(Food Environment Atlas):当地的食物遴荐若何影响好意思国饮食的数据。

    https://catalog.data.gov/dataset/food-environment-atlas-f4a22

    学校系统财务景况(School system finances):这里有好意思国粹校系统财务景况的探访。

    https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

    慢性病数据(Chronic disease data):好意思国各地慢性病标的的数据。

    https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

    好意思国国度教师统计中心(The US National Center for Education Statistics):来自好意思国和宇宙各地的教师机构和教师东谈主口统计数据。

    https://nces.ed.gov/

    英国数据做事:英国最大的社会、经济和东谈主口数据采集机构。

    https://www.ukdataservice.ac.uk/

    数据好意思国(Data USA):全面的、可视化的好意思国大师数据。

    3 金融和经济

    Quandl: 内部有许多经济和金融数据,你不错使用这些数据成就权衡经济标的或股价的模子。

    https://www.quandl.com/

    宇宙银行灵通数据(World Bank Open Data):涵盖宇宙各地东谈主口统计、多半经济和发展标的的数据集。

    https://data.worldbank.org/

    货币基金组织的数据(IMF Data):海外货币基金组织公布对于海外金融、债务率、外汇储备、商品价钱和投资的数据AI换脸。

    https://www.imf.org/en/Data

    英国金融时报金融时报市集数据(Financial Times Market Data:):内部有来自宇宙各地的最新金融市集信息,包括股票价钱指数、商品和外汇。

    https://markets.ft.com/data/

    谷歌趋势(Google Trends):不雅察和分析连系互联网搜索活动和宇宙各地新闻故事趋势的数据。

    ?q=google&ctab=0&geo=all&date=all&sort=0

    好意思国经济协会(AEA):这这里你不错找到好意思国宏不雅经济的干扫数据。

    https://www.aeaweb.org/resources/data/us-macro-regional

    4 机器学习数据集

    Labelme:数据鸠合包含多半有标注的图像数据。

    ImageNet: 是一个用于视觉对象识别软件有计划的大型可视化数据库。卓绝1400万的图像URL被ImageNet手动疑望。把柄 WordNet 眉目结构来组织,其中眉目结构的每个节点齐由成百上千个图像来形容。

    -net.org/

    LSUN:场景相识与许多辅助任务(房间布局预计,明显性权衡等)

    MS COCO:通用图像的相识和翰墨形容。

    COIL 100:在 360 度旋转中以各个角度成像的 100 个不同的物体。

    -100.php

    视觉基因组:极熟察备的视觉常识库,配以0 万张带有翰墨形容的图像。

    谷歌的Open Images:“常识分享”(Creative Commons)下的900万个图像网址鸠合,已标注卓绝6,000个类别的标签。

    https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

    Labelled Faces in the Wild:13,000个东谈主脸标记图像,用于开辟波及面部识别的运用要道。

    -www.cs.umass.edu/lfw/

    Stanford Dogs Dataset:包含20580张图片和120个不同的狗品种类别。

    室内场景识别(Indoor Scene Recognition):这是一个极端细化的数据集,由于大多数在“户外”场景中推崇精熟的场景识别模子在室内推崇欠安,因而这个数据集极端灵验。内有 67 个室内类别,共 15,620 张图像。

    5 厚谊分析

    多域厚谊分析数据集(Multidomain sentiment analysis dataset):一个比拟有历史的数据集,内部还有一些来自亚马逊的家具驳倒。

    ~mdredze/datasets/sentiment/

    IMDB: 影评,亦然比拟有历史的二元豪情分类数据集、数据限度相对较小,内部有 25,000 条电影驳倒。

    ~amaas/data/sentiment/

    斯坦福厚谊树银行(Stanford Sentiment Treebank):带有厚谊疑望的范例豪情数据集。

    Sentiment140:一个流行的数据集,它使用16万条推文,并把颜料等等标记剔除了。

    -students/

    Twitter 好意思国航空公司豪情数据集 (Twitter US Airline Sentiment):自 2015 年 2 月以来好意思国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

    https://www.kaggle.com/crowdflower/twitter-airline-sentiment

    6 自动驾驶

    Berkeley DeepDrive BDD100k:这是当今最大的自动驾驶 数据集。内部有卓绝 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同期段以及在不同天气条目下的数据。

    -data.berkeley.edu/

    百度 Apolloscapes:大型数据集,界说了26种不同的语义项,如汽车,自行车,行东谈主,建筑物,街灯等。

    Comma.ai:卓绝7个小时的高速公路驾驶视频。内部的数据包括汽车的速率、加快度、转向角和GPS坐标。

    https://archive.org/details/comma-dataset

    城市景不雅数据集:记载50个不同城市的城市街谈场景的大型数据集。

    https://www.cityscapes-dataset.com/

    CSSAD数据集:包含自动车辆的感知和导航等数据,但肃穆于发达国度的谈路。

    -dataset

    麻省理工学院AGE实验室(MIT AGE Lab:):在AgeLab采集的1,000多小时多传感器驾驶数据集的样本。

    -synchronization-of-driving-data-video-audio-telemetry-accelerometer/

    LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通讯号灯和轨迹阵势。

    博世袖珍交通灯数据集(Bosch Small Traffic Light Dataset):用于深刻学习的小交通灯数据集。

    https://hci.iwr.uni-heidelberg.de/node/6132

    Lara交通灯识别(LaRa Traffic Light Recognition):巴黎交通灯的数据集。

    WPI 数据集:交通灯、行东谈主和车谈检测的数据集。

    7 当然言语处理

    从容数据集:内部有从容集团高档惩办层的电子邮件数据。

    https://www.cs.cmu.edu/~./enron/

    亚马逊驳倒:内部有3500万条来自亚马逊的驳倒,时刻长度为18年。数据包括家具和用户信息、评级等。

    https://snap.stanford.edu/data/web-Amazon.html

    Google Books Ngram:来自Google书本的词汇鸠合。

    https://aws.amazon.com/datasets/google-books-ngrams/

    博客语料库:从blogger.com采集的681,288篇博客著述。每个博客至少包含200个常用的英语单词。

    ~koppel/BlogCorpus.htm

    维基百科畅达数据(Wikipedia Links data):维基百科全文。该数据集包含来自400多万篇著述,近19亿字。你不错对字、短语或段落自身的一部分进行搜索。

    https://code.google.com/p/wiki-links/downloads/list

    Gutenberg电子典籍列表:Project Gutenberg的附加疑望的电子书列表。

    :Offline_Catalogs

    加拿大议会的文本块(Hansards text chunks of Canadian Parliament):来自第36届加拿大议会记载的130万对文本。

    -language/download/hansard/

    危机角落 (Jeopardy):来自问答游戏节目《危机角落》(Jeopardy) 的卓绝 20 万个问题的归档。

    _jeopardy_questions_in_a_json_file/

    英文SMS垃圾邮件采集(SMS Spam Collection in English):包含5,574条英文垃圾邮件的数据集。

    ~tiago/smsspamcollection/

    Yelp驳倒(Yelp Reviews):Yelp发布的一个灵通数据集,包含卓绝500万次驳倒。

    https://www.yelp.com/dataset

    UCI的垃圾邮件库(UCI’s Spambase):一个大型垃圾邮件数据集,用于垃圾邮件过滤。

    https://archive.ics.uci.edu/ml/datasets/SpambaseAI换脸



    Powered by 第四色 @2013-2022 RSS地图 HTML地图

    Copyright Powered by站群 © 2013-2022 版权所有