机器学习AI中的数据简介
- 作者:admin
- 发表时间:2019-03-09 22:25
- 来源:未知
数据:它可以是未被解释和分析的任何未处理的事实,价值,文本,声音或图片。数据是所有数据分析,机器学习,人工智能中最重要的部分。没有数据,我们就无法训练任何模型,所有现代研究和自动化都将徒劳无功。大企业花费大量资金只是为了尽可能多地收集某些数据。
示例:为什么Facebook通过支付190亿美元的巨额价格获得WhatsApp?
答案非常简单和合乎逻辑 - 它可以访问Facebook可能没有的用户信息,但WhatsApp将拥有这些信息。其用户的这些信息对Facebook来说至关重要,因为它将促进改进其服务的任务。
信息:已经解释和操作的数据,现在已经为用户提供了一些有意义的推断。
知识:推断信息,经验,学习和见解的结合。为个人或组织建立意识或概念的结果。
我们如何在机器学习中分割数据?
培训数据: 我们用于训练模型的数据部分。这是您的模型实际看到的数据(输入和输出)并从中学习。
验证数据:用于频繁评估模型的数据部分,适用于训练数据集以及改进所涉及的超参数(在模型开始学习之前初始设置参数)。这个数据在模型实际训练时起作用。
测试数据: 一旦我们的模型完全训练,测试数据提供无偏见的评估。当我们输入测试数据的输入时,我们的模型将预测一些值(没有看到实际输出)。在预测之后,我们通过将其与测试数据中存在的实际输出进行比较来评估我们的模型。这就是我们如何评估和了解我们的模型从培训数据中获得的经验中学到了多少,这些数据是在培训时设定的。
考虑一个例子:
有一个购物中心所有者进行了一项调查,他有一长串问题和答案,他已经向客户询问,这个问题和答案列表是DATA。现在,每当他想要推断任何东西时,不能只是通过成千上万客户的每一个问题找到相关的东西,因为这将是耗时且无用的。为了减少这种开销和时间浪费并使工作更容易,数据通过软件,计算,图形等按照自己的方便进行操作,来自操纵数据的这种推断是信息。因此,数据必须用于信息。现在知识它有助于区分具有相同信息的两个人。知识实际上不是技术内容,而是与人类思维过程相关联。
数据属性 -
卷:数据规模。随着世界人口和技术的不断增长,每毫秒都会产生巨大的数据。
多样性:不同形式的数据 - 医疗保健,图像,视频,音频剪辑。
速度:数据流和生成速率。
价值:数据在信息方面的有意义,研究人员可以从中推断出来。
真实性:我们正在研究的数据的确定性和正确性。
关于数据的一些事实:
与2005年相比,到2020年将生成300倍,即40 Zettabytes(1ZB = 10 ^ 21字节)的数据。
到2011年,医疗保健行业的数据为161亿千兆字节
每天约有2亿活跃用户发送4亿条推文
每个月,用户完成超过40亿小时的视频流。
用户每月共享30亿种不同类型的内容。
据报道,大约27%的数据是不准确的,因此三分之一的商业理想主义者或领导者不相信他们正在做出决策的信息。
上述事实只是对实际存在的大数据统计数据的一瞥。当我们谈论现实世界的场景时,当前存在的数据的大小和每一个时刻产生的数据都超出了我们想象的心理范围。