设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2860|回复: 0

机器学习、数据科学和数据挖掘中的数据集类型

[复制链接]

11

主题

101

金钱

158

积分

入门用户

发表于 2019-11-5 14:41:38 | 显示全部楼层 |阅读模式

数据集有三个一般特征,即:维度,稀疏度,和分辨率。接下来我们将讨论它们究竟是什么意思。

什么是维度?
→数据集的维度是数据集中对象所具有的属性的数量。

在特定数据集中,如果存在大量属性(也称为高维度),则可能很难分析这样的数据集。当遇到这个问题时,它被称为维度的诅咒。

为了理解维度的诅咒到底是什么,我们首先需要了解数据的另外两个特征。


什么是稀疏?
→对于某些数据集,例如具有非对称特征的数据集,其对象的大多数属性值为 0;在通常情况下,只有不到 1% 的条目是非零的,这样的数据称为稀疏数据或者可以说数据集具有稀疏性。

什么是分辨率?
→数据中的模式取决于分辨率级别。如果分辨率太细,则模式可能会不可见或有可能被埋没在噪声中;如果分辨率太粗糙,模式可能会消失。例如大气压力变化反映了风暴和其他天气系统的运动。在几个月的时间里,这种现象是无法察觉的。

现在,回到维度的诅咒,这意味着随着数据集维度(数据集中的属性数量)的增加,许多类型的数据分析变得困难。具体而言,随着维数的增加,数据在其占据的空间中变得越来越稀疏。对于分类,这可能意味着没有足够的数据对象来允许创建可靠的分类模型。

最后,来看数据集的类型,我们将它们定义为三个类别,即记录数据,基于图的数据和有序数据。

记录数据
1.png
→数据挖掘工作的大部分假定数据是记录(数据对象)的集合。

→记录数据的最基本形式是在记录或数据字段之间没有明确的关系,并且每个记录(对象)都具有相同的属性集。记录数据通常存储在文件或关系数据库中。

记录数据有一些具有某些特征属性的变体,
1. 交易或市场篮子数据:这是一种特殊类型的记录数据,其中每个记录包含一组项目。例如在超市或杂货店购物。对于任何特定客户,记录将包含客户购买的一组物品。这种类型的数据称为市场篮子数据。交易数据是一组项目集合,但它可以被视为一组记录,其字段是非对称属性。通常属性是二进制的,表示是否购买了商品。
2. 数据矩阵:如果数据集中的数据对象都具有相同的固定数值属性集,那么数据对象可以被认为是多维空间中的点(向量),其中每个维度表示描述对象的不同属性。一组这样的数据对象可以被解释为 m×n 矩阵,其中有 n 行 m 列,每行一个对象,每列一个属性。可以用标准矩阵运算来转换和操纵数据。因此数据矩阵是大多数统计数据的标准数据格式。
3. 稀疏数据矩阵:稀疏数据矩阵(有时也称为文档 - 数据矩阵)是数据矩阵的一种特殊情况,其中属性是相同的类型,而且是不对称的;即,只有非零值才很重要。


基于图的数据
2.png
这可以进一步分为几种类型:
1.对象间关系的数据:数据对象映射到图的节点,而对象之间的关系由对象和链接属性之间的链接表示,例如方向和权重。比如互联网上的网页,其中包含文本和其指向他页面的链接。为了处理搜索查询,Web 搜索引擎爬取并处理网页来提取其内容。
2.具有图对象的数据:如果对象具有结构,即对象中包含具有关系的子对象,则此类对象通常表示为图。例如,化学化合物的结构可以用图表示,其中节点是原子,节点之间的链接是化学键。

有序数据

对于某些类型的数据,属性具有涉及时间或空间顺序的关系。正如你在上图中所看到的,它可以分为四种类型:
1. 顺序数据:也称为时间数据,可以被认为是记录数据的扩展,其中每个记录都有一个与之相关的时间。比如零售交易数据集,该数据集还存储交易发生的时间
2. 序列数据:序列数据由数据集组成,该数据集是单个实体的序列,例如单词或字母序列。它与顺序数据非常相似,只是没有时间戳;相反,有序序列中存在位置。例如,植物和动物的遗传信息可以用基因的核苷酸序列的形式表示。
3. 时间序列数据:时间序列数据是一种特殊类型的有序数据,其中每个记录是一个时间序列,即随时间进行的一系列测量。例如,财务数据集可能包含各种股票的每日价格的时间序列的对象。
4. 空间数据:某些对象具有空间属性,例如位置或区域,还有其他类型的属性。空间数据的例子是针对各种地理位置收集的天气数据(降水,温度,压力)。
3.png
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表