设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1396|回复: 0

数据挖掘:数据(数据对象与属性类型)

[复制链接]

15

主题

136

金钱

225

积分

入门用户

发表于 2019-7-31 14:04:53 | 显示全部楼层 |阅读模式

一、概述
1.现实中的数据一般有噪声、数量庞大并且可能来自异种数据源。
2.数据集由数据对象组成,一个数据对象代表一个实体。
3.数据对象:又称样本、实例、数据点或对象。
4.数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性。
5.属性是一个数据字段,表示数据对象的特征,在文献中,属性、维度(dimension)、特征(feature)、变量(variance)可以互换的使用。
6.“维”,一般用在数据仓库中。
7.“特征”,一般用在机器学习中。
8.“变量”,一般用在统计学中。
9.一个属性的类型由该属性可能具有的值的集合决定,可以是标称的、二元的、序数的、数值的。

二、标称属性(nominal  attribute)
 1)特点
      1. 标称属性的值是一些符号或事物的名称。
      2.每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
      3.标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义)
   2)其它
      1. 这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。
      2.尽管标称属性的值是一些符号或“事物的名称”,但也可以用数表示这些符号或名称,如 hari_color,可以用 0 表示黑色,1 表示黄色。
      3.但一种属性中最长出现的值,称为众数(mode),是一种中心趋势度量。
      # 例:hari_color(头发颜色)、marital_status(婚姻状况)、occupation(职业),都是标称属性,表示对象的特征。

三、二元属性(binary  attitute)
 1)特点
      1.二元属性是一种标称属性,只有两个状态:0 或 1,其中 0 通常表示该属性不出现,1 表示出现。
      2.二元属性又称布尔属性,如果两种状态对应的是 true 和 false。
   2)其它
      1.对称的二元属性:如果两种状态具有同等价值,并且携带相同权重,如表示性别,则 0 和 1 分别表示男性或女性没有影响。
      2.非对称的二元属性:两种状态的结果不是同等重要的,如 HIV 患者和不是 HIV 患者,为了方便计,将用 1 对最重要的结果(通常是稀有的)编码(如,HIV 患者),而另一个用 0 编码。

四、序数属性(ordinal  attribute)
 1)特点
      1.属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的查是未知的。(也就是对应的值有先后次序)
 2)其它
      1.例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。
      2.序数属性可以通过把数值量的值域划分成有限个有序类别(如,0-很不满意、1-不满意、2-中性、3-满意、4-很满意),把数值属性离散化而得到。
      3.可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。
      4.标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。

五、数值属性(numeric  attribute)
特点
  1.是定量的可度量的量,用整数或实数表示。
  2.可以是区间标度的或比率标度的。
 1)区间标度(interval-scaled)属性
    例:temperature(温度)属性,一般表示:10℃~15℃。
    特点:
     1.用相等的单位尺度度量,区间属性的值有序,可以为正、0、负。(值的秩评定)
     2.允许比较与定量评估值之间的差。
     3.区间标度属性是数值的,中心趋势度量中位数和众数,还可以计算均值。
 2)比例标度(ratio-scaled)属性
     特点
     1.具有固有零点的数值属性。(也就是该种属性中会有固有的为 0 的值)
     2.一个值是另一个的倍数(或比率)。
     3.值是有序的。(可以计算差、均值、中位数、众数)
     例:度量重量、高度、速度和货币量(例如 100 元是 1 元的 100 倍)的属性。

六、离散属性与连续属性
     机器学习中的分类算法通常把属性分为离散的和连续的。
 1)离散属性
      特点:
      1.具有有限个或无限个可数个数,可以用或不用整数表示。
      2.例:hari_color、smoker、drimk_size都有有限个值,因此是离散的。
无限可数:如果一个属性可能的值集合是无限的,但是可以建立一个与自然数一一对应,则该属性是无限可数的。
例:customer_ID 是无限可数的。
 2)连续属性
       如果属性不是离散的,则它是连续的。
       文献中,术语“数值属性”和“连续属性”可以互换的使用。
       实践中,实数值用有限位数数字表示,连续属性一般用浮点变量表示。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表