数据挖掘分类

十八岁夏至 · 发表于 2019-7-4 13:40:32

1. 挖掘模式
  预测型(Predictive)

  描述型(Descriptive)

2. 实际作用可分为以下几种模式

  分类：对没有分类的数据进行分类

  预测：用历史来预测未来

  关联分析：关联规则

  聚类：物以类聚

  序列模式：在多个数据序列中发现共同的行为模式

  描述和可视化：数据挖掘的结果的表示形式

  偏差分析：从数据分析中发现异常情况

3. 挖掘模型
§决策树(decision tree)
§关联规则(association rules)
§聚类(clustering)
§神经网络(Artificial Neural Networks，简记作ANN)
§粗糙集(rough set)
§概念格(concept lattice)
§遗传算法(genetic algorithms)
§序列模式(sequence pattern)
§贝叶斯(Bayes)
§支持向量机(support vector machine，简记作SVM)
§模糊集(fuzzy set)
§基于案例的推理(case-based reasoning，简记作CBR)

4. 决策树

决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则；决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.

5.关联规则

关联规则是形式如下的一种规则，“在购买面包和黄油的顾客中，有90％的人同时也买了牛奶”（面包＋黄油 → 牛奶）；关联规则的“三度”：支持度、可信度、兴趣度。

6.聚类

聚类是根据数据的不同特征,将其划分为不同的簇（cluster）,目的是使得属于同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别（相异度）较大。

聚类技术大致分为5种

a. 划分方法(partitioning method): 如K-means算法

b. 层次方法 (hierarchical method):

c. 基于密度的方法(density method):

d. 基于网格的方法(grid-based method):

e. 基于模型的方法(model-based method)

7.神经网络

人工神经网络，是对人类大脑系统的中模拟；神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习；激励函数的选择和权值的调整

8.序列模式

是指在多个数据序列中发现共同的行为模式；通过时间序列搜索出重复发生概率较高的模式，这里强调时间序列的影响。例如，在所有购买了激光打印机的人中，半年后80%的人再购买新硒鼓，20%的人用旧硒鼓装碳粉。在时序模式中，需要找出在某个最短时间内出现比率一直高于某一最小百分比（阈值）的规则。

9.贝叶斯

贝叶斯分类是统计学的分类方法，其分析方法的特点是使用概率来表示所有形式的不确定性，学习或推理都用概率规则来实现；朴素贝叶斯分类：假定一个属性值对给定类的影响独立于其他属性的值；贝叶斯网络：是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。

10.SVM-支持向量机

支持向量机（Support Vector Machine, SVM）建立在计算学习理论的结构风险最小化(SRM)原则之上。其核心问题是寻找一种归纳原则，以实现最小化风险，从而实现最佳的推广能力。而且SVM一个重要的优点是可以处理线性不可分的情况。以往的机器学习理论的核心是经验风险最小化原则（ERM）。

		自动登录	找回密码
密码			立即注册

数据挖掘分类

站长推荐 /1