|
1. 挖掘模式
预测型(Predictive)
描述型(Descriptive)
2. 实际作用可分为以下几种模式
分类:对没有分类的数据进行分类
预测:用历史来预测未来
关联分析:关联规则
聚类:物以类聚
序列模式:在多个数据序列中发现共同的行为模式
描述和可视化:数据挖掘的结果的表示形式
偏差分析:从数据分析中发现异常情况
3. 挖掘模型
§决策树(decision tree)
§关联规则(association rules)
§聚类(clustering)
§神经网络(Artificial Neural Networks,简记作ANN)
§粗糙集(rough set)
§概念格(concept lattice)
§遗传算法(genetic algorithms)
§序列模式(sequence pattern)
§贝叶斯(Bayes)
§支持向量机(support vector machine,简记作SVM)
§模糊集(fuzzy set)
§基于案例的推理(case-based reasoning,简记作CBR)
4. 决策树
决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则;决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.
5.关联规则
关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油 → 牛奶);关联规则的“三度”:支持度、可信度、兴趣度。
6.聚类
聚类是根据数据的不同特征,将其划分为不同的簇(cluster),目的是使得属于同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别(相异度)较大。
聚类技术大致分为5种
a. 划分方法(partitioning method): 如K-means算法
b. 层次方法 (hierarchical method):
c. 基于密度的方法(density method):
d. 基于网格的方法(grid-based method):
e. 基于模型的方法(model-based method)
7.神经网络
人工神经网络,是对人类大脑系统的中模拟;神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习;激励函数的选择和权值的调整
8.序列模式
是指在多个数据序列中发现共同的行为模式;通过时间序列搜索出重复发生概率较高的模式,这里强调时间序列的影响。例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉。在时序模式中,需要找出在某个最短时间内出现比率一直高于某一最小百分比(阈值)的规则。
9.贝叶斯
贝叶斯分类是统计学的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习或推理都用概率规则来实现;朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值;贝叶斯网络:是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。
10.SVM-支持向量机
支持向量机(Support Vector Machine, SVM)建立在计算学习理论的结构风险最小化(SRM)原则之上。其核心问题是寻找一种归纳原则,以实现最小化风险,从而实现最佳的推广能力。而且SVM一个重要的优点是可以处理线性不可分的情况 。以往的机器学习理论的核心是经验风险最小化原则(ERM)。 |
|