设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1292|回复: 0

数据挖掘分类

[复制链接]

24

主题

192

金钱

312

积分

入门用户

发表于 2019-7-4 13:40:32 | 显示全部楼层 |阅读模式

1. 挖掘模式
  预测型(Predictive)

  描述型(Descriptive)



2. 实际作用可分为以下几种模式

  分类:对没有分类的数据进行分类

  预测:用历史来预测未来

  关联分析:关联规则

  聚类:物以类聚

  序列模式:在多个数据序列中发现共同的行为模式

  描述和可视化:数据挖掘的结果的表示形式

  偏差分析:从数据分析中发现异常情况


3. 挖掘模型
§决策树(decision tree)
§关联规则(association rules)
§聚类(clustering)
§神经网络(Artificial Neural Networks,简记作ANN)
§粗糙集(rough set)
§概念格(concept lattice)
§遗传算法(genetic algorithms)
§序列模式(sequence pattern)
§贝叶斯(Bayes)
§支持向量机(support vector machine,简记作SVM)
§模糊集(fuzzy set)
§基于案例的推理(case-based reasoning,简记作CBR)

4. 决策树

决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则;决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.


5.关联规则

关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油 → 牛奶);关联规则的“三度”:支持度、可信度、兴趣度。

6.聚类

聚类是根据数据的不同特征,将其划分为不同的簇(cluster),目的是使得属于同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别(相异度)较大。


聚类技术大致分为5种

a. 划分方法(partitioning method): 如K-means算法

b. 层次方法 (hierarchical method):

c. 基于密度的方法(density method):

d. 基于网格的方法(grid-based method):

e. 基于模型的方法(model-based method)


7.神经网络

人工神经网络,是对人类大脑系统的中模拟;神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习;激励函数的选择和权值的调整


8.序列模式


是指在多个数据序列中发现共同的行为模式;通过时间序列搜索出重复发生概率较高的模式,这里强调时间序列的影响。例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉。在时序模式中,需要找出在某个最短时间内出现比率一直高于某一最小百分比(阈值)的规则。


9.贝叶斯

贝叶斯分类是统计学的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习或推理都用概率规则来实现;朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值;贝叶斯网络:是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。


10.SVM-支持向量机

支持向量机(Support Vector Machine, SVM)建立在计算学习理论的结构风险最小化(SRM)原则之上。其核心问题是寻找一种归纳原则,以实现最小化风险,从而实现最佳的推广能力。而且SVM一个重要的优点是可以处理线性不可分的情况 。以往的机器学习理论的核心是经验风险最小化原则(ERM)。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表