设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1236|回复: 0

数据挖掘的TO-DO-LIST

[复制链接]

13

主题

99

金钱

161

积分

入门用户

发表于 2019-8-26 14:59:29 | 显示全部楼层 |阅读模式

数据挖掘的流程与方法
1.任务:
   关联分析
   聚类分析
   分类分析
   异常分析
   特异组群分析
   演变分析



2.方法:
   统计
   在线处理分析
   情报检索
   机器学习
         分类
               实际应用: 应用分类/趋势预测/推荐关联类商品
         回归分析
               实际应用: 预测销售趋势
         聚类
               实际应用: 分类
         关联规则
               包括两个阶段: 从海量数据中找到高频项目组/产生关联规则
               实际应用: 预测客户需求
         Web数据挖掘
               常用算法: PageRank算法/HITS算法/LOGSOM算法
               问题: 用户分类/用户页面停留时间/内容时效性/页面链入链出/
         专家系统
         模式识别
         神经网络方法
               神经网络模型的种类:
                      用于分类预测和模式识别的前馈式: 函数型网络/感知机
                      用于联想记忆和优化算法的反馈式: 离散模型/连续模型
                      用于聚类的自组织映射: ART模型



3.步骤:
one.业务理解
      阶段目标
         明确商业问题和数据挖掘目标
         制定项目计划
      工作任务
         业务需求调研,问题背景
         项目资源评估,确定资源需求
         明确业务目标和成功的标准
         挖掘目标确定,可行性,明确数据挖掘目标和成功标准
         项目计划制定,指导项目实施
      实施要点
         充分的需求调研和沟通交流
         合理的资源、约束条件假设
         合适的挖掘结果应用场景设定


two.数据理解
      阶段目标
         确定建模所需用的数据
         探索建模需要的目标变量
      工作任务
         数据字典编制,梳理内外部数据类型
         明确数据业务指标含义
         质量校验,确保数据全面性和可用性
         目标变量探索,为模型构建做准备
            数据的数据量(维度和样本大小)
            数据的质量(缺失值、异常值、不一致性等)
            数据的分布规律(各种统计指标)
         实施要点
            必备的内外部数据可获取和可干预
            数据一致性、完整性、准确性
            目标因子初步分析确定


three.数据准备
        阶段目标
           建立数据集市或宽表

        工作任务
           数据集市或宽表设计
               将多个表信息进行整合:表之间的联接/明细数据的汇总加工
               处理数据质量问题: 缺失值/异常值
           数据清洗、加载、转换
               数据的字段进行变换: 规范化/标准化
               或都将数据进行映射变换,如Log变化
               数值型按区间转换成名词型字段
           特征工程
              从业务角度加工新的计算指标
              进行自动特征构建、特征选择、特征降维
           数据质量校验
           数据标准化

        实施要点
           高效的数据保障项目进度和质量


four.建立模型
      阶段目标
         选择合适的技术建模
         实现数据挖掘目标

      工作任务
         技术选型,选择合适的模型算法
         样本选取,确定训练样本、测试样本和验证样本
         模型建立,筛选变量、模型训练、模型测试
         模型评估,评估模型是否满足数据挖掘目标

      实施要点
         合适的技术帮助实现挖掘目标
         样本数据真实反映业务需求
         全面评估模型数据挖掘效果


five.检验模型
      阶段目标
         进行模型的业务应用测试(A/B测试)
         判断是否实现商业目标

      工作任务
         模型试用,确定业务场景,进行模型应用测试,收集反馈效果
         效果评价,对测试效果进行评估分析,判断模型是否满足商业目标

       实施要点
          合适的业务场景试用方案
          全面科学的效果评价


six.结果部署
   阶段目标
      把数据挖掘成果部署到商业环境,应用于生产

   工作任务
      规划部署,制定部署计划和方案
      监控与维护,实时跟踪,验证商业目标达成情况
      总结报告,经验积累

   实施要点
      科学规划,保障无缝部署
      即时监控及维护响应,保障运营
      全面的总结分析,积累经验
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表