平行数据概念

挑灯看剑 · 发表于 2018-7-27 11:23:20

平行数据为大数据处理、挖掘、表示和应用提供了一个新的范式．根据以上提出的平行数据概念框架，我们提出了平行数据运行的新范式，如图所示．
首先设定预期问题的解决方案，应用广义对偶的方式，通过对于问题和相关数据的描述、预测、引导，使系统达到控制者所期望的状态，解决过程如下．

假设有n 个需要解决的问题，构成问题集T ={ T1，T2，…，Tn} ，其中n 的取值根据实际场景确定．针对每个问题预设的解的集合构成了解空间A ={ A1，A2，…，An} ．

从数据生成到问题解决，每个数据集经历多次循环往复的过程，每一次循环过程包括以下六个阶段: 数据获取、数据清洗、数据表示、数据解析、数据智能、数据引擎．数据集在每个阶段状态不同，从获取问题相关的数据集，到解决问题的数据集，每个数据集的动态变化形成了一个动力学轨迹，该轨迹包括了实际数据集、虚拟数据集、智能数据集的动态变化过程，是小数据→ 大数据→ 小数据的过程，先扩张后收敛．每个数据集经过多次扩张收敛的过程，这样循环往复，最终收敛到精确的问题解决方案．所有数据集的动力学轨迹的总和构成了平行数据动力学系统．以下依次描述一个数据集动力学轨迹中的六个阶段．
平行数据概念.png

2．1 数据获取

针对第i 个问题Ti( 1≤i≤n) ，收集相关实际数据形成实际数据集Di ．在实际数据集的基础上生成虚拟数据集Vi，该过程是一个逐渐演化和迭代的过程，Di和Vi不断交互．为每个数据集和预设的期望解设置相关系数Cij，表示Di与Ti的相关性，也即Vi与Ti的相关性，Cij存储到相关智能数据合约．
首先基于集合Di通过各种算法( 如对抗式生成网络( Generative Adversarial Networks，GAN) )生成虚拟数据集Vi，应用对偶算法将Vi逆映射为D'i，根据Di和D'i的差异修正映射算法，以在下次迭代时减小差异，给出生成虚拟数据时缺乏的必不可少的实际数据的需求，指导数据获取阶段有目的地收集有意义的实际数据，对数据集进行补充，并重新计算相关系数Cij ．以上过程经过多次迭代，在Di和Vi的每次互动中两个数据集都不断完善和修正，Cij不断更新，直到Vi的分布趋于Di的分布，最终形成虚拟大数据V = { V1，V2，…，Vn} ．

2．2 数据清洗

实际环境中获取的实际数据杂乱无章，包含多种噪声，需要对其进行清洗，只保留与预设的解相关的数据．若对于任意j，Cij = 0，则删除Di ．对Di中明显不相关的和错误的数据进行清洗．对Di清洗之后形成数据集CDi，CDi也会触发Vi的清洗过程，演变为CVi ．Di与预设的期望解决方案之间的相关系数传递给CDi ．

2．3 数据表示

对实际的多源、异质、稀疏数据规范化，根据应用场景将数据表示为结构化数据和非结构化数据．由于各种数据的规则、尺度、范围都不尽相同，将数据集在时间和空间论域上模糊化，形成模糊数据集．不同的模糊数据集之间存在互相关联的数据，根据这些关联对各数据集共同模糊化．FDi = fuzzy( CDi) ，FVi = fuzzy( CVi) ，1 ≤ i ≤ n．预设的期望解决方案与CDi和CVj之间的相关系数Cij传递给FDi和FVj ．

不同数据集之间的关联和交互通过智能数据合约实现，一个数据集状态的改变触发相应的智能数据合约．智能数据合约封装了预定义的若干状态及转换规则、触发合约执行的情景( 如到达特定时间或发生特定事件等) 、特定情景下的应对行动等．平行系统可实时监控智能合约的状态，并通过核查外部数据集，确认满足特定触发条件后激活并执行合约．智能数据合约可以维持自己的状态，控制自己的数据和对接收到的外界信息或者数据进行回应．

2．4 数据解析

规范化之后的模糊数据集能够涌现多种数据特征和规律，通过公式和分布体现出来．使用自然语言或形式化语言描述这些特征和规律，形成定理及其推论．计算每个特征和规律与预设的解决方案之间的相关系数．同时应用各种数据分析算法和关联规则发现、挖掘对于每个模糊数据集和预设的解决方案之间的关联关系、数据集之间和数据集内部隐含的深层次的关联关系，获取其中有价值的信息．与每个预设解决方案相关的智能数据合约收集并记录与其相关系数大于0 的相关数据集和关联关系．

数据解析之后形成的特征、规律以及数据之间的关联关系使得数据画像清晰．将相关系数排序，根据数据集和关联关系对于预设的期望解决方案的重要程度，以预设的期望解决方案为中心，对各数据集重组、融合形成新的智能数据集．其中智能数据合约起着至关重要的作用，根据事先设定的期望解决方案，设置智能数据合约触发条件．若数据集的变化满足触发条件，则对数据进行计算、添加、删除、修改等操作，实现数据分解、数据选择以及数据集之间的融合．在模型执行数据计算之后，收集与预设的期望解决方案相关的结果数据形成智能数据集，智能数据集直接对应相应的问题．数据智能的实现如图所示．
平行数据概念.png

2．6 数据引擎

每一个或多个智能数据集与一个问题相关，针对预设的期望解决方案建立数据模型，以智能数据为输入，执行数据模型，根据具体的问题融合一个或多个智能数据集中相关数据，或优化组合解空间里的多个解，得到该问题的一个解决方案．
将这个解决方案与期望的解决方案比较，根据两者之间的差距优化智能数据合约的触发条件和转换规则，进而引导每个数据集的动力学轨迹，在此期间实际数据和虚拟数据不断演化，智能数据集收敛到更精确的解空间，使得输出的问题解决方案更接近于期望的解决方案．经过这样多次广义对偶之后，平行数据能够将实际数据经过大数据分析收敛到智能数据，得到期望的解决方案．

针对一个问题或关联性强的几个问题，执行以上多次迭代的过程，形成相应的数据动力学系统，这个系统能够使用已知的知识( 实际数据) 解决未知的问题，这是一个具备智能的机器，我们称为智能数据机器．

平行数据新范式能够解决大数据领域面临的诸多问题: 在数据获取、清洗和表示阶段能够解决多源异质数据的归一化、清洗和补充; 智能数据合约管理数据集之间的关联关系，进行有效的查询分析; 数据解析和数据智能有助于挖掘模糊数据集中有价值的信息; 生成的虚拟大数据能够减少从实际环境中获取的实际数据，这在一定程度上缓解了数据开放与隐私之间的矛盾．

		自动登录	找回密码
密码			立即注册

[热点] 平行数据概念

站长推荐 /1