设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1176|回复: 0

[其他] 如何在数据库中查找和消除重复的数据?

[复制链接]

18

主题

337

金钱

537

积分

初级用户

发表于 2018-1-26 09:06:39 | 显示全部楼层 |阅读模式
  数据重复是困扰许多企业的问题,但是一旦你了解了它的特点,以及如何去处理它,就可以提前发现并预防。在识别和消除重复数据时,也有很多潜在的选择,这样就可以找到适合你的业务和需求的最佳方法。

  但是如果你想解决这个问题,你怎么开始呢?

  下面是一些值得注意的最大问题:

  记录问题。第一个最明显的问题是你的记录的准确性和可靠性。例如,你无意中列出了同一业务在你的销售记录中有两次;该公司的销售数字将加倍,因此,导致你的收入预测不合理地激增。当查看数据组时,你会更容易出现错误,并且在查找特定实例时,你可能会遇到更大困难,跟踪你需要的确切数据。

  系统存储和批量。重复数据也会增加你的表格负担,从而阻塞你的系统,显示不必要的信息。在小规模上,这不是一个主要的数据来源,但是如果重复的数据存在于整个系统中,它可能会导致整个系统减速。

  一般问题。很多人发现当查找重要信息时,重复数据集知道跟踪“正确”条目是多么烦人。例如,如果正在寻找“abc通信”,但是有一些条目是“abc公司”,“abc”和“abc通信”,它将花费你三倍或更长时间来获得正确的记录。这对于任何一个工作者来说都是个难题。

  其他问题。重复数据也可能是其他原因的问题,具体而言,对于你数据表的应用而言。例如,如果你的网站上有太多重复的内容要索引,那么它可能会危及百度搜索排名还有其他搜索引擎,或者增加被索引的“错误”页面的可能性。

  那么,你能做些什么来主动识别和消除重复数据?

  这是一些比较好的策略:

  完美的数据录入标准。每个组织都需要有一些所有工作人员应遵循的数据输入标准无论您的系统多么好,可能会有一些重复的数据点,除非所有的数据点都是一直遵循这些标准。制定严格、清晰的入门规则是一个好的第一步;除此之外,你用比较好的方法去教育你的员工,并确保他们理解这些规则,并要求他们遵守这些规则,这样他们就会一直遵循这些规则。

  算法匹配非相同名称。通过创建更好的自动化流程算法可以自动匹配非相同名称。从前面章节中的例子中,我们提到了“abc公司”、“abc”和“abc通信”词条。a算法围绕着识别和自动合并“模糊匹配”之类的构建,可以防止它们作为不同记录存储起来。幸运的是在sql中安装主数据服务使创建干净、更合并列表变得非常容易。

  自动化数据库清理。如果你的数据库已经在许多章节中遭受重复数据,或者过期检查,你也可以运行自动检查。你需要创建一个算法来扫描记录,以获取重复条目的标志,然后将数据合并到一个记录中。这里出错的可能性很高,所以请注意在敏感表上使用它。

  手动数据库清理。作为备份,你还要执行手动数据库清理,特别是对于小表。

  这些策略无法严格保证你将来不会遇到重复数据问题,但它们将消除当前大多数问题。随着数据标准的提高和数据库的清洁,你的整个团队都将能够提高自己的公众效率。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表