数据清洗的重要性

老虎说测试 大话测试字数 646阅读2分9秒阅读模式
摘要一定要对数据进行充分的分析和把握,要不你将徒劳!!!

做测试,我们有很多途径获取到各种各样的数据,来协助我们的测试,但是这些数据,难免就会乱七八糟,我们应该如何去合理的处理这些数据。

数据清洗的重要性文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

其他的先不多说,通过最近的一些内容来看,就谈谈数据清洗的重要性,在一个几G甚至是几T的数据库或文件中,我们要定位一些关键信息,并用这些关键字来匹配信息是否正确,刚开始我们的小数据量文件进行测试,因为这是刻意准备的文件,根本没有异常,没个关键字信息都很完整,测试脚本很快就实现,但是在正式环境中一跑,呵呵,可没那么顺利,稀奇古怪的问题都出来了,匹配出来的数据量和想象中的差别甚远,这里要怎么处理?文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

首先,我们并不能去怀疑被测试设备的问题,不能一股脑的就提交BUG啥的,先去定位我们的脚本问题,但是对于那么大的数据量的信息,我们也不可能人工去查阅信息,来分析脚本的问题,因此我们采用了,定位关键信息的位置,并横向对比多个文件的情况,在出现差别的位置,我们直接定位到问题所在的位置,查阅信息,我们很快就发现,很多信息在一行中不完整,直接导致匹配异常,因此我们果断的采用对无效的数据进行清理,在综合的横向、纵向的数据清理后,也就得到了我们想要的结果。文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

在做数据分析的时候,我们要多思考下,不能完全相信原始数据,也不能一股脑的相信我们的脚本,多考虑下,对问题的验证要相当仔细,但完整的确认确实存在问题后,再进行汇报。文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

数据清洗,简单点理解就是对无效数据的清理,但是也可能要增加相关信息,这个处理根据具体需求,都会表现不同。文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

谨记:一定要对数据进行充分的分析和把握,要不你将徒劳!!!文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html 文章源自陈学虎-https://chenxuehu.com/article/2019/07/7448.html

历史上的今天
7 月
21
 
  • 版权声明:本文为原创文章,转载请附上原文出处链接及本声明。
  • 转载请注明:数据清洗的重要性 | https://chenxuehu.com/article/2019/07/7448.html