数据科学的5个陷阱与缺陷 - 科学与信息化杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

数据科学的5个陷阱与缺陷

作者:

关键词:

摘要：

最近看新闻,发现数据科学专业已经是北京大学门槛较高的专业了,其实"Data Science"这个词"性感"快十年了,对互联网行业而言,相当于"性感"了一个世纪.

从"数据说话""DT时代"到"数据中台""数据驱动(Data Drive/Data Driven)",数据体系的不断演进正在持续地改变大家的工作与决策方式、革新大家的思维方式;同时也产生了新的商业逻辑和发展机会.

1976年,Pascal作者Nikalus Wirth提出了,Algorithms+Data Structures=Programs.

就像之前的SOA、云计算等概念一样,目前数据科学自身的概念还在不断的变革,各家公司的实践者们一边摸索、一边获利,一边总结、一边布道;还参杂着很多凑热闹的同志把概念折腾的更加模糊.所以数据科学本身的能力边界、方法论体系和最佳实践等还不够完善,有很多问题没有办法很好地回答.由此就会产生一些疑惑和误会,"强行数据""随意数据""政治正确数据"等情况比较常见,无论是实际的操作层面,还是方法层面,都存在着一些不小的误会.

1 数据质量杀死自动/智能决策

网易严选的很多业务,比如风控业务,其核心驱动力是数据及算法.在风控业务起步的时候就建立了数据算法驱动风控的方法体系,所以能保证很小的团队(3个人)来支撑严选几十个内外部风险场景,每天执行百万次风险决策.当然,这是数据驱动自动决策/智能决策带来的力量.成功的美好或许会让你按耐不住地想把很多业务运转方式转型过来,但遗憾的是,数据质量保障的缺失会让这一切变成随时会倒塌的空中楼阁.事实上,绝大部分组织对数据质量的理解支撑不了更加自动和智能的决策场景.强行转型与减员增效会让他们原本稳定的业务接近崩溃.

严选风控出现过几次大的故障都跟数据质量紧密相关.2019年8月份的时候,风控在执行每周误判巡检的时候发现整体疑似误判率增加了4倍.最终定位原因是设备号相关的日志内容有些异常,从而导致了相当一部分用户的行为(签到操作)被错误的执行了拦截.

这是一个很有意思的案例.一些关键的决策:比如用户是不是坏人?某个商品要采购多少量?可能会依赖于不被重视的某个线上日志的一小部分内容.整个质量保障体系很难把视角投入到某个具体应用的某个日志字段在高压力下会不会出错?在传统的应用服务质量保障理念里,日志字段的某个偶尔的小错误,没人会把它当作bug,开发人员更不会去关注.但如果一旦把数据当作了生产资料,如果我们不对应用质量保障的理念和工具进行革新,你的大量的数据分析报告、训练好的算法模型以及做出的决策可能很不可靠,因为生产资料本身就是垃圾,Garbagein,garbageout.

还有一个惊人的现状是,大量用于生产数据的复杂SQL并没有进行真正的测试,甚至,大量的数据系统并不存在所谓的测试环境.我们很难像测试线上服务(比如订单系统)那样去测试数据生产过程的正确性.那么这样通过几万行,甚至几十万行SQL生产出来的数据到底能不能用?这个问题其实很难回答.

数据的可靠性是组织在转型数据驱动过程中一个非常大的陷阱.

大家都在讨论数据质量的重要性,但是内心又默默觉得这个事情比较低级.因此,很少见到有团队会把大量聪明智慧投入到数据质量的保障上.

除了资源投入的缺失,很多数据团队对数据质量的认知也是各不相同.曾经跟一位在数据行业从业15年,为某知名公司数据体系做出巨大贡献的前辈做过一次深入沟通,聊起数据质量,"你觉得数据质量是什么?"他的回答是:"数据质量,真正需要考虑的是指标一致性.".瞧瞧,就算是非常资深的同行,他的认知还是不够完整,按他对数据质量的理解,数据的支撑能做到报表给人看,这个层面就很完美了,要落地到战术层,落地到线上自动决策基本不可行(因为数据质量的故障难以像线上程序故障一样快速修复,它是一个持续污染的过程).

数据做为智能决策的输入,是动态变化的.它没法像对代码的依赖那样做静态分析,它的依赖层次动态而不稳定.

2 数据科学的"科学"在哪

数据科学是常常说起的一个词,也是形容我们日常工作的一个词,但当我们说起的时候,内心就会有些心虚,就光看到数据了,"科学"在哪里?如果没有"科学"的部分,我们产出的结论会不会有问题?

这是一个最常见的问题,数据科学的从业者们,不知道什么是"科学".所以"江湖"上才会有SQL Boy,SQL Girl的称呼.

一个常见的问题是数据指标之间的相关性到底是不是真的相关?我们做数据分析往往能看到很多有趣的相关性,比如最近几个月买了拖鞋的用户,看起来有更大的可能性在最近一个月复购另外一个商品.但是,这个相关性到底是不是真的存在,还是只是偶然的巧合?分析报告很容易对这个问题视而不见.但如果这个相关性本身经不起推敲,它又如何来指导我们的工作呢?数据分析报告难道要靠运气来驱动业务发展么?

文章来源：《科学与信息化》网址: http://www.kxyxxhzz.cn/qikandaodu/2020/1214/920.html