数据骗子无处不在
给领导者的建议 领导者不愿认真看待任何与数据有关的“见解”,除非这些见解已经通过了新数据的测试。不想付出努力吗?要坚持利用分析学,但不要依赖于这些见解——它们站不住脚,而且其可信度尚未通过检查。 此外,公司拥有大量数据时,将分割数据作为科学文化的核心部分,甚至通过对专用于统计数据的测试数据的访问加以控制,从而将其应用于基础架构,这不会有任何坏处。这是一个将“万金油”扼杀于摇篮之中的好办法! 数据过少而无法分割时,只有数据骗子才会严格追随他们的灵感,用数学方法重新发现他们已知的存在于数据中的现象,宣称他们的惊人发现具有统计学意义,这便是后见之明。这让他们有别于思想开放的分析师和细心的统计学家。 同样的道理也适用于机器学习/人工智能 一些伪装成机器学习/人工智能专家的骗子很容易被识破。你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付。(较早的预警信号是他们缺乏行业标准编程语言和库的经验。) 但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的,他会向你展示他们的模型有多好,用的是他们制作模型时使用的数据。如果你构建了一个极其复杂的机器学习系统,你怎么知道它能不能正常运行呢?你没法知道,除非你能证明它可以处理以前从未见过的新数据。 有足够的数据可以分割时,无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯,在任何地方都可以看到,不仅仅是在科学领域)。 进行统计工作或保持谦虚的态度 套用经济学家保罗·萨缪尔森(Paul Samuelson)的一句俏皮话:骗子成功预测了最近五次衰退中的九次衰退。 笔者对数据骗子没有耐心。“了解”一些长得像猫王的薯片又怎样?没人在乎你的观点是不是符合原来的“薯片”。解释再天花乱坠,笔者也不为所动。看看理论/模型能不能适用于(而且能够一直适用于)一大堆从未见过的新“薯片”,这才是对该观点的真正考验。 骗子怎样测试假设 擅长统计并不意味着擅长分析,反之亦然。如果有人跟你说的与之相反,请自行思考。如果这个人告诉你,你可以对你研究过的数据进行统计推断,请再次问问自己。他很有可能是个骗子。 隐藏在天花乱坠的解释背后 如果你在现实生活中观察数据骗子,你会发现他们喜欢编造一些天花乱坠的故事来“解释”观察到的数据:故事听起来越学术越好,并不在乎它们只是(过分)符合事后的数据。 骗子这样做完全是胡扯。再多的方程甚至是夸夸其谈也无法弥补这样一个事实:他们没有证据表明他们知道自己谈论的内容超过了数据的范围。不要被他们天花乱坠的解释蒙骗了。如果是统计推断,他们就必须在看到数据之前谨慎做出决定。 这相当于炫耀他们的“通灵”能力,先瞄一眼你出的牌,然后预测你手上拿着什么牌……无论你拿着什么牌,他们都能预测出来。做好准备,听听他们的花言巧语:你的面部表情如何将你手中的牌泄露给他们。这是后见之明偏误,它在数据科学领域随处可见。 分析师说,“这是你刚才出的方块皇后。”统计学家说,“游戏开始之前,我把我的假设写在了这张纸片上。我们开始吧,观察一些数据,看我假设得对不对。”骗子说,“我早知道你要出方块皇后,因为……”
机器学习说,“我要一直提前调用它,看看我完成得如何。然后重复再重复。我可能会调整自己的反应,从而适应某个有效的策略。但我会用某个算法来完成这一过程,因为手动追踪这一切实在太烦人了,” (编辑:江门站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |