您的位置: 首页 >  其它

人人都要懂数据分析

2017-09-04 00:00 786 查看

数据不会说谎,但是使用数据的人会利用数据说谎,想要不掉进数据的陷阱,首先你必须懂数据。

本文的灵感来自Khan academy的宣传视频 You can learn anything!

The most beautiful, complex concepts in the whole universe are built on basic ideas that anyone, anywhere can understand.

Whoever you are, wherever you are, you only have to know one thing:You can learn anything!

我与数据的渊源起于高中吧,之前数学一直平平,高一遇到了一个好老师突然开窍数学一直都不错。后来到了大学商学院基础课程中有统计,研究生专修市场分析学,更系统的学习了统计学,搞搞聚类因子分析、决策树和逻辑回归模型啥的(捂脸都忘了)。

第一份工作天天写SAS代码,后面的工作更多是对数据的解读和分析,我觉得吧,其实不管从事什么工作,都需要懂数据分析。

正所谓“流氓懂科学,谁也挡不住”。如今越来越多的复杂统计数据像潮水般向我们涌来,一批又一批的调查结果,都显得那么铿锵有力,似乎那就是客观事实。统计陷阱被科学流氓们包装的越发完美,一不小心就把我们忽悠了。

先不论其他的目的,为了防止被忽悠,培养批判性思考的能力,我们要学学数据分析!

数据解读,正确的数据解读,是所有数据分析工作最关键的一步,这一步错了,前面的所有努力都是白搭,然后,往往很多人简单的以为“数据会说话”,他们认为把数据处理完一摆就ok了

幸存者偏差(Survivorship bias),另译为“生存者偏差”或“存活者偏差”,驳斥的是一种常见的逻辑谬误(“谬误”而不是“偏差”),这个被驳斥的逻辑谬误指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。

这东西的别名有很多,比如“沉默的数据”、“死人不会说话”等等。

在日常生活中,最明显的例子就是“我亲戚吃这个药好了”或者“我一个朋友去找了这个老中医”等等。

不管你的亲戚和朋友和你关系如何好,如何值得信任和尊重,在客观规律面前他们都是等同的。疾病和医药不会因为你的喜好而照顾或者偏袒你的亲朋。

如何应对呢?最明显的办法当然是让“死人”说话。双盲实验设计和详细全面客观的数据纪录都是应对“幸存者偏差”的良方。

所谓“兼听则明”也是这个道理,抛掉对个案的迷信,全面系统的了解才能克服这个偏差。

美国人的钱袋长、高都是罗坦提亚木匠的两倍,看起来挺忠实于数据的,但是右边钱袋实际占用的面积就是左边的4倍。

这幅图像导致的暗示效果其实还没完,因为在生活中钱袋都是立体的,所以每个读者看到这个钱袋的时候会不经意地给它加上一个厚度,这样一来,在有些人眼里这幅图表达的明明是美国木匠的收入是罗坦提亚的8倍——这样的印象完全脱离了原始数据所给出的信息,无疑是一次成功的误导。

在美国与西班牙交战期间,美国海军的死亡率是 9‰,而同时期纽约市居民的死亡率是 16‰。后来海军征兵人员就用这些数据来证明参军更安全。

如果假定这些数据是正确的,那 么促使这种差异产生的真正原因是什么?海军征兵人员根据两个数据的差异得出的结论是否正确?

这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括婴儿、 老人、病人,他们无论在哪儿都有较高的死亡率。这些数据根本不能说明符合参军标准的人 在海军会比在其他地方有更高的存活机 会,相反的结论也不能证明。

在上例中,当抽烟与低分同时出现时,人们得到了一个未经证实的假设,抽烟导致低分。

难道就不能是相反的解 释吗?也许低分促使学生不喝酒而变得爱抽烟。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。然而,更大的可能性是两个周素并不互为因果,而同为第三个因素的产物。

是否那些不把读书当回事的爱社交的学生更爱抽烟?又或者是否可以在有人曾经建立的性格外向与成绩之间的相关关系(其相关性比成绩和智力的相关性更高)上找到线索?也许,性格外向的学生比性格内向的更爱抽烟。

一种相关是由于机缘巧合而产生的。由于机会的存在,你或许可以通过一组数据来证明 一些根本不存在的结论。但换一组数据也许又无法证明。就像自称能防止蛀牙的牙膏生产厂商,你只需将对自己不利的资料扔到一边而公开你需要的结论就能达到目的。

利用小样本, 任意两个你能想到的事件或两组特性之间都能建立显著的相关。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  2年 初级 数据分析
相关文章推荐
  • 人人都适合学习数据分析吗?什么样的人适合大数据行业?
  • 人人都应该掌握的9种数据分析方法
  • 阿里云发布Quick BIV3.0,人人都能轻松进行在线数据分析
  • 数据分析实战|人人都是产品经理网站(中篇):读者视角
  • thrift支持的多种服务/传输/协议/数据类型分析
  • ADL:社交网络分析与数据挖掘(DAY1)
  • 大数据分析与处理
  • linux通过awk命令,查询日志,分析数据,获取平均时间shell脚本
  • 【技术干货】大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
  • 蔡军生先生第二人生的源码分析(四十九)接收服务器回应的纹理图片数据
  • 数据分析(4):Scipy
  • fMRI数据分析处理原理及方法
  • 银联卡QPBOC处理流程及数据分析
  • 数据分析报告结构规范设计
  • TCP同步传送数据示例以及可能出现问题分析
  • 数据分析——数据标准化
  • 网站数据分析
  • 结合GSM协议文档与Tems工具捕捉到的GSM手机数据,分析L3消息。以0418-8r0为例.
  • 从0开始,教你如何做数据分析
  • 数据分析站点导航
新的分享
  • 一次教科书级别的Redis高可用架构设计实践 - Redis
  • 曾光:北京这次的毒株不像国内流行类型
  • 从PRD文档到产品上线,有哪些问题需要解决?
  • vue3自定义指令的使用
  • Oracle SQL性能优化最常用的40条建议 - ORACLE
  • 程序员翻车常见反应,你中枪了吗? - 职场生涯
  • 新鲜开源:基于Prometheus的企业监控平台设计与实现 - 运维
  • 嵌入式软件开发之程序架构设计-任务调度
  • 【Java面试】请简单说一下你对受检异常和非受检异常的理解
  • 奇安信更新招股书:第一季亏损过5亿,齐向东持股38%
  • 艾瑞咨询:2020年中国后智能厨房案例研究报告
  • 艾瑞咨询:2020年中国人工智能+物流发展研究报告
章节导航

国外留学毕业证书制作公司重庆补办国外博士毕业证补办南昌制作海外留学文凭代做武汉定做海外学历证代做兰州制作国外留学文凭定制天津国外硕士毕业证兰州补办海外毕业证制作济南补办国外留学毕业证办理杭州办理国外留学毕业证制作南京代做海外学位定制北京做国外本科毕业证代办昆明补办海外留学学位证定制南宁代做国外学历文凭制作杭州办国外文凭证书定制南京补办海外留学生学位证定做沈阳办国外本科毕业证代办贵阳办海外证书合肥补办国外学位证定制杭州代办海外博士毕业证代办成都制作国外留学文凭代办长沙代办海外学位证书代做沈阳代做海外文凭兰州代办海外留学生学位证补办西宁做海外留学文凭定制福州补办海外学位代做大连做国外留学毕业证定做合肥办理海外学历代办上海定做国外学位办理天津办理国外留学学位证定做沈阳代做海外毕业证办理太原海外学位证书补办淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

国外留学毕业证书制作公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化