读后感系列-人人都在说慌
文章目录
【注意】最后更新于 July 16, 2019,文中内容可能已过时,请谨慎使用。
前言
本文为《人人都在说慌》一书的读后感。虽然阅读的过程有些仓促,但是这是目前我在研究生阶段阅读完的第一本书。最开始接触到这本书是来源于国科大的推送,由于自己对大数据有着一定兴趣,再加上被本书的“标题党”所吸引,因此翻开这本书可以说是一种必然。(有趣的是,本书中还有一个章节讲述了“标题党”的效用)
由于我个人的读书习惯一般,常常处于碎片化阅读的模式。因此,在今天还书的时候特地写一下读后感,敦促我进行反刍,也让我能更进一步思考我能从这本书上获得什么。而我的个人风格就是啰嗦,且事无巨细,因此本文也以Q&A的形式呈现。
《人人都在说慌》的基本信息
作者
Seth Stephens Davidowitz,前谷歌数据家和专栏作家,经济学博士,他的博士论文就和Google有关。据Seth回忆,他这本书的出版还有博士的研究方向受《魔鬼经济学》一书影响很深,就是看了那本书之后才决定研究这个方向。无论如何,做自己想做的研究真的是一件特别幸福的事情。
书籍信息
出版社为中信出版集团,售价58元(好贵),全书300多页。第一次出版是2018年11月,并且只出了一版。我在雁栖湖的图书馆借书的时候已经是5月份了(它是5月购入的新书)
豆瓣读书
这本书在豆瓣读书中有相关信息,里头的部分书评值得一看。在本文“令人震惊/感到有趣的小结论”中,我只记录了我记得的,并且觉得有意思的小结论,其他的结论可以在豆瓣读书中的书评看
中心思想
太长不看,书里究竟讲了啥
中心思想
本书利用人们输入到搜索引擎内的信息得到了许多妙趣横生的结论
令人震惊/感到有趣的小结论
本节中主要记录在书中的一些比较有趣(至少我认为的)结论,并且对其展开一些讨论。下面中,小节名(绪论/大数据,小数据等)是书中原有的,在这些小节名下的各分列点是书中的结论(序号部分),在此之下是对观点的展开讨论(分列点部分)
绪论
- 已婚人士宣称的性行为次数比实际少
- 关于种族主义的搜索,东部>西部
- 换言之,南方的共和党人更有可能承认自己的种族主义倾向,这在一定程度上左右了大选
- 人们容易在搜索引擎上搜索难以启齿的问题
- 根据个人经验,的确如此23333
- 根据个人经验,的确如此23333
大数据,小数据
- 经验是一种良好的判断依据。但是容易先入“直觉误区”
- 这和地球科学中的“局部最小类似”
- 似乎AlphaGo也是如此,在最初版本中对AlphaGo采用了带有棋谱的监督学习,之后的版本中直接从零开始(AlphaZero),其效果比AlphaGo更好。但是这个结论是从知乎中看到的,不一定真实。这也是我有时候反感机器学习(或者各类启发式学习)的原因——太多太多比喻了。比喻原本应该帮助人们理解,而现在只是一种华丽的辞藻。
- 中产阶级的孩子更容易进入NBA
- 强者恒强,弱者恒弱,马太效应没毛病
- 更具体的数值如下:身高增加1英寸,进入NBA的概率翻番;社交技能也会影响进入NBA的成功率
大数据的力量
反驳了:弗洛伊德将潜意识归结与性
弗洛伊德的证据:很多口误/梦境和性有关,例如penistrian是pedestrian(行人)的口误,里头的口误为penis(男性生殖器);梦境中人们会梦到香蕉,和男性生殖器形状相同
- 现在看有点点扯淡,但是中学时候我奉为圭臬,可能是被这种观点震惊到了从而深信不疑
作者反驳的证据: 实际上和性有关的口误占口误中的少数,而且很有可能是一种巧合,如果简单将s字母替换t字母;h字母替换g字母,就能出现许多和性有关的口误;香蕉和热狗本来就是人们常吃的食物,因此出现在梦中毫不奇怪,并且生菜也是人们常吃的食物,也出现在梦中,弗洛伊德无法解释生菜。
- 可能存在“故意”挑选数据的情况。类似于“孕妇效应”:当你怀孕时你会发现街上都是孕妇,原因只是你怀孕了所以你关注,刻意忽略了那些看到正常行人的情况
在色情网站的搜索中,乱伦占据了大多数
- “我想和……做爱”中,自动补全的内容是“妈妈”
- 在我的记忆中,自动补全引发的“问题”曾经上过热搜。包括对Siri说“北京哪里可以嫖娼”这样的问题。现在Apple已经屏蔽了一些类似的搜索。这个是前一小节中的“人们容易在搜索引擎上搜索难以启齿的问题”观点的一个良好证据
当失业率上升时,色情网站(搜索词“骚货”)和蜘蛛纸牌的搜索量上升
评价赛马中那匹马能拔得头筹时,人们往往采用血统,但这可能不靠谱
- 作者的例子: 魔术师约翰逊的儿子是时尚杂志主编
- 作者描述这个例子时的语言很风趣幽默:“目前看来,他的体型非常不错。遗传自约翰逊,有这样的体型是一定的。他应该会有远大的志向、无私的精神,体型好,速度快。他应该性格外向,为人友善,步伐矫健,风度翩翩”(用赛马的口气描述约翰逊的儿子)
- 这只是“可能不靠谱”而不是完全不靠谱,毕竟也有俗语“虎父无犬子”。应该关注更多其他的因素,这也是所谓“大数据”的一种体现。
左心室大小和赛马成绩好坏的关联值为99.6%
- 这可以解释,因为心脏越好,供血越足,体能越好。
- 但这也不可以解释,我们可以将心脏大小和跑步速度量化,做出一个回归曲线,而这个曲线只有“统计意义”,统计意义就是“没意义”。
- 目前地震的“概率预报”也是如此,这种“黑箱子”式的预报方法,无法理解地震形成的内涵,永远无法准确预报地震。估计未来仍然需要对震源理论进行研究,才能解决这个科学问题。
反驳了:南北战争促进了美国统一(从州集合体到单一国家)
- 作者给出的证据:The United States are 和 The United States is的说法在文献中出现的频率对比,从前者到后者转变主要发生在1880年,而南北战争在这之前。但不可否认,大致是在那段时间后,说法逐渐转移到后者,并且基本在1940后已经没有前者的说法了。
可以对文本进行情绪分析
- 我也做了类似的研究,分析了我和妹妹以及在群内聊天时的情绪,知乎上也有对周杰伦、王力宏、潘玮柏和林俊杰等歌手中歌词的情绪分析结果。这个可以用python中的SnowNLP包实现(中文)。具体的报告我会在之后有时间的时候做完并上传。
- 通过情绪分析发现,相当多的故事具有类似的情绪曲线,分为六种:上升;下降;先上后下;先下后上;先上后下再上;先下后上再下(和电法曲线类似……)
夜间灯光亮度可以衡量GDP,特别是对于发展中国家
调查结果和实际不一定相符:人们羞于表达自己真实的情况
- 我印象中有一种方法可以在统计学上避免这样的情况:这样设计问卷的第一题:“现在抛一枚硬币,如果正面朝上,你需要如实回答问题,如果背面朝上,你可以不如实回答问题”。通过贝叶斯定律可以计算真实情况的问答结果。但是这仍然无法解决部分被调查者“故意不正确回答问题”的情况
如果社会不容许男同性恋,那么该地区男同出柜数目下降
- 这并不代表该地区男同数目少
- 作者给出的更详细结论:支持出柜率上升20%,男同出柜率会增加50%
人们在网络上更容易碰到和自己意见相左的人
- “这正是互联网‘互联’的意义所在”——YF.Lee
- 人们在现实生活中会避免冲突,所以不会袒露向左的意见。也符合大多数国人“闷声发大财”的心理
禁止堕胎的州中,仍然有不少女性堕胎
- 作者给出的证据:根据官方记录的堕胎率计算得到的出生率偏低
“口嫌体正直”
- 嘴上“不想跟踪自己的朋友”,实际上“最想对朋友指手画脚”,因此诞生了Facebook;嘴上“不想购买血汗工厂产品”,实际上“想买物美价廉的东西,因此诞生了Nike;嘴上“早上想听新闻”,实际上“只想听和明星有关的色情新闻”,因此Howard Sterns身家五亿美元……
对于男孩而言,在七八岁时,如果喜欢的球队获得了冠军,那么他极有可能成为球队的死忠粉
- 显然,孩童时期的时光将极大的影响人的一生
促使穷人在城市里活得更久的因素:宗教虔诚、污染少、医疗保险覆盖高和富人较多
- 作者给出的解释:习惯会传染(针对上述因素的最后一点)
在2010年冬季奥林匹克运动会冰球决赛中,赛段结束时家庭用水量上升,原因:整个城市的抽水马桶都在冲水
- 这种无厘头的关联实际上隐藏着某些因果关系,就像“卡车讨厌香草冰淇淋”。当司机买香草冰淇淋的时候卡车就发动不起来,但是买其他冰淇淋就能发动起来。原因是香草冰淇淋很受欢迎,因此香草冰淇淋会放在货架上层,购买的速度比较快,由于卡车散热不好,因此卡车发动不起来。这个故事我最早在《读者》杂志中看到过,应该是在我上初中的时候,即2010年前后
- 这个抽水马桶的故事我似乎在某个智力问答节目中看到过,但肯定不是正经的智力问答
- 还有早上8点之后小游戏的搜索量上升,因为学生开始上课/公务员开始上班
“二重身”理论
- 这个预测方法很有趣而且我感觉很重要,因此重点标记了
- 如果你想预测某个球员A30岁之后还是否巅峰,可以找他的“二重身”,比如某球员B,他在20岁的时候和A一模一样,比如一样的爱好,一样的进攻方式,一样的商场时长,但是在21岁时他能力下降了,那么球员A的能力很有可能也会下降。
- 换言之,如果两个人越像,他们的决定也会更类似。这有点像网易云等音乐软件的“相似推荐”算法。
AB测试
- 利用随机分组的方式分为AB两组,根据他们的反应判断两个方案中哪个方案更优
- 这是很常见的控制变量法,但是在大数据时代,这样的AB测试更为肆无忌惮,也更为“隐蔽”。例如广告投放,可能在不知不觉中,用户成为了AB测试的对象而浑然不知
- 有意思的是,“标题党”也是AB测试中的一环,人们更喜欢那些“标题党”。下面给一个书中的表格,读者可以自行判断哪个更受人欢迎。结果放在文末(颇有UC震惊部的感觉)
标题A | 标题B | |
---|---|---|
1 | 无人机SnotBot能拯救蓝鲸吗? | 这家无人机能帮我们拯救蓝鲸吗? |
2 | 毋庸置疑,“漏气的球”是麻省最热的搜索词 | 无比尴尬,麻省的谷歌搜索最热搜索词竟然是这个 |
3 | “开苞比赛”:圣罗兰中学强奸案庭审情况 | 零指控!私立中学性丑闻不了了之 |
4 | 女性不买稀有棒球卡,省下个银行来 | 女性不买稀有棒球卡,节省了17900美元 |
5 | 到2020年,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 | 注意了,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 |
6 | 马萨诸塞州如何帮你赢得生育控制权 | 波士顿大学帮你如何终结“贞洁犯罪” |
7 | 波士顿第一条地铁何时开通 | 波士顿第一条地铁开通时的动画片 |
8 | 受害人及其家人在预科学校强奸案审讯中指责“毒文化” | 受害人及其家人在预科学校强奸案审讯中发声 |
9 | 头戴有“自由的布雷迪”字样帽子的人才能压过麦莉·塞勒斯的搞怪风头 | 爱国者队球迷一眼就认出了伪装的麦莉·塞勒斯 |
- 有共同的好友圈其实是一个强预测器,预示着一段爱情长不了
- 男性更在乎自己的生殖器大小和做爱时间,女性关心自己生殖器的味道
- 在奥马巴呼吁社会和平、减少种族歧视的演讲后,种族歧视的搜索量反而上升(每一项正面搜索都会下降)
- 反驳了:领导人只是傀儡的说法
- 领导人确实在一定程度上改变了国家的命运,而不是所谓的“傀儡”
- 这是一个非常重要的结论,我自己都被震惊了
- 什么是断点回归:一种“一刀切的分类方法”,例如在某个分数线上能去A中学,在这个分数线下只能去B中学
- 往往认为这样会导致人的人生轨迹大不相同。但实际上分数相近却分到了两个不同中学的两个人,最后都会读分数相近的两个大学,这和人们的印象大不相同。
- 书上重点说了不受影响的例子,但同时也有受影响的例子。只能说这个需要具体情况具体分析了
大数据:请小心轻放
- 维度诅咒:只要变量大而且观察的现象小,那么总能找到“因果关系”,反之很难找到因果关系。但是这个所谓的“因果关系”可能没有任何意义。
- 文中的例子是这样的:用1~1000个数字给1000个硬币编号,在两年的时间里早上抛出一枚硬币,记下朝向和标准普尔指数的涨跌。只要检查了所有的数据,总能发现一些诡异的因果关系,例如第391号硬币正面朝上后有70.3%的概率标准普尔指数会上升。
- 文中也指出,利用大数据预测股市/彩票是不现实的
- 申请贷款时做出的个人陈述中,带着“上帝”,“保证”,“会偿还”和“医院”字眼的人更不容易偿还贷款
- 这引出了新的话题,我们是否可以通过大数据否定一个人。即便我们从来没见过面。
- 引申出的新话题:如果科学研究表明基因真的能决定人的一部分因素,比如智力等,我们是否能接受基因筛查。如果不能,那么“婚前检查”是否也应该被禁止?
- 在2019-07-02 下午与YF.Lee讨论的过程中,她认为婚前检查是正确的,基因筛查是不正确的。我也这么认为,我判断的依据是“这样的行为是否必须”。对于婚前检查,筛查的是致死因素,例如唐氏综合症等,如果带有这样严重缺陷的婴儿诞生,生存质量会急剧下降,这是一种必要的检查。而对于目的为“高智商”的筛查,这样的筛查是不必要的。
- 引申的新话题:到底婴儿什么时候成为真正的“人”(包括社会学意义和生物学意义)?如何界定受精卵和人?这些问题都有官方答案(在法律层面上),但是这样的思考仍然具有意义。
结论,致谢以及其他
- 社会科学也是科学
- 呃,在我看来又是“屁股决定脑袋”的问题。我认为地球科学是科学中极其重要的组成部分,它是科学并且将引领科学的发展。
- 作者是个单身狗
- 哈哈哈哈哈哈哈哈哈哈哈哈哈哈
读后感
总的来说,这本书依然是“标题党”。虽然提到了一些结论,但是大部分都讲的比较浅,没有深入的研究。霍金的编辑曾说过,“公式增加一个,读者减少一半”。可能是由于我的理工科思维作祟,尽管部分的结论很吸引人,但是没有具体的数字、研究方法时,我依然觉得这是一种“空中楼阁”
但是这本书的立意还是很有意思的:看别人做什么,而不是看别人说什么。另外,这本书大量的提到了关于“性”的话题。我必须承认我确实也会被这样的话题吸引,而这些话题往往是难以开口的。
对我而言,里头最让我意外和吃惊的是两个部分
第一就是对于“二重身”方法。我看到时心里陡升一阵恶寒。这样的感觉比没有隐私更让我感到可怕。似乎人们对于完全一样的“人”有着一种排斥感。我们喜欢和与我们类似的人做朋友,但是或许很难接受完全一模一样的“克隆人”。大数据包含着更多的个体,但是却能看出一种概率上的“注定”。就像很多人觉得坐飞机危险一样,尽管飞机的失事率很低,但是他们嘴里会念叨“碰上了就是100%”。每次碰到一些统计数据时,特别是在我毕业那会儿看到毕业调查,总会有一种悲伤感,
第二是“断点回归”。在很长的一段时间里头我会自怨自艾“要是当时……就好了”。但是看完本书中的断点回归部分,似乎发现那并不能直接决定什么,它可能有影响,但不会起到决定的作用。这样的话也适用于所有即将或者已经高考过的高中生们:不要把高考看作决定一切的事情,它影响很大,但不会完全影响一生。 无论如何,这是我在雁栖湖读完的第一本书,意义很大(对我而言)。我认为这是一本合格的消遣读物,如果满分5分,我可以给到3.8分。
其他
AB测试中的“标题党结果”
答案是ABBAB BABB,有些标题党受到欢迎,但有些却没有,你答对了么?
标题A | 标题B | 胜出标题 | |
---|---|---|---|
1 | 无人机SnotBot能拯救蓝鲸吗? | 这家无人机能帮我们拯救蓝鲸吗? | 标题A点击率高出53% |
2 | 毋庸置疑,“漏气的球”是麻省最热的搜索词 | 无比尴尬,麻省的谷歌搜索最热搜索词竟然是这个 | 标题B点击率高出986% |
3 | “开苞比赛”:圣罗兰中学强奸案庭审情况 | 零指控!私立中学性丑闻不了了之 | 标题B点击率高出108% |
4 | 女性不买稀有棒球卡,省下个银行来 | 女性不买稀有棒球卡,节省了17900美元 | 标题A点击率高出38% |
5 | 到2020年,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 | 注意了,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 | 标题B点击率高出62% |
6 | 马萨诸塞州如何帮你赢得生育控制权 | 波士顿大学帮你如何终结“贞洁犯罪” | 标题B点击率高出188% |
7 | 波士顿第一条地铁何时开通 | 波士顿第一条地铁开通时的动画片 | 标题A点击率高出33% |
8 | 受害人及其家人在预科学校强奸案审讯中指责“毒文化” | 受害人及其家人在预科学校强奸案审讯中发声 | 标题B点击率高出76% |
9 | 头戴有“自由的布雷迪”字样帽子的人才能压过麦莉·塞勒斯的搞怪风头 | 爱国者队球迷一眼就认出了伪装的麦莉·塞勒斯 | 标题B点击率高出67% |
文章历史
- 2019-07-02 第一次发布
- 2019-07-16 由于文章从Hexo迁移到Hugo,因此做出格式调整