前言

本文为《人人都在说慌》一书的读后感。虽然阅读的过程有些仓促,但是这是目前我在研究生阶段阅读完的第一本书。最开始接触到这本书是来源于国科大的推送,由于自己对大数据有着一定兴趣,再加上被本书的“标题党”所吸引,因此翻开这本书可以说是一种必然。(有趣的是,本书中还有一个章节讲述了“标题党”的效用)

由于我个人的读书习惯一般,常常处于碎片化阅读的模式。因此,在今天还书的时候特地写一下读后感,敦促我进行反刍,也让我能更进一步思考我能从这本书上获得什么。而我的个人风格就是啰嗦,且事无巨细,因此本文也以Q&A的形式呈现。

《人人都在说慌》的基本信息

作者

Seth Stephens Davidowitz,前谷歌数据家和专栏作家,经济学博士,他的博士论文就和Google有关。据Seth回忆,他这本书的出版还有博士的研究方向受《魔鬼经济学》一书影响很深,就是看了那本书之后才决定研究这个方向。无论如何,做自己想做的研究真的是一件特别幸福的事情。

书籍信息

出版社为中信出版集团,售价58元(好贵),全书300多页。第一次出版是2018年11月,并且只出了一版。我在雁栖湖的图书馆借书的时候已经是5月份了(它是5月购入的新书)

豆瓣读书

这本书在豆瓣读书中有相关信息,里头的部分书评值得一看。在本文“令人震惊/感到有趣的小结论”中,我只记录了我记得的,并且觉得有意思的小结论,其他的结论可以在豆瓣读书中的书评看

中心思想

太长不看,书里究竟讲了啥

中心思想

本书利用人们输入到搜索引擎内的信息得到了许多妙趣横生的结论

令人震惊/感到有趣的小结论

本节中主要记录在书中的一些比较有趣(至少我认为的)结论,并且对其展开一些讨论。下面中,小节名(绪论/大数据,小数据等)是书中原有的,在这些小节名下的各分列点是书中的结论(序号部分),在此之下是对观点的展开讨论(分列点部分)

绪论

  1. 已婚人士宣称的性行为次数比实际少
  2. 关于种族主义的搜索,东部>西部
    • 换言之,南方的共和党人更有可能承认自己的种族主义倾向,这在一定程度上左右了大选
  3. 人们容易在搜索引擎上搜索难以启齿的问题
    • 根据个人经验,的确如此23333

大数据,小数据

  1. 经验是一种良好的判断依据。但是容易先入“直觉误区”
    • 这和地球科学中的“局部最小类似”
    • 似乎AlphaGo也是如此,在最初版本中对AlphaGo采用了带有棋谱的监督学习,之后的版本中直接从零开始(AlphaZero),其效果比AlphaGo更好。但是这个结论是从知乎中看到的,不一定真实。这也是我有时候反感机器学习(或者各类启发式学习)的原因——太多太多比喻了。比喻原本应该帮助人们理解,而现在只是一种华丽的辞藻。
  2. 中产阶级的孩子更容易进入NBA
    • 强者恒强,弱者恒弱,马太效应没毛病
    • 更具体的数值如下:身高增加1英寸,进入NBA的概率翻番;社交技能也会影响进入NBA的成功率

大数据的力量

  1. 反驳了:弗洛伊德将潜意识归结与性

    • 弗洛伊德的证据:很多口误/梦境和性有关,例如penistrian是pedestrian(行人)的口误,里头的口误为penis(男性生殖器);梦境中人们会梦到香蕉,和男性生殖器形状相同

      • 现在看有点点扯淡,但是中学时候我奉为圭臬,可能是被这种观点震惊到了从而深信不疑
    • 作者反驳的证据: 实际上和性有关的口误占口误中的少数,而且很有可能是一种巧合,如果简单将s字母替换t字母;h字母替换g字母,就能出现许多和性有关的口误;香蕉和热狗本来就是人们常吃的食物,因此出现在梦中毫不奇怪,并且生菜也是人们常吃的食物,也出现在梦中,弗洛伊德无法解释生菜。

      • 可能存在“故意”挑选数据的情况。类似于“孕妇效应”:当你怀孕时你会发现街上都是孕妇,原因只是你怀孕了所以你关注,刻意忽略了那些看到正常行人的情况
  2. 在色情网站的搜索中,乱伦占据了大多数

    • “我想和……做爱”中,自动补全的内容是“妈妈”
    • 在我的记忆中,自动补全引发的“问题”曾经上过热搜。包括对Siri说“北京哪里可以嫖娼”这样的问题。现在Apple已经屏蔽了一些类似的搜索。这个是前一小节中的“人们容易在搜索引擎上搜索难以启齿的问题”观点的一个良好证据
  3. 当失业率上升时,色情网站(搜索词“骚货”)和蜘蛛纸牌的搜索量上升

  4. 评价赛马中那匹马能拔得头筹时,人们往往采用血统,但这可能不靠谱

    • 作者的例子: 魔术师约翰逊的儿子是时尚杂志主编
    • 作者描述这个例子时的语言很风趣幽默:“目前看来,他的体型非常不错。遗传自约翰逊,有这样的体型是一定的。他应该会有远大的志向、无私的精神,体型好,速度快。他应该性格外向,为人友善,步伐矫健,风度翩翩”(用赛马的口气描述约翰逊的儿子)
    • 这只是“可能不靠谱”而不是完全不靠谱,毕竟也有俗语“虎父无犬子”。应该关注更多其他的因素,这也是所谓“大数据”的一种体现。
  5. 左心室大小和赛马成绩好坏的关联值为99.6%

    • 这可以解释,因为心脏越好,供血越足,体能越好。
    • 但这也不可以解释,我们可以将心脏大小和跑步速度量化,做出一个回归曲线,而这个曲线只有“统计意义”,统计意义就是“没意义”。
    • 目前地震的“概率预报”也是如此,这种“黑箱子”式的预报方法,无法理解地震形成的内涵,永远无法准确预报地震。估计未来仍然需要对震源理论进行研究,才能解决这个科学问题。
  6. 反驳了:南北战争促进了美国统一(从州集合体到单一国家)

    • 作者给出的证据:The United States are 和 The United States is的说法在文献中出现的频率对比,从前者到后者转变主要发生在1880年,而南北战争在这之前。但不可否认,大致是在那段时间后,说法逐渐转移到后者,并且基本在1940后已经没有前者的说法了。
  7. 可以对文本进行情绪分析

    • 我也做了类似的研究,分析了我和妹妹以及在群内聊天时的情绪,知乎上也有对周杰伦、王力宏、潘玮柏和林俊杰等歌手中歌词的情绪分析结果。这个可以用python中的SnowNLP包实现(中文)。具体的报告我会在之后有时间的时候做完并上传。
    • 通过情绪分析发现,相当多的故事具有类似的情绪曲线,分为六种:上升;下降;先上后下;先下后上;先上后下再上;先下后上再下(和电法曲线类似……)
  8. 夜间灯光亮度可以衡量GDP,特别是对于发展中国家

  9. 调查结果和实际不一定相符:人们羞于表达自己真实的情况

    • 我印象中有一种方法可以在统计学上避免这样的情况:这样设计问卷的第一题:“现在抛一枚硬币,如果正面朝上,你需要如实回答问题,如果背面朝上,你可以不如实回答问题”。通过贝叶斯定律可以计算真实情况的问答结果。但是这仍然无法解决部分被调查者“故意不正确回答问题”的情况
  10. 如果社会不容许男同性恋,那么该地区男同出柜数目下降

    • 这并不代表该地区男同数目少
    • 作者给出的更详细结论:支持出柜率上升20%,男同出柜率会增加50%
  11. 人们在网络上更容易碰到和自己意见相左的人

    • “这正是互联网‘互联’的意义所在”——YF.Lee
    • 人们在现实生活中会避免冲突,所以不会袒露向左的意见。也符合大多数国人“闷声发大财”的心理
  12. 禁止堕胎的州中,仍然有不少女性堕胎

    • 作者给出的证据:根据官方记录的堕胎率计算得到的出生率偏低
  13. “口嫌体正直”

    • 嘴上“不想跟踪自己的朋友”,实际上“最想对朋友指手画脚”,因此诞生了Facebook;嘴上“不想购买血汗工厂产品”,实际上“想买物美价廉的东西,因此诞生了Nike;嘴上“早上想听新闻”,实际上“只想听和明星有关的色情新闻”,因此Howard Sterns身家五亿美元……
  14. 对于男孩而言,在七八岁时,如果喜欢的球队获得了冠军,那么他极有可能成为球队的死忠粉

    • 显然,孩童时期的时光将极大的影响人的一生
  15. 促使穷人在城市里活得更久的因素:宗教虔诚、污染少、医疗保险覆盖高和富人较多

    • 作者给出的解释:习惯会传染(针对上述因素的最后一点)
  16. 在2010年冬季奥林匹克运动会冰球决赛中,赛段结束时家庭用水量上升,原因:整个城市的抽水马桶都在冲水

    • 这种无厘头的关联实际上隐藏着某些因果关系,就像“卡车讨厌香草冰淇淋”。当司机买香草冰淇淋的时候卡车就发动不起来,但是买其他冰淇淋就能发动起来。原因是香草冰淇淋很受欢迎,因此香草冰淇淋会放在货架上层,购买的速度比较快,由于卡车散热不好,因此卡车发动不起来。这个故事我最早在《读者》杂志中看到过,应该是在我上初中的时候,即2010年前后
    • 这个抽水马桶的故事我似乎在某个智力问答节目中看到过,但肯定不是正经的智力问答
    • 还有早上8点之后小游戏的搜索量上升,因为学生开始上课/公务员开始上班
  17. “二重身”理论

    • 这个预测方法很有趣而且我感觉很重要,因此重点标记了
    • 如果你想预测某个球员A30岁之后还是否巅峰,可以找他的“二重身”,比如某球员B,他在20岁的时候和A一模一样,比如一样的爱好,一样的进攻方式,一样的商场时长,但是在21岁时他能力下降了,那么球员A的能力很有可能也会下降。
    • 换言之,如果两个人越像,他们的决定也会更类似。这有点像网易云等音乐软件的“相似推荐”算法。
  18. AB测试

    • 利用随机分组的方式分为AB两组,根据他们的反应判断两个方案中哪个方案更优
    • 这是很常见的控制变量法,但是在大数据时代,这样的AB测试更为肆无忌惮,也更为“隐蔽”。例如广告投放,可能在不知不觉中,用户成为了AB测试的对象而浑然不知
    • 有意思的是,“标题党”也是AB测试中的一环,人们更喜欢那些“标题党”。下面给一个书中的表格,读者可以自行判断哪个更受人欢迎。结果放在文末(颇有UC震惊部的感觉)
标题A 标题B
1 无人机SnotBot能拯救蓝鲸吗? 这家无人机能帮我们拯救蓝鲸吗?
2 毋庸置疑,“漏气的球”是麻省最热的搜索词 无比尴尬,麻省的谷歌搜索最热搜索词竟然是这个
3 “开苞比赛”:圣罗兰中学强奸案庭审情况 零指控!私立中学性丑闻不了了之
4 女性不买稀有棒球卡,省下个银行来 女性不买稀有棒球卡,节省了17900美元
5 到2020年,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 注意了,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番
6 马萨诸塞州如何帮你赢得生育控制权 波士顿大学帮你如何终结“贞洁犯罪”
7 波士顿第一条地铁何时开通 波士顿第一条地铁开通时的动画片
8 受害人及其家人在预科学校强奸案审讯中指责“毒文化” 受害人及其家人在预科学校强奸案审讯中发声
9 头戴有“自由的布雷迪”字样帽子的人才能压过麦莉·塞勒斯的搞怪风头 爱国者队球迷一眼就认出了伪装的麦莉·塞勒斯
  1. 有共同的好友圈其实是一个强预测器,预示着一段爱情长不了
  2. 男性更在乎自己的生殖器大小和做爱时间,女性关心自己生殖器的味道
  3. 在奥马巴呼吁社会和平、减少种族歧视的演讲后,种族歧视的搜索量反而上升(每一项正面搜索都会下降)
  4. 反驳了:领导人只是傀儡的说法
    • 领导人确实在一定程度上改变了国家的命运,而不是所谓的“傀儡”

  1. 这是一个非常重要的结论,我自己都被震惊了
“断点回归”并不能显著影响人的发展
  • 什么是断点回归:一种“一刀切的分类方法”,例如在某个分数线上能去A中学,在这个分数线下只能去B中学
  • 往往认为这样会导致人的人生轨迹大不相同。但实际上分数相近却分到了两个不同中学的两个人,最后都会读分数相近的两个大学,这和人们的印象大不相同。
  • 书上重点说了不受影响的例子,但同时也有受影响的例子。只能说这个需要具体情况具体分析了

大数据:请小心轻放

  1. 维度诅咒:只要变量大而且观察的现象小,那么总能找到“因果关系”,反之很难找到因果关系。但是这个所谓的“因果关系”可能没有任何意义。
    • 文中的例子是这样的:用1~1000个数字给1000个硬币编号,在两年的时间里早上抛出一枚硬币,记下朝向和标准普尔指数的涨跌。只要检查了所有的数据,总能发现一些诡异的因果关系,例如第391号硬币正面朝上后有70.3%的概率标准普尔指数会上升。
    • 文中也指出,利用大数据预测股市/彩票是不现实的
  2. 申请贷款时做出的个人陈述中,带着“上帝”,“保证”,“会偿还”和“医院”字眼的人更不容易偿还贷款
    • 这引出了新的话题,我们是否可以通过大数据否定一个人。即便我们从来没见过面。
    • 引申出的新话题:如果科学研究表明基因真的能决定人的一部分因素,比如智力等,我们是否能接受基因筛查。如果不能,那么“婚前检查”是否也应该被禁止?
    • 在2019-07-02 下午与YF.Lee讨论的过程中,她认为婚前检查是正确的,基因筛查是不正确的。我也这么认为,我判断的依据是“这样的行为是否必须”。对于婚前检查,筛查的是致死因素,例如唐氏综合症等,如果带有这样严重缺陷的婴儿诞生,生存质量会急剧下降,这是一种必要的检查。而对于目的为“高智商”的筛查,这样的筛查是不必要的。
    • 引申的新话题:到底婴儿什么时候成为真正的“人”(包括社会学意义和生物学意义)?如何界定受精卵和人?这些问题都有官方答案(在法律层面上),但是这样的思考仍然具有意义。

结论,致谢以及其他

  1. 社会科学也是科学
    • 呃,在我看来又是“屁股决定脑袋”的问题。我认为地球科学是科学中极其重要的组成部分,它是科学并且将引领科学的发展。
  2. 作者是个单身狗
    • 哈哈哈哈哈哈哈哈哈哈哈哈哈哈

读后感

总的来说,这本书依然是“标题党”。虽然提到了一些结论,但是大部分都讲的比较浅,没有深入的研究。霍金的编辑曾说过,“公式增加一个,读者减少一半”。可能是由于我的理工科思维作祟,尽管部分的结论很吸引人,但是没有具体的数字、研究方法时,我依然觉得这是一种“空中楼阁”

但是这本书的立意还是很有意思的:看别人做什么,而不是看别人说什么。另外,这本书大量的提到了关于“性”的话题。我必须承认我确实也会被这样的话题吸引,而这些话题往往是难以开口的。

对我而言,里头最让我意外和吃惊的是两个部分

  • 第一就是对于“二重身”方法。我看到时心里陡升一阵恶寒。这样的感觉比没有隐私更让我感到可怕。似乎人们对于完全一样的“人”有着一种排斥感。我们喜欢和与我们类似的人做朋友,但是或许很难接受完全一模一样的“克隆人”。大数据包含着更多的个体,但是却能看出一种概率上的“注定”。就像很多人觉得坐飞机危险一样,尽管飞机的失事率很低,但是他们嘴里会念叨“碰上了就是100%”。每次碰到一些统计数据时,特别是在我毕业那会儿看到毕业调查,总会有一种悲伤感,

  • 第二是“断点回归”。在很长的一段时间里头我会自怨自艾“要是当时……就好了”。但是看完本书中的断点回归部分,似乎发现那并不能直接决定什么,它可能有影响,但不会起到决定的作用。这样的话也适用于所有即将或者已经高考过的高中生们:不要把高考看作决定一切的事情,它影响很大,但不会完全影响一生。 无论如何,这是我在雁栖湖读完的第一本书,意义很大(对我而言)。我认为这是一本合格的消遣读物,如果满分5分,我可以给到3.8分。

其他

AB测试中的“标题党结果”

答案是ABBAB BABB,有些标题党受到欢迎,但有些却没有,你答对了么?

标题A 标题B 胜出标题
1 无人机SnotBot能拯救蓝鲸吗? 这家无人机能帮我们拯救蓝鲸吗? 标题A点击率高出53%
2 毋庸置疑,“漏气的球”是麻省最热的搜索词 无比尴尬,麻省的谷歌搜索最热搜索词竟然是这个 标题B点击率高出986%
3 “开苞比赛”:圣罗兰中学强奸案庭审情况 零指控!私立中学性丑闻不了了之 标题B点击率高出108%
4 女性不买稀有棒球卡,省下个银行来 女性不买稀有棒球卡,节省了17900美元 标题A点击率高出38%
5 到2020年,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 注意了,马萨诸塞州海湾交通管理局项目年度运营赤字将翻番 标题B点击率高出62%
6 马萨诸塞州如何帮你赢得生育控制权 波士顿大学帮你如何终结“贞洁犯罪” 标题B点击率高出188%
7 波士顿第一条地铁何时开通 波士顿第一条地铁开通时的动画片 标题A点击率高出33%
8 受害人及其家人在预科学校强奸案审讯中指责“毒文化” 受害人及其家人在预科学校强奸案审讯中发声 标题B点击率高出76%
9 头戴有“自由的布雷迪”字样帽子的人才能压过麦莉·塞勒斯的搞怪风头 爱国者队球迷一眼就认出了伪装的麦莉·塞勒斯 标题B点击率高出67%

文章历史

  • 2019-07-02 第一次发布
  • 2019-07-16 由于文章从Hexo迁移到Hugo,因此做出格式调整