<<返回上一页

谷歌的“化石记录”数字化了500万本书

发布时间:2017-10-01 18:20:34来源:未知点击:

作者:鲍勃·霍姆斯(Bob Holmes)人类学者第一次可以与自然科学同事中最好的人一起处理数字问题,这要归功于谷歌500万本书的“化石记录”研究人员已经追踪了英语语言的加速演变,描绘了各种人的兴衰,并揭示了苏俄,现代中国和20世纪50年代美国的审查和压制模式 - 这只是一个开端哈佛大学应用数学家和生物工程师Erez Lieberman Aiden与Jean-Baptiste一起领导这项研究,他说:“这个数据集将覆盖一个比我们在一篇论文中谈论的更有趣的领域”米歇尔,也是哈佛大学到目前为止,人文学科的学者倾向于阅读相对较少的文本,最多只有数百或数千这使他们形成一个主观的图片,不适合进行统计分析然而,近年来谷歌已着手创建数百万本书全文的数字化版本从迄今为止数字化的1500多万册图书中,来自谷歌和哈佛的艾登,米歇尔及其同事选择了520万具有最可靠数据的书籍 - 总计超过5000亿字如果写成单行文本,这将延伸到月球并返回10次然后研究人员计算出每个单词在1800到2000年间每年出现在数据集中的次数这使得他们可以跟踪这一时期内单词使用的变化,因为使用的英语单词总数从1900年的544,000增加到2000年超过100万,其中绝大部分来自1950年以后(这些百万字中约有52%没有出现在标准词典中,形成了研究人员称之为“词汇暗物质”)同样,他们追踪提到人们的名字,这是一种粗俗的名气,并且发现今天的人们在生命早期比过去更有名 - 在20世纪中期平均年龄29岁,低于19世纪初的43岁然而,他们发现,今天的名气更为短暂这些数据也显示出明显的审查证据,因为某些禁忌名称在某些国家的使用中消失了:例如1989年后的中国“天安门广场”同样,“莱昂托洛茨基”在1940年左右在俄罗斯书籍中大幅度下降,而且在美国的反共产主义歇斯底里期间,被列入黑名单的好莱坞演员的名字减少了美国政府国家人文基金会驻华盛顿特区数字人文办公室主任Brett Bobley说,这类定量分析代表了人文学者的一个重要的新工具 “那里有很多潜力,”他说 “我们正处于一个真正的转折点”期刊参考:科学,DOI:10.1126 / science.11​​99644关于这些主题的更多信息: