无法保存的数据,正在消失的历史

日期:2019-12-27  作者:小天  来源:www.txunda.com  人气:1482

“洛阳纸贵”。自2016年起,纸类产品,包括全新的纸浆与纸产品,以及废纸的回收价格都走出了过山车一样的折线图。

在“纸”这个传统知识载体上,折射出的全是新经济作用于社会所产生的一系列后果:电商等业务催生的包装需求、现代经济社会对环境提出的更高要求,清退落后产能与限制废弃纸张进口,都在无形中推升纸价。

废纸是可再生资源,而现代的知识与信息载体——例如硬盘——就没有这么好的待遇了。一方面,数据很脆弱,就在本文发布的12月26日下午,微信公众号后台崩溃,公众号们曾发布的信息,暂时与读者断开连接。

另一方面,数据还有点贵。数据的存储与使用都有看得见成本,有务实的公司打起了清空历史数据的主意。

今年10月,老牌互联网公司雅虎曾有一则新闻,标题已经很好地总结了新闻内容,大概是这个画风

《雅虎宣布逐渐关闭“雅虎群组”网站,12月14日后删除所有上传内容》

新闻一出就惹了众怒。雅虎群组是雅虎公司在2001年推出的一个线上讨论社区,也是世界上最大的网络社区之一。(其运营者雅虎公司于2017年被美国电信行业巨头Verizon收购。)

根据NPR(美国公共广播电台)的报道,一些互联网历史研究者对删除数据的行为表示激烈反对,他们认为,雅虎群组保留了包括关于9·11事件在内的诸多历史讨论,是研究互联网早期历史的绝佳窗口。

在NPR的讨论者中,有一位致力于保存雅虎群组数据的非盈利组织的工作人员。无独有偶,在著名论坛Reddit上,也有用户开始为了保存雅虎群组数据开发各类工具。但雅虎并不允许这样的事情发生——雅虎宣布封禁了上百个试图存档雅虎群组数据的账号,想保存数据?没门。


这个事件的最新消息是,雅虎为个人数据延长了一个多月的“保质期”,让个人用户可以导出数据。想从更高维度审视这些自发形成、群力搭建的网络遗迹?不好意思,此路依然不通。

数据遗迹,谁来保护?

在人类的历史上,通常是大大小小的图书馆、博物馆承担“保存信息”这个重大任务,它们完成了知识的传承与文明的记录。而在过去的信息时代几十年里,人类创造了前所未有的信息财富,这些记录的载体,正是保存着数据的硬盘(当然,还有其它数据载体)。

但,人类真的在好好记录这个时代吗?

BBC在今年4月发表的一篇评论曾提出这个问题:早期互联网历史存档内容为何如此之少?

他们找到了更多数据丢失的案例:同属电信巨头Verizon旗下的互联网门户“美国在线”(AOL),曾在2013年关闭旗下所有音乐网站,数百位撰稿人及数十位编辑的多年工作成果几乎全部消失。最后,作者悲观地认为,即使用户将照片发送到Facebook这样如日中天的平台上,也早晚有一天会像已被关闭的Google+一样失去所有内容。


史学研究者推崇王国维提出的“二重考据法”,追求“纸上之材料”与“地下之材料”的相互参证。在互联网时代,数据就是这“纸上之材料”。尊重数据的公司也是有的,它们正在致力于建设数据的图书馆。

成立于1996年的互联网档案馆(Internet Archives)致力于存档各个网站的网页,但即使已经成立三十多年,互联网档案馆依然缺席了互联网刚刚诞生的那五年,并且也不可能存档下整个互联网——更何况随着移动互联网诞生,如今的信息更多散落在封闭体系内,而不是可以公开访问、记录的网站页面了。

数据无法获取,存储也是难题。有一些公司正在试图把更多的数据更长久地保存下去。

在上个月,代码托管平台Github宣布,计划将包括Linux、Android在内的6000多个流行开源项目的源代码,以胶片形式存储并封存在北极地下250米的仓库里,预计这些数据可以保留上千年。另一方面,针对长期、低成本保存数据的需求,也有公司在积极开发相应的技术。例如微软最近宣布了一项在石英玻璃上用激光刻蚀存储数据的技术,声称可以在一片杯垫大小的玻璃上刻入一部电影母带的容量,可以保存数千年。

百年之后,历史数据属于谁?

保存数据,除了需要用情怀去覆盖成本以外,还有一个务虚的问题:用户产生的数据,在更长远的历史视角上,数据的所有权将归于谁?

对于仍然健在的公司来说,复杂的用户协议中往往对用户产生的数据做出了诸多免责规定,甚至将用户内容的所有权(著作权等)归于平台,并且不对数据的保存期限做出保证。而对于已经消失的公司,曾经的用户协议也已经和历史数据一样成了“故纸堆”。

在2015年的《纽约时报》的一则报道调查了 99 个有英文服务条款或者隐私政策的网站,其中有 85 个网站称,它们可能会在合并、兼并、破产、资产出售或者其他交易发生时转移用户的信息。

我们可能已经对数据的产生与消失变得麻木——各类网盘、博客平台的关停屡见不鲜。而除了关停,还有更多的数据被雪藏,如百度贴吧,这个与雅虎群组类似的产品,同样记录着很多关于某些时刻的舆论史料,这些记录至今已无法追溯。

另外一个问题是,即使这些信息都可以追溯并保存上千年,但这些由用户贡献、显著带有个人特色及隐私的内容,能否进入公共领域,成为每个研究者都可以引述的对象?

在没有互联网的时代,传统的出版业部分解决了这个问题。我们至今还能看到大量的名人日记出版,有些名人,像清末的李慈铭和民国时代的胡适,甚至在生前就开始出版日记。这些内容也得益于公开出版而免于散佚。

但“名人日记”总归不同于平民百姓的朋友圈日常吐槽,在日益强调“隐私”和“权益”的今天,你在网上的发言,在几年、几十年甚至上百年后,被一记“洛阳铲”挖出来作为史料研究,还需要你来批准、同意与署名吗?

新一轮“文献灾难”的罪魁

中外历史上曾发生过无数次“文献灾难”。

亚历山大图书馆,这座可能是世界上最早的图书馆,其馆藏的无数古代典籍,数次毁于兵火;十字军东征期间,开罗、叙利亚图书馆的旧藏也遭统治者变卖充军饷;而在中国,古人将文献灭失事件称为“书厄”,意为“书籍遭遇的劫难”。从隋代的“五厄”到明代的“十厄”,再到近现代的“十五厄”,文献毁灭事件从未停止。

总结起来,人类历史上文献消失可分为如下几类因素:

一来是政治劫难,历代禁书活动也因内外交困不得不卖书求生的事件,从未停止;

二来是战争因素,每当内外战争或改朝换代,因为战争导致的图书被烧毁和劫掠事件不断。如鸦片战争期间,中国最早的私家藏书楼天一阁遭抢;清圆明园藏书楼文源阁,因英法联军入侵而遭毁;

三来是自然因素,一些条件良好的藏书楼,因为天火、水灾等自然因素而遭毁,如粤雅堂藏书在“十三行大火”中被毁;俄罗斯科学院社会科学信息研究所起火,导致所内图书馆被烧。

但互联网却显得更特殊:市场经济条件下,倘若无人愿花钱保存这些文献,我们也无法横加指责;有人以隐私之名拒绝公开资源,历史研究者们也只能望洋兴叹。

时代在进步,互联网向我们展示了技术是如何轻易打破信息不对称,但最终,技术也暴露出其难以克服的缺陷:它不能为我们保存更多历史,甚至给消灭历史带来更多便利。

下一轮“文献灾难”,可能离我们并不远。

天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP、小程序、网站,是万千企业之选。

标签:天迅达科技 天津APP开发 天津网站建设 网站建设