在网络上一张图片被转化为0和1的序列,数字化的信息可以传播、复制、下载和储存。以前我们还可以焚书,现在已经不可能焚烧电子书,云计算的概念让数据可以在多地储存、备份,让意外再也无法破坏你的数据。
数据的数字化让数据免于现实世界中的各种灾难,然而电子数据离永恒存在还差得远。
问题是数据本身很可能不会丢失,但未来的人们可能无法读取这些数据。
试试看在Vista\Win7\Win8中打开WordPerfect文件看看,Microsoft已经不再支持这些格式。Apple也从2004年起停止支持ClarisWorks,丢弃了自己使用了13年的办公软件套件。2013年末推出的PlayStation 4也无法读取1996年的古惑狼CD。想从软盘里恢复一些数据,太难了。
Internet之父和Google“首席因特网布道者” Vint Cerf说:“保存二进制位难度并不大,问题是这些位代表什么意思?”
从原始软盘发明之初到现在也不过50年左右的时光,今天许多笔记本连软盘的后继者光驱都不再配备。纸质文件的长久保存优点瞬间凸显。Cerf提出了一个问题,如果往后1000年或者3000年,我们怎么知道如何正确将这些数字数据转化成我们需要的信息?Cerf认为如果不找到合适的解决办法,那么21世纪将成为信息黑洞。
卡耐基·梅隆大学的Mahadev Satyanarayanan正在开发一套专门归类和记录数字对象的平台,对解读软硬件进行描述。他的平台名为“The Olive Archive”,设计的目的是为了解决最难保存的数据:可执行文件。
图片和文字等静态文档数据保存起来是一回事,但是许多今天的重要信息都是动态的。电子游戏、互动式数据库、以及各种应用软件的保存难度比起前者难得多,原因在于这些软件不光需要一台能够读取二进制位和字节的计算机,而且未来的硬件一定要能够输入指令并解读程序中的各种变化。当玩家按下PS手柄上的方块按钮时,古惑狼会原地转圈,然而计算机并没有方块按钮。随着GPU、CPU、主板和其它硬件的不断进化,同样的问题也会影响计算机。
解决办法
解决办法之一是保存所有硬件的至少其中一种版本,这种做法虽然过火,但是未来我们可以重新创造出恢复数据所需要的硬件生态系统。Olive Archive平台做的就是相同的工作,但是他们的解决办法高大上很多,而且用不着修个大仓库,堆满老硬件,要知道如果真这么做,过个几十年,这些硬件就坏了。Satya想建造“虚拟机”,通过描述硬件或者绘制示意图,让老旧的程序通过软件再生。用当前的软件模拟老旧硬件早已有之,但是搭建这样一个这样一个可以打开并执行任意数字对象的知识库,这是个浩大的工程。
我们如何确保这篇文章在下个千年里还能存在呢?Satya首先提出了用PDF这种便于储存的格式存放文件。那么要打开一个?.pdf文件,就需要使用Adobe Reader,未来的人类如果想要打开,就要使用保存PDF文件同版本号的Adobe Reader(在这个案例里是10.1.12)。Adobe Reader软件只有在操作系统的环境下才能运行,所以还需要能兼容PDF reader 的Windows(或者MacO\Linux),最后,操作系统还需要在硬件上运行。我(原文)在输入这些文字的时候,使用的是联想ThinkPad Y470,虚拟机可以模拟我这台计算机里的硬件,不过任何能够执行Windows的计算机,只要能够兼容Adobe Reader也可以。所以数字文件中的每一位数据都是由软件、操作系统和硬件构成。Satya的目标是创造出这些构成元素的档案,可以根据需求组合,上传到服务器,供用户通过网络读取。
从2013年起开始工作,团队已经完成了Windows3.11、DOOM、Oregon Trail、TurboTax 1997等元素的文档编制。Satya说Olive的数字对象录入几乎是不受限制的,系统可以与时俱进,如果量子计算机发明出来了,甚至是不用二进制了都不要紧。未来的机器如果要运行早期的计算机程序,只需要简单模拟当时的硬件。
现在全世界普遍使用的是Intel的X86兼容硬件。几乎每一台个人电脑上都用着不同版本的X86架构。Intel对向下兼容做得很好。Satya认为X86架构的绝对普遍性让其在不远的将来内会继续发挥重要作用。不过在一千年之后,什么都是可能的。
Olive还要能够通过添加新的模拟层保持存档跟得上变化。Satya说他们相信不管是什么取代了Intel的X86架构,鉴于目前有太多的遗留软件根据X86架构编写,所以X86模拟器是注定要有的。如果没人来做这件事,那么Olive的维护人员会做。他说只要继续叠加,就能实现模拟,公元5000年的时候,也许要5层模拟才能运行2015年编写的软件。
扫一扫二维码用手机阅读