网页保存中的版权问题——来自美国的判例解析
Copyright Issues in Preserving Webpage: An Analysis on the Recent U.S. Court Decisions
翟建雄
【摘要】互联网自1995年投入商业性使用以来,其发展速度及所含信息量令人惊叹;而有关网站(页)保存和创新应用问题亦引起国际学术界和法律界的重视。在利用互联网向社会提供网络信息存取服务的过程中,图书馆等公益性服务机构通常要面临来自技术和法律两个方面的问题,而后者往往更具决定性。本文结合近年来美国联邦法院作出的几个涉及网页保存的判决例,就网站(页)保存所涉版权问题作一粗浅解析。
Abstract: The Internet, commencing to go into commercial use in 1995, has gained great impetus in its development during recent dozen years and voluminous information it contains is also astonishing. Along with its rapidly development the issue related to the preservation and creative application of website (webpage) has also attracted much attention from the learned and legal societies at home and abroad. Libraries and similar institutes that offer the public information service to society, have confronted with the issues on both technology and law in its access service of network information to the public, and the latter usually be a decisive one. The article will make an elementary analysis on some judicial cases recently made by the U. S. courts on the topic of copyright emerged in the course of website preservation and use.
【关键词】互联网;网站保存;网页保存;图书馆;版权法;合理使用
Keyword: Internet, Website Preservation, Webpage Preservation, Library, Copyright, Fair Use
【全文】
1. 引言
互联网自1995年投入商业性使用以来,其发展速度及所含信息量令人瞠目,其已经成为继电话、广播和电视之后的第四大信息传播流(communication flow)。据美国加州大学伯克利信息管理和系统分校于2003年公布的一项研究报告,[1]2002年当年产生并储存于纸张、胶片以及光盘、磁带、磁盘等光学和磁性介质上的信息总量大约为5EB(exabytes);而经由电话、广播、电视和互联网传播的电子信息流总量则达17.7EB,其中互联网的信息传播量为532,897TB(Terabytes),仅次于电话(17,300,000TB)。据该报告估算,2003年互联网表层网页(surface web)所含信息量为167TB,而深层网页(deep web)据估算为表层网页信息量的400-500倍,介于66,800—91,850 TB之间。另据英国一家国际知名的互联网安全和数据研究分析机构Natcraft[2]最新发布的2008年3月号统计报告,当月全球共有网站162,662,052个,其中约450万个为该月新增加;[3]而网页数量则更为庞大,据外国学者2007年2月估算的数据,该数量已达297亿个。[4]今天的互联网已不再单纯是一个信息传输管道,而已成为衡量一个国家经济和文化软实力的重要标准;这也是近年来诸多西方国家斥巨资研发网络信息保存技术的重要原因之一。然而面对如此庞大且处于动态变化之中的信息和文化载体,如何将其中有价值的成分保存下来并应用于新的用途,需要解决诸多涉及技术和法律方面的问题,而后者的解决更具决定性。
在美国,自1790年第一部联邦版权法问世以来,该法已先后修改了四次。尽管在每次修改中立法者都曾努力寻求在保护作者权利和保证公众对信息的获取这一对矛盾中寻找最佳的利益平衡点,但新技术的出现和发展却每每打破这种脆弱的平衡;新的权利主体和保护客体的出现,使数十年来建立在纸本作品基础上的传统版权保护制度再次面临新的挑战,这也促使立法者和公众去思考如何变革现行版权法律制度以应对挑战,版权法也正是在这一对矛盾的运动中不断发展和完善。
自20世纪90年代中叶起,随着互联网技术的逐步商业化,依托其创作、出版和传播的网络作品数量迅速增加,已有不少国家修改立法将网络作品纳入版权法的保护范围。网络环境下版权保护面临的问题众多,其中之一即为图书馆、档案馆等公益性机构是否有权基于保存本国文化遗产之目的对具有保存价值的各类网站及其所含网页内容进行长期保存,并将其应用于不同于原创网站(页)之使用目的的公益性用途;另外,对于google、yahoo等网络服务提供商(ISP)从事的网页缓存以及其他社会机构和个人为保存诉讼证据而实施的网站和网页存档行为的性质如何界定等问题,目前在美国制定法中尚存空白,所幸有关司法判例开始出现,为我们认识这些问题的法律性质开启了一扇方便之门。本文将结合美国法院近年来新近做出的判决例就网站和网页保存所涉版权问题作一粗浅分析。
2. 网页保存和缓存的实践
近年来,有关网站(页)保存的问题日益受到美国社会各界的重视,其中一个重要原因即为网页的生命周期通常较短[5]且具不可逆性,如不及时固定保存,将至该信息永久灭失。1996年,一个根据联邦《国内税收法典》(Internal Revenue Code)§501(c)(3)[6]条款设立的非赢利性组织——互联网档案馆(Internet Archive, IA)[7]经登记正式在旧金山成立。该组织的宗旨即为设立一个以互联网为依托的网络图书馆,以便向研究人员提供可永久访问的以网页形式存在的历史文献。早在成立之初,IA的创始人就已预见到由于网络信息的易逝性而有必要采用网页快照(snapshot)方式复制保存网页内容。为此,IA 使用一个被称之为“网络时光倒流机”(Wayback Machine)的网络爬虫机器人收集由各类机构和个人在互联网上发表的各种公共或者私人信息,然后将其储存于一个对公众开放的知识库中,用户可通过IA网站便捷地检索到数月乃至数年前其保存的某一网页的副本。自1996年到2007年年底,Wayback Machine共收集了大约850亿个网页,[8]其中仅2007年就采集了20亿个网页。[9]目前IA保存的网页总量已达100GB,约100亿个网页。[10]另外,由google、yahoo和MSN等网络技术服务商经营的搜索引擎也通常保留编入其索引数据库中的网页副本,并将这些网页副本作为搜索结果的一部分提供给公众使用。而用户则可选择浏览搜索引擎提供的缓存副本,亦可直接访问搜索结果提供的动态网站。
在实践中,网页的缓存(caching)与存档(archiving)含义尚有差异。存档不仅系统地采集网站信息,而且还将网站页面作为历史资料加以保存;[11]缓存则是将网页的副本暂存于本地用户计算机或者某台服务器上,以减轻宽带和服务器的负荷,提高传输和读取速度。但google等网络搜索服务提供商使用的缓存方法与前述传统方法稍有不同,其搜索引擎是使用一种被称为网络爬虫(Web Wanderers、crawler、spiders)的机器人[12]自动发现和创建网页索引,网页副本被存储于索引当中;当用户输入检索词后,符合条件的网页副本会通过一个标有“Cached”的链接快速出现在检索结果中,从而大大缩短搜索时间。当用户点击“Cached”链接时,google的计算机系统会自动响应将已存档的最近一次搜索时制作的网页快照提供给用户。该缓存副本一般都在显著位置贴有一告示,提示用户该网页系缓存副本且可能已经过时。在实施这一自动搜索过程中,搜索引擎推定网站所有人同意制作和保存其网页副本,但网站所有人亦可通过在其网页的字段添加一个元标签(meta-tag)
的方式加以阻止。[13] 该标签仍将允许搜索引擎制作网页索引并将其保存于搜索结果中,但该缓存链接不会被显示。在这里,传统的对版权资料先取得许可再行使用的惯例被以默示许可(Implied License)为特征的“先使用、再排除”的使用模式所取代。Google等搜索引擎采用的这种“选择排除”(opt out)版权政策也是网络环境下使用版权资料的无奈之举,面对数以十亿计的享有版权的网页,要想从版权人那里一一获得使用许可几乎是不可能的。另外,版权人也可通过使用robots.txt文件排除IA辑录其网页内容。