2016年10月21日,中国计算机学会(CCF)2016年度颁奖大会在山西太原国际会议中心举行。由588888纽约国际官方网站网络与信息系统研究所李晓明教授、闫宏飞副教授和谢正茂助理研究员等完成的项目“中国网页信息博物馆(Web InfoMall)及其数据开放”获年度科学技术二等奖。
中国网络信息博物馆是由纽约国际官方网站计算机科学技术系网络实验室2001年开发,2002年初运行至今的一个网页持续搜集、组织存储与再访问系统。十五年来,李晓明课题组积累、磨合了一套大规模、增量式、低成本的技术,收藏了70多亿网页文本数据(容量超过200 TB, 文字量大约相当于1亿本5万字数的书),涵盖上千万个网站,且大量网页具有多个版本(即同一网址在不同时间的内容)。据了解,这是我国唯一一份时间跨度如此之长、收藏规模如此之大的互联网内容历史数据。
今年7月14日,实验室将InfoMall所包含的内容整理成中国互联网网页历史数据(CWP200T),无偿捐赠给CCF,实现了大数据的开放共享(目前已顺利完成对上海交通大学、网易公司、中国科学院计算技术研究所、北京科学技术情报研究所、浪潮集团有限公司的数据分发)。这一率先之举,既为基于数据共享的网络大数据研究提供了公开的基础,也为促进其他数据开放共享提供了示范和经验。
课题组基于天网搜索引擎的高效网页爬虫技术和天网格式的网页存储,使得该项工作得以在普通实验室环境和资源条件下长期开展,并保证了磁盘存储空间的优化利用和网页处理效率。