搜狗实验室发布SogouT互联网语料库v3.0

对于搜索引擎,大家都比较熟悉,但对于搜索引擎的强大功能组成,我想大多数网民朋友对此都知之不多;虽然有相当部分的站长朋友也在学习、研究有关于搜索引擎优化的seo知识,但对于搜索引擎获得互联网数据资料、整理资料以及优化利用这些浩瀚如海的数据,同样是了解很少;现在有这个机会让你获得这些资料,搜狗实验室发布SogouT互联网语料库v3.0版本。

为推动中文互联网信息检索数据挖掘方面的研究,清华—搜狐搜索技术联合实验室近期推出了SogouT互联网语料库,欢迎各位学者在互联网和自然语言处理相关研究中使用。

SogouT 语料库收集了超过1.3亿网页数据,总存储规模达到5TB以上。除了包括所有的网页原始数据外,还包括了提取出的这部分网页之间的链接关系数据,以及 PageRank数值数据。与该数据同时推出的还包括规模庞大的用于网络信息检索评测的标准评价集合,评价集合规模超过10000个查询,采用在线评测的方式实时为研究人员提供检索评价服务。关于该数据集合的详细信息请浏览搜狗实验室主页(http://www.sogou.com/labs/)。

由于数据规模庞大(用高压缩比进行压缩后仍有500GB左右),因此采用硬盘拷贝的方式进行发布。需要此项数据的可以发邮件给lab@sohu-rd.com,联系获取数据相关事宜。拷贝时需要签署“搜狗数据许可证”,并交纳硬盘成本费约600元,即可获得此数据。其他详细信息可以关注这里:http://labs.blog.sohu.com/103180971.html

这里林网博客方面也是觉得这消息很有互联网精神,至于说要去研究、利用,实在是谈不上,数据只是基础源,如果要研究还需要用到很多的技术来对这些数据进行筛选处理,以供发现、利用。有关资料库的样例,可以点击这里查看:http://www.sogou.com/labs/dl/t.html,我下了一份样本,觉得很有些像搜索引擎收录网页的缓存资料,把txt文件另存为html文件直接打开后,果然如此:

搜狗实验室发布SogouT互联网语料库v3.0

我对以上信息,最感兴趣的不是他的数据源中包含有多少的林网博客数据,也不是免费共享拷贝给大家这样的共享精神,而是在反思对比,百度号称是中国最大的搜索引擎,最适合中国人的搜索引擎,最懂得最贴切的中文搜索引擎,那么多中国、世界之最的搜索引擎,为什么没有在这样的推动中文互联网信息检索数据挖掘方面做出表率,而却不断在搞那些暧昧新闻、阴暗交易,叫钱不叫好的竞价排名,无力而不思进步的排名算法,和上述搜狗的互联网实验室行为相比,不得不大胆想象,搜狗搜索引擎发展,前景不可限量。

4 thoughts on “搜狗实验室发布SogouT互联网语料库v3.0

Comments are closed.