网易科技9月17日讯 欧盟委员会发布倡议要求允许对公众目的的研究进行数据挖掘,此举有助于科学发展。

现如今,几乎所有的科学论文都可在网上查阅,而且每年都有大约250万篇科学文章被发表。如果我们能够使用TDM(文本和数据挖掘)技术,这将非常高效地整合并分析不同科学领域的文章,从而构建模型,发现新问题,极大地促进科技创新和经济发展。但一直以来,论文版权是制约TDM技术发展的一大障碍。不过本月14日,欧盟委员会发布的一项倡议或许带来了曙光,倡议中规定所有成员国都必须强制限定法律,以允许教学目的的资源数字化使用,为数据挖掘开通绿色通道。对研究人员而言,这项举措将帮助他们在论文中挖掘数据,而不用担心版权法律的约束。

将已发表的科学文献转变成网上数据,需要文献版权拥有者的许可。为了翻越这层层付费墙,数据挖掘者们不得不寻求多方的许可。但有时出版商们也会拒绝TDM的使用,因为他们担心使用该项技术会使本应该付费查阅的文献免费流放;而为了保证自己的利润,他们有时候则会限制或对这项技术收费。根据2014年的一项报告称,相较于美国和亚洲,欧洲的计算机爬虫(网络搜索,收集资料的一种)使用较少。

在14日发布的倡议中,欧盟委员会呼吁为TDM技术开放版权绿色通道,但也有限制。仅限用于公共利益的研究组织,比如说大学和研究中心,而所能使用的内容也仅限于那些本就有访问权限的内容。研究可涉及商业,但不对商业公司开放。商业公司还需与出版商和其他内容提供者经协商。

欧盟委员会的研究主管卡洛斯 梅达斯(Carlos Moedas)在一份新闻声明中称,科学需要对现有的研究数据进行深入调查,我们必须为此清除障碍。而该项倡议就能保证研究人员全力挖掘数据,而不用担心版权问题。

日益增多的不确定性

该项提议需要被欧洲议会和代表欧盟成员国的理事会批准,而这还含有很多不确定性,不仅仅是学术问题。该倡议的主要领跑者之一,欧洲研究图书馆协会称赞“这项提议是解决法律困惑的重要一步”。但是该组织的执行主任苏珊·蕾利(Susan Reilly)却略表失望,因为新生公司无法受益于此项倡议。

根据这项倡议,出版商有权采取合适的措施来保证其数据库的安全性和完整性。而且即使学术界不再需要出版商的许可,但研究人员如何获取这些版权内容,如果进行数据挖掘,还需与出版商达成一致。

蕾利称,“没人想把服务器搞垮”,而这确实是个重要问题。出版商的电子平台完全可以承受文本挖掘带来的额外负担,图书馆也将帮助寻找适合的数据访问方式。