“词媒体”网站的难题|魏武挥

网易科技专栏作家魏武挥（微博）

今天，这个社会的造词能力是越来越强了，新词出现的频率史无前例得在加快。有些新词，一望便知，比如“囧”这个词（字），虽然有考据者反复说这个字的本意不是如此，但看上去是颇有些尴尬的形象，算是给老词赋予新意。而有些词，则背后代表着一个社会事件，比如“正龙拍虎”，不明白那个事的，的确完全不了解这是什么意思。

另外一个社会现实是知识分得越来越细，在今天，没有人敢说自己诸子百家无所不晓，天上地下博古通今。知识分得越来越细的结果就是，大量专业词汇出现。在一篇很普通的文章里，出现几个专业名词不是什么怪事。为了更好地理解文章，人们的确有必要去知道这些专业词汇到底指代什么。

在大多数传统媒体里，很难对专业词汇或新词做比较详尽的解读。唯一能做到的，是书籍。这也正是我们经常看到的书本中的所谓注释。在报刊杂志，在电视广播，专业词汇的解读只能匆匆带过。但互联网的链接属性，给这种解读带来了莫大的方便。

比如在一篇常识性的金融文章里，作者提到了“布雷顿森林体系”。报刊杂志可能会在最后给出一段小小的解释，电视能做个小字幕，广播则不可能——不是泛泛而谈，就是无能为力，但对于网页来说，只需要给这七个字加上一条链接：指向这个词的解释页面，而这个页面里的内容，可以极其详尽。

呵呵，是，这个解释页面，非常像维基或百科的形式。于是，国内有家做百科的网络公司，不遗余力地在鼓吹所谓：词媒体，并坚信，基于词媒体带来的web广告模式是未来可期的商业逻辑。

词媒体要分两个方面来看。

就阅读而言，词媒体会更好地帮助读者去解读文章，帮助读者去增进知识。词媒体所指向的维基式页面，也会由于“人人都可以编辑”而让内容变得更为翔实和丰富。而对于写作者来说，也没有必要煞费苦心地在文中去解释这些词的含义，一来避免显得冗长，二来不破坏文章结构。词媒体的确符合互联网的内容组织形式：网状的跳跃式的结构。

但从另外一个角度看，词媒体的实际操作性，还有很大的问题。

前面我提到在文中部署对专业词汇的链接，这其实一个“自动链接”的操作手法。因为你很难想象，在比较大规模的网站中，完全依靠编辑去手工部署链接。自动链接的运作机制是这样的：系统需要扫描一遍整篇文章，再和数据库中已有的专业词汇库比对，如果有，则赋予链接，没有，则跳过继续扫描下去。

这个机制说起来简单，但做起来相当消耗资源。如果你的专业词汇库不过千把词，那是一个很快的比对过程，但如果是十万乃至数十万之巨的专业词汇库呢？更进一步的，这里同样有一个“分词”问题——系统需要判断在“销售和服务”这个字段中，无需添加“和服”的自动链接——以及一个优先级的问题：在“复旦新闻学院”这个字段中，究竟将自动链接赋予新闻学还是复旦新闻学院。

在水平性质的门户网站中，使用同一套专业词汇库是不现实的。但在它的某个频道，或者说，在一些专业垂直网站中，使用一套契合的专业词汇库还略有操作性。不过，对于百科式的词媒体内容服务商而言，它面临一个两难的问题：如果词汇够多，合作者的系统负载就比较大；如果词汇不多，合作者就没必要合作，自己建一个不是什么难事。

比较可行的做法是提供API接口，让合作者自行定义关键词词汇表，并利用这个API接口，将这些词汇链接指向到百科页面上。这样，对于合作者而言，词汇库的大小以及带来的负载问题，完全由它自己决定。有实力的，可以搞得大点，没有实力的，借助点缓存技术、伪静态页面技术，就稍许搞得小点。不过，在我看来，百科网站起步期间最好的合作对象还是垂直网站，而不是水平门户。

（魏武挥供网易科技专稿，转载请注明出处）

作者简介：

魏武挥，曾经供职于多家网络公司，混迹互联网多年，目前执教于上海交通大学媒体与设计学院，对一切数字化的互动媒体都抱有浓厚的观察、研究和批判的兴趣。

现为网易科技专栏之“数字与人”专栏独家供稿，与读者探讨数字化的媒介和人这种物种以及这个物种所构成的社会之间的关系。