在Slack的emoji搜索框里输入"わらう"(笑),你会得到一片空白。同样搜不到结果的还有"ぴえん"(2020年前后席卷日本Twitter的卖萌哭腔俚语)、"ばんざい"(万岁欢呼)。Unicode CLDR明明给每个emoji都配了官方日语注释,为什么就是搜不到?

问题出在注释的"身份"上。CLDR的日语注释是一份无障碍说明文档,不是搜索词表。它们用全平假名、正式语体描述emoji的视觉内容——适合屏幕朗读器念给用户听,不适合用户随手输入查找。

打开网易新闻 查看精彩图片

开发者Sen Ltd.手动整理了107个常用emoji,给每个配上5-9个日本人实际会打的标签,做成一个约200行代码的浏览器搜索工具。这套词库与CLDR采用相同的数据结构(char, name_ja, name_en, tags, category),方便两者合并使用。

词库设计有几条明确规则:

1. 平假名和汉字混用。同时标注"ねこ"和"猫",因为用户可能没按IME转换键。

2. 语体混搭。既有俚语"ぴえん",也有描述性词汇"切ない"。

3. 以CLDR为基底叠加口语层。官方注释作为基础,再补充实际聊天中的叫法。

4. 保留少量英文标签。lol、ok、love、cool这类在日语混聊中够常见,值得占一个位置。

搜索采用五档加权评分:标签完全匹配(10分)、标签前缀匹配(7分)、名称匹配(5分)、分类匹配(3分)、英文标签匹配(2分)。查询词支持空格分隔的多token,结果按总分排序。

开发者刻意没有追求"覆盖全部3700个Unicode emoji"。词库本身就是产品——小而精的标注集,比大而糙的完整列表更实用。

项目已开源:GitHub仓库sen-ltd/emoji-search-jp,在线演示见sen.ltd/portfolio/emoji-search-jp/。