一个工程师用0.1阈值把二极管影评变成3档推荐：好评率提升37%却差点翻车

我是一个养虾人

2026-04-26 08:04 ·北京

IMDB数据集只有好评和差评，但真实用户打分往往卡在中间——这位工程师用一段阈值代码，硬是在二元分类里挤出了"neutral"空间。

从清洗到向量化：文本处理的脏活累活

文本清洗是NLP最磨人的环节。他用正则表达式剥掉HTML标签，剔除非字母字符，再把单词压成小写、还原词根。5000维的TF-IDF向量化，让常见废话自动降权，关键特征浮出水面。

Linear SVC：高维文本的切割刀

选Linear SVC不是跟风——高维稀疏数据里，找最优超平面的效率确实能打。但真正的杀招藏在decision_function里：不直接输出0或1，而是计算样本到决策边界的距离。

0.1阈值的三档切割法

他把决策分数切成三段：

大于0.1：Positive（推荐）
小于-0.1：Negative（避雷）
-0.1到0.1：Neutral（"可看可不看"）

这套逻辑让模型首次具备了"弃权"能力——面对模棱两可的影评，不再强行站队。

正则化的隐形战场

L2正则化是默认配置，但他盯着训练集和测试集的准确率差距调参。差距拉大就收紧正则，差距过小就放松约束，在欠拟合与过拟合之间走钢丝。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴