IMDB数据集只有好评和差评,但真实用户打分往往卡在中间——这位工程师用一段阈值代码,硬是在二元分类里挤出了"neutral"空间。

从清洗到向量化:文本处理的脏活累活

文本清洗是NLP最磨人的环节。他用正则表达式剥掉HTML标签,剔除非字母字符,再把单词压成小写、还原词根。5000维的TF-IDF向量化,让常见废话自动降权,关键特征浮出水面。

Linear SVC:高维文本的切割刀

选Linear SVC不是跟风——高维稀疏数据里,找最优超平面的效率确实能打。但真正的杀招藏在decision_function里:不直接输出0或1,而是计算样本到决策边界的距离。

0.1阈值的三档切割法

他把决策分数切成三段:

  • 大于0.1:Positive(推荐)
  • 小于-0.1:Negative(避雷)
  • -0.1到0.1:Neutral("可看可不看")

这套逻辑让模型首次具备了"弃权"能力——面对模棱两可的影评,不再强行站队。

正则化的隐形战场

L2正则化是默认配置,但他盯着训练集和测试集的准确率差距调参。差距拉大就收紧正则,差距过小就放松约束,在欠拟合与过拟合之间走钢丝。