预测网球比赛胜负。证明高山橄榄油化学构成不同。两个问题毫无关联——却需要同一种解法:真实数据、严谨的方法论决策、有意义的指标。

我是从健康科学博士转型的数据科学家。这两个项目是我参加Evolve人才日展示的作品集起点。

打开网易新闻 查看精彩图片

第一个项目源于好奇:能否仅用赛前公开信息预测职业网球比赛结果?核心难点不在模型,在数据。当前排名这类静态指标无法反映真实竞技状态——世界第15可能已伤停三个月,第80名或许刚在红土连胜八场。

解决方案是构建动态变量:按场地类型定制的ELO评分系统,K因子随赛事权重变化;近10场比赛状态窗口;严格按时间顺序计算的交手记录(避免未来信息泄露);以及赛事内的疲劳度指标。

我开发了独立的双模型——ATP巡回赛与挑战赛分开——因为两者性质迥异:前者更稳定、专业化;后者波动更大,年轻选手表现更不稳定。

2025年比赛数据(模型训练时未见)的测试结果显示:SHAP分析证实两个模型学到了不同逻辑。ATP赛场,场地专属历史ELO是主导预测因子;挑战赛则排名差距与年龄差更重要——当历史记录不稳定时,体能因素权重上升。

第二个项目并非兴趣驱动,而是我作为哈恩大学博士后研究员的真实工作,隶属MOUNTOLIVE项目。研究问题:海拔800米以上的橄榄园,其特级初榨橄榄油的化学 profile 是否改变?若改变,雨养与灌溉种植方式的影响程度如何?

数据集涵盖100多种化合物,分属7个家族(脂肪酸、生育酚、酚类化合物、萜烯、甾醇、甘油三酯、色素)。我用R构建的完整分析流程实现自动化:正态性检验、参数ANOVA与非参数Kruskal-Wallis自动选择、双因素分析。