第五届“创新杯”大学生大数据挑战赛将于7月24日开赛。大赛自2022年创办以来已成功举办四届,覆盖高校700余所,参赛学生超万人,成为具有行业影响力的品牌赛事。赛事紧扣“数据要素×”与“人工智能+”趋势,依托企业真实场景与脱敏数据,聚焦产业数字化转型痛点,开展大数据建模、算法优化等场景化应用竞技。不少同学在备赛期间,对于如何展开系统学习颇感迷茫。今日,数乐君将创新杯往年考点相关内容进行了汇总整理,直接列出重点,使备赛更具方向性!

创新杯赛程安排

初赛:7月24日09:00-7月31日09:00

复赛:8月26日09:00-8月29日09:00

决赛:10月中旬

创新杯历年赛题

2022年真题

打开网易新闻 查看精彩图片

A题:银行卡电信诈骗危险预测

考点:BP(BP)神经网络、支持向量机、光照GBM、 XGboost、随机森林、梯度提升决策树、极端随机树、PSO-EF模型、集成学习

B题

打开网易新闻 查看精彩图片

B题:航班数据分析和预测

考点:Stacking集成模型、航班延误预测、延误原因分析、极度随机数、多分类型、机器学习、规划模型、LDA QDA、logistics回归、MLP、支持向量机。

2023年真题

A题

打开网易新闻 查看精彩图片

A题:智能手机用户监测数据分析

考点:DBSCAN 聚类、系统聚类、k-means聚类、时间序列、多项式回归、支持向量机、随机森林、决策树

B题

打开网易新闻 查看精彩图片

B题:美国纽约公共自行车使用量预测分析

考点:图论、K-means 聚类、层次聚类、SARIMAX Prophet、XGBoost、多元时间序列、DBSCAN 聚类、ARIMA 时序模型。

2024年真题

A题

打开网易新闻 查看精彩图片

A 题:烟草营销案例数据分析

考点:时间序列预测,SARIMA,XGBoost,CNN+LSTM,Holt-Winters,集成模型等

B题

打开网易新闻 查看精彩图片

B 题:医疗门诊患者及用药数据分析

考点:GBRT、随机森林、SVR、退火算法、特征工程;Prophet 模型, LOF 算法;LSTM 模型;SARIMAX 模型等

2025年真题

A题

打开网易新闻 查看精彩图片

A题:智慧工厂工业设备传感器数据分析

考点:传感器数据处理、故障分类预测、剩余使用寿命回归、特征重要性分析、模型评估(准确率 / 召回率 / F1/MSE/R²)、工业时序数据建模、多特征回归 / 分类

B题

打开网易新闻 查看精彩图片

B题:道路路面维护需求综合预测

考点:路面数据建模、维护需求二分类、特征贡献度分析、维护优先级划分、资源分配优化、多维度特征融合、分类模型评估。

A/B 赛道到底差在哪?怎么选?

创新杯 A、B 赛道本质都是大数据挖掘,但难度、数据量、任务类型、适合人群完全不同。

赛道A:偏「传统数据分析 + 预测 / 分类」

适合人群:数学建模转大数据的同学,只会基础 Python、不会深度学习,想稳拿奖、不想踩坑,时间有限、队伍偏文科 / 经管

任务类型(历年真题风格)

用户行为分析

金融风控(违约预测)

销售预测、销量预测

评分预测、满意度预测

简单分类 / 回归任务

数据特点

数据量:中等(几万~几十万行)

字段:结构化表格(csv/excel)

脏数据:有缺失、异常,但不极端

不需要 GPU,普通电脑就能跑

核心技术

数据清洗:缺失值、异常值、编码

特征工程:特征构造、筛选、归一化

模型:

逻辑回归

决策树、随机森林

XGBoost /LightGBM(必学,A 赛道神器)

评价指标:

分类:AUC、准确率、F1

回归:MAE、MSE、RMSE

赛道 B:偏「复杂数据 + 进阶挖掘 」

适合人群:计算机、数据科学、统计专业,有机器学习 / 深度学习基础,想冲更高奖项、愿意肝,电脑配置较好(有 GPU 更舒服)

任务类型(历年真题风格)

时间序列预测(用电量、流量、库存)

文本挖掘 / 情感分析

多标签分类

复杂推荐系统

多表关联、超大宽表

数据特点

数据量:大(几十万~几百万行)

可能包含:文本、时间、多表关联

脏数据更多、特征极多、维度极高

特征工程难度大

核心技术

时序模型:ARIMA、Prophet、LSTM、Transformer

文本:TF-IDF、Word2Vec、BERT(简单版即可)

模型:LightGBM/XGBoost

深度学习模型(可选)

多表合并、特征交叉、高级特征工程

打开网易新闻 查看精彩图片