零基础如何准备钉钉杯大数据挑战赛？|大数据|算法|钉钉杯

数维杯·赛事资讯·数模干货·辅助报名

本文提纲：

1.关于钉钉杯大数据挑战赛

1.1什么是钉钉杯大数据挑战赛

1.2钉钉杯大数据挑战赛竞赛特点

2.赛前

2.2基础知识

2.3实战经验

2.4技巧学习

2.5队友选择

3.赛中

3.1赛题分析

3.2信息获取资料查找

4.赛后

关于钉钉杯大数据挑战赛

1.1什么是钉钉杯大数据挑战赛

随着大数据技术的高速发展，各行各业正在数字化转型，本次大赛旨在通过竞技的方式，提升大学生数据分析研究与技术应用能力，以企业真实场景和实际数据为基础，利用大数据技术分析行业面临的真实问题，尝试创新大数据技术，推动大数据的产学研用。

为鼓励大学生踊跃开拓知识面，培养学生的创新思维和合作精神，内蒙古创新教育学会、内蒙古创新教育资源开发研究院联合主办2022年首届“钉钉杯”大学生大数据挑战赛。2022年首届“钉钉杯”大学生大数据挑战赛（以下简称“大赛”）由钉钉(中国)信息技术有限公司提供竞赛独家赞助支持，竞赛是基于⼤数据分析处理进⾏相关建模。

1.2钉钉杯大数据挑战赛竞赛特点

钉钉杯大数据挑战赛更偏向于大数据挖掘和大数据分析，竞赛结果是论文形式提交，为了让同学们更容易上手，赛题中用到的数据都是企业真实项目，实践意义很大，锻炼同学数据分析能力，提升解题技巧。

另外，近几年来数学建模国赛、美赛包含了大数据方向的赛题，每年选大数据题型的同学比较少，但是最容易获奖，所以钉钉杯大数据挑战赛适合所有建模同学参加。也可以帮助同学们熟悉数据类的解题技巧打好数模基础，为接下来的国赛做准备。

赛前

对于数据类比赛，需要掌握处理数据的工具，和针对特定问题的机器学习和深度学习算法。当然这个处理工具没有特别的限定，也有使用R语言进行统计建模，或者有用matlab进行数据挖掘和算法的编写。对于编程语言的学习是，一个比较重要的环节，也是对同学们今后对数据挖掘研究的一个基础。

其次就是对机器学习库的掌握，对于一些常见的机器学习算法，对于初学者并不一定能全部自己实现，而且有的时候只需要将这些算法作为测试算法，所以对机器学习库Sklearn的掌握是比较关键的，通过其可以快速实现KNN,SVM,DT,RF等机器学习算法的快速调用，里面也封装了很多评价指标函数。进阶的就是，对一个或多个深度学习框架，要进行掌握。现在有很多的深度学习框架，例如：TensorFlow，Pytroch等。

基础知识

数学基础：微积分、线性代数、概率论与数理统计、优化理论
机器学习理论：周志华《机器学习》、李航《统计机器学习》、Ian Goodfellow和Youshua Bengo《Deep Learning》、Bishop的PRML
Python：《Python基础教程》《利用Python进行数据分析》《机器学习实战》

推荐书目

不管是新手，还是经常打比赛的人，都不应该忽略理论的重要性。

书怎么看?

先看西瓜书，第一遍很快过一下，看一下这本书讲了哪些知识，哪些概念。可能有些概念不是很懂，不要紧，留个印象。第二遍看的比较细，主要是建立知识框架，把第一遍没看懂的地方重新加深了印象。

看完第二遍，先不要急着看第三遍。到网上复现别人的项目，在复现项目的过程中，会有问题，带着问题再去看第三遍。

你会感觉每看一遍，都会比前一遍看得更快，对于各类概念的理解也会更深刻一点。如果作为新手，理论还不扎实的话，强烈建议大家看一下周志华教授的西瓜书。

李航教授的计学习方法会比西瓜书讲的更深刻，也更难理解一点，适合进阶看。

第三本《深度学习》是一本经典教程，有精力的话看一下，难度比较大。

文献资料

Paper
- 主要关注CCF A里的顶级会议论文
- arxiv要好好利用
Csdn、知乎、GitHub等开源知识分享平台
Kaggle、天池里的各种kernel

软件配置

开发环境
- 虽然Jupyter Notebook的交互性更好，但个人更喜欢用Pycharm
- Anaconda
- Jupyter Notebook
- Pycharm

数据类比赛理论储备

主要划分为三个部分：特征工程、模型、模型融合。

特征工程是对原始数据进行处理变换，从而抽取出特征的工作。对于特征工程，最重要的概念就是了解什么是特征。

我对于特征的理解是：特征是携带目标信息的一种载体。

如何理解这句话？比如说在二分类任务中，对于特征F，当特征F=x_1， A的概率为0.5，B的概率也是0.5，那么特征F=X_1这部分数据不具有区分性的（和瞎猜差不多）。但是如果F=X_2，A的概率为1，B的概率为0，那么特征F=X_2这部分数据就能很好地进行预测。当特征F=x_3， A的概率为0.8，B的概率为0.2，那么特征F F=x_3这部分数据我们就说预测为A准确的概率比较高。

综上，我对于信息的理解：特征的某个取值更倾向于目标的一个解。

信息量多：趋向目标的一个解概率大的那部分数据比较多，就是我们通俗意义上讲的强特征；信息量少：趋向于目标的一个解概率大的那部分数据比较少。

2）模型

模型：模型实现的是一种根据数据从已有特征携带的信息中拟合出最佳目标分布的方法。

比如线性回归，就是对于多维空间的样本点，用特征的线性组合，去拟合目标的分布情况。

比如决策树模型，就是基于书的模型结构，根据样本点的特征值，将样本的落在树的某个叶子节点上的方式拟合目标的分布情况。

再比如决策树模型、向量机模型、神经网络模型等，它都是用特征拟合最佳目标分布的一种方法。不同方法，对于特征拟合的理念不同。

3）模型融合

模型融合的本质；将不同模型、不同方式拟合出来的目标分布看成特征，再对这些目标进行拟合。

这个过程中还有一个概念，模型差异大小

模型差异小：说明模型学习过程中拟合目标函数的分布接近，也就是说两个模型能够区分的数据是相同的

模型差异大：说明模型学习过程中从不同角度拟合出了目标函数