数维杯·赛事资讯·数模干货·辅助报名

打开网易新闻 查看精彩图片

本文提纲:

1.关于钉钉杯大数据挑战赛

1.1什么是钉钉杯大数据挑战赛

1.2钉钉杯大数据挑战赛竞赛特点

2.赛前

2.2基础知识

2.3实战经验

2.4技巧学习

2.5队友选择

3.赛中

3.1赛题分析

3.2信息获取资料查找

4.赛后

关于钉钉杯大数据挑战赛

1.1什么是钉钉杯大数据挑战赛

随着大数据技术的高速发展,各行各业正在数字化转型,本次大赛旨在通过竞技的方式,提升大学生数据分析研究与技术应用能力,以企业真实场景和实际数据为基础,利用大数据技术分析行业面临的真实问题,尝试创新大数据技术,推动大数据的产学研用。

为鼓励大学生踊跃开拓知识面,培养学生的创新思维和合作精神,内蒙古创新教育学会、内蒙古创新教育资源开发研究院联合主办2022年首届“钉钉杯”大学生大数据挑战赛。2022年首届“钉钉杯”大学生大数据挑战赛(以下简称“大赛”)由钉钉(中国)信息技术有限公司提供竞赛独家赞助支持,竞赛是基于⼤数据分析处理进⾏相关建模。

1.2钉钉杯大数据挑战赛竞赛特点

钉钉杯大数据挑战赛更偏向于大数据挖掘和大数据分析,竞赛结果是论文形式提交,为了让同学们更容易上手,赛题中用到的数据都是企业真实项目,实践意义很大,锻炼同学数据分析能力,提升解题技巧。

另外,近几年来数学建模国赛、美赛包含了大数据方向的赛题,每年选大数据题型的同学比较少,但是最容易获奖,所以钉钉杯大数据挑战赛适合所有建模同学参加。也可以帮助同学们熟悉数据类的解题技巧打好数模基础,为接下来的国赛做准备。

赛前

对于数据类比赛,需要掌握处理数据的工具,和针对特定问题的机器学习和深度学习算法。当然这个处理工具没有特别的限定,也有使用R语言进行统计建模,或者有用matlab进行数据挖掘和算法的编写。对于编程语言的学习是,一个比较重要的环节,也是对同学们今后对数据挖掘研究的一个基础。

其次就是对机器学习库的掌握,对于一些常见的机器学习算法,对于初学者并不一定能全部自己实现,而且有的时候只需要将这些算法作为测试算法,所以对机器学习库Sklearn的掌握是比较关键的,通过其可以快速实现KNN,SVM,DT,RF等机器学习算法的快速调用,里面也封装了很多评价指标函数。进阶的就是,对一个或多个深度学习框架,要进行掌握。现在有很多的深度学习框架,例如:TensorFlow,Pytroch等。

基础知识

  • 数学基础:微积分、线性代数、概率论与数理统计、优化理论

  • 机器学习理论:周志华《机器学习》、李航《统计机器学习》、Ian Goodfellow和Youshua Bengo《Deep Learning》、Bishop的PRML

  • Python:《Python基础教程》《利用Python进行数据分析》《机器学习实战》

推荐书目

不管是新手,还是经常打比赛的人,都不应该忽略理论的重要性。

打开网易新闻 查看精彩图片

书怎么看?

先看西瓜书,第一遍很快过一下,看一下这本书讲了哪些知识,哪些概念。可能有些概念不是很懂,不要紧,留个印象。第二遍看的比较细,主要是建立知识框架,把第一遍没看懂的地方重新加深了印象。

看完第二遍,先不要急着看第三遍。到网上复现别人的项目,在复现项目的过程中,会有问题,带着问题再去看第三遍。

你会感觉每看一遍,都会比前一遍看得更快,对于各类概念的理解也会更深刻一点。如果作为新手,理论还不扎实的话,强烈建议大家看一下周志华教授的西瓜书。

李航教授的计学习方法会比西瓜书讲的更深刻,也更难理解一点,适合进阶看。

第三本《深度学习》是一本经典教程,有精力的话看一下,难度比较大。

文献资料

  • Paper

    • 主要关注CCF A里的顶级会议论文

    • arxiv要好好利用

  • Csdn、知乎、GitHub等开源知识分享平台

  • Kaggle、天池里的各种kernel

软件配置

  • 开发环境

    • 虽然Jupyter Notebook的交互性更好,但个人更喜欢用Pycharm

    • Anaconda

    • Jupyter Notebook

    • Pycharm

数据类比赛理论储备

主要划分为三个部分:特征工程、模型、模型融合。

1)特征工程
打开网易新闻 查看精彩图片
1)特征工程

特征工程是对原始数据进行处理变换,从而抽取出特征的工作。对于特征工程,最重要的概念就是了解什么是特征。

我对于特征的理解是:特征是携带目标信息的一种载体。

如何理解这句话?比如说在二分类任务中,对于特征F,当特征F=x_1, A的概率为0.5,B的概率也是0.5,那么特征F=X_1这部分数据不具有区分性的(和瞎猜差不多)。但是如果F=X_2,A的概率为1,B的概率为0,那么特征F=X_2这部分数据就能很好地进行预测。当特征F=x_3, A的概率为0.8,B的概率为0.2,那么特征F F=x_3这部分数据我们就说预测为A准确的概率比较高。

综上,我对于信息的理解:特征的某个取值更倾向于目标的一个解。

信息量多:趋向目标的一个解概率大的那部分数据比较多,就是我们通俗意义上讲的强特征;信息量少:趋向于目标的一个解概率大的那部分数据比较少。

2)模型

模型:模型实现的是一种根据数据从已有特征携带的信息中拟合出最佳目标分布的方法。

比如线性回归,就是对于多维空间的样本点,用特征的线性组合,去拟合目标的分布情况。

比如决策树模型,就是基于书的模型结构,根据样本点的特征值,将样本的落在树的某个叶子节点上的方式拟合目标的分布情况。

再比如决策树模型、向量机模型、神经网络模型等,它都是用特征拟合最佳目标分布的一种方法。不同方法,对于特征拟合的理念不同。

3)模型融合

模型融合的本质;将不同模型、不同方式拟合出来的目标分布看成特征,再对这些目标进行拟合。

这个过程中还有一个概念,模型差异大小

模型差异小:说明模型学习过程中拟合目标函数的分布接近,也就是说两个模型能够区分的数据是相同的

模型差异大:说明模型学习过程中从不同角度拟合出了目标函数

比如此次的大数据挑战赛,有些模型对于已经出现过的数据拟合的比较好,有些模型对没有出现过的数据拟合比较好。那么这两种模型就叫模型差异大,用这两种模型进行模型融合对最终结果的提升就会比较大。

熟悉一个项目的完整流程

把理论学习完之后,后面就要熟悉一个项目。很多新手希望通过比赛去接触一个项目,这里我其实觉得没必要这么做。因为新手参加比赛的时候,对于整个数据科学比赛应该怎么做,还没有一个清晰的概念,可能很多都是基于理论,没有实践。

打开网易新闻 查看精彩图片

这里我建议大家去到网上去复现别人已经完成的一个项目。这些项目怎么找呢?在比较知名的可以上kaggle,国内的可以上Heywhale等。

比赛经验技巧积累

当你积累了一两个项目的时候,继续做项目,帮助可能不是那么大。这个阶段可以通过别人的比赛分享去学习。

从别人比赛中比赛分享中,主要是学习他们比赛的一些特征,工程的一些方法,融合模型融合的一些技巧,或者说一些比较好的一些思想。

  • 队友的选择

由于比赛任务量比较大,所以靠谱的队友一直是比赛成功的关键一点,对于队友的选择一般参照如下几点:

  1. 有一定编程能力的同学,还是需要寻找能够使用python,matlab、R等编程;

  2. 寻找一些有项目或比赛经验的同学;项目可以是关于数据驱动,CV或者NLP等等,比赛可以是ACM,CCPC,蓝桥杯,数学建模等。

  3. 可以找一个负责论文撰写的同学(但是不必要)。PS:因为这个比赛时长是一个月,可以有充分时间进行论文撰写,也可以对自身的科技论文写作进行锻炼。

赛中赛题分析
打开网易新闻 查看精彩图片

比赛开始了,拿到赛题,不要去盲目的去做,需要先对数据、评价指标进行分析,分析的结果就是把赛题转化成一种数学问题,提供怎样的数据,要你求解什么,然后定位成某一类的问题,进行针对性的资料查找。

信息获取和资料查找

比赛过程中需要不断地获取新的信息,在一些交流平台上,看别人交流哪些方法好,哪些方法不好。也可以私下里请教别人,看你遇到的问题别人有什么建议。

获取到信息以后需要消化,需要查找相关资料

以下为推荐渠道:

打开网易新闻 查看精彩图片

实时关注比赛交流信息,能保证参赛方向大体不会出偏差。在比赛中信息要比努力重要,不要闭门造车。

赛后总结

打完比赛,不是学习的结束。因为经过长时间的比赛,你对赛题的思考已经很深入了,建议你赛后观摩前排的解决方案和自己的方案进行对比,了解自己和别人的差距,也能从他人的方案中汲取经验,提升自己对数据科学的理解。

如果条件允许的话,趁着其他团队还没有遗忘自己的方案时,建议赛后向指导老师请教,花一点时间复现出别人的工作,这样才能把握其他方案的细节。

以上。

钉钉杯大数据挑战赛报名中

以上就是今天给大家整理的关于钉钉杯的一些备战经验方法,是不是对比赛有一定的了解了呢?成功报名即可领取大量赛前培训资料及公益讲座,扫码立即报名吧!

扫码进群领取相关备赛资料获取最新赛事资讯

报名截止时间:2022年7月22日

高山仰止,景行行止

佚名《车舝》