美赛组委会官方发布公告称:2021年MCM问题C将会需要访问大型数据集,COMAP将会在2021年1月21日提供这些数据集的下载方式。
历年美赛C题都是关于大数据的题目,再结合近年来大数据处理技术在社会各行各业中应用得越来越普遍,今年的这则通知可能预示着今年C题的数据量会更大。
既然提前将数据集公布出来,准备做C题的队伍肯定都是会在赛前就将数据集进行一些基本的预处理,包括数据清洗、数据集成、数据转换、数据规约、数据离散化等操作,甚至在不知道题目的情况下就尝试着用一些数据挖掘的算法去试图发现一些数据集中所包含的潜在规律。
首先,准备做C题的同学大家要先检查一下自己的计算设备的条件,倘若要处理的数据集容量达到了GB,那么普通的8G运行内存(RAM)的电脑肯定比较吃力,至少要用16G运行内存及以上的电脑。
无法更换自身计算设备条件的同学可以考虑云计算资源,既可以买云主机,也可以选择各种计算加速卡,还可以买单独的云端GPU跑数据。各个大厂的云计算服务对学生都有针对性的优惠,有的甚至是免费。
其次,基本工具Excel肯定无法完成这些复杂的数据处理任务,而用Matlab去完成这些任务的话,又会极为繁琐复杂和不方便。因此,采用Python去分析几乎就成了唯一的选择。
Python里面的Pandas库提供了大数据处理分析的基本方法,是分析大型数据集的基础武器,再结合python里的scikit-learn机器学习库里面提供的各种各样的“武功”,就能轻松地应对C题的大型数据集了。
为了帮助同学们更好的进行数据分析,在竞赛中脱颖而出,极值学院推出《2021美赛C题Python数据处理》课程。课程讲解Python基础知识、Python数据分析及美赛C题数据分析示例。课程一共14小时,讲师微信群答疑。
为什么
要学习这个课程?
学习完本课程即可会用Python对大数据集进行分析;
抢先一步,提前分析赛题数据,节约时间;
掌握Python知识,为以后更深度的学习数据分析、人工智能打好基础。
问
这个课程讲解那些内容?
1
Python 的安装
2
Python超级计算器
3
字符串
4
列表
5
字典
6
条件
7
循环
8
类
9
Numpy
10
Matplotlib
11
数据预处理
12
用Pandas进行数据分析
13
数据分析案例
14
2021年美赛C题数据处理示例
张博士
清华大学博士生,研究方向:人工智能、机器学习、深度学习。现为软件测试工程师,担任 CTO 首席技术官,熟练掌握 Python 在人工智能中的应用。擅长数值计算与仿真模拟,精通各种 AI 算法和编程:回归预测、全局优化、聚类分类、综合评价、模式识别等。曾作为Python课程讲师,有 4 年多的教学经验。
热门跟贴