Spark MLlib 入门学习笔记 - 编程环境配置|163

配置windows下Spark MLlib的编程环境，实现在windows下用scala开发程序，用小数据集测试验证程序的正确性。少做修改，或者不做修改，然后打包成jar文件，用spark-submit提交到spark集群进行测试。假设已安装好jdk、scala、IntelliJ IDEA和scala插件。

1. 安装hadoop、spark和hadoop2.6_Win_x64-master

下载 hadoop-2.6.0.tar.gz和spark-1.6.0-bin-hadoop2.6，从github下载hadoop2.6_Win_x64-master.zip(https://github.com/sdravida/hadoop2.6_Win_x64)。创建目录e:\spark，1)将三个文件解压缩到e:\spark目录下，2)将E:\spark\hadoop2.6_Win_x64-master\bin的文件拷贝到E:\spark\hadoop260\bin下面，3）将spark-assembly-1.6.0-hadoop2.6.0.jar文件拷贝到C:\Program Files (x86)\JetBrains\IntelliJ IDEA 2016.2.5\lib目录下。

2. 配置spark编译环境

分享之前我还是要推荐下我自己创建的大数据学习资料分享群 232840209，不管你是小白还是大牛，小编

我都挺欢迎，今天的源码已经上传到群文件，不定期分享干货，包括我自己整理的一份最新的适合2017年

学习的前端资料和零基础入门教程，欢迎初学和进阶中的小伙伴。

启动idea创建scala工程

2. 添加spark-assembly-1.6.0-hadoop2.6.0.jar依赖包

点击File主菜单的Project Structure子菜单，弹出配置界面后选择Libraries，再点"+"号弹出Select Library Files界面，完成选择后，点OK就可以了。

在SparkDiscover目录下创建data目录，并在这个目录下建一个wordcount.txt文件，用作测试。在src目录下创建两级子目录main/scala作为源代码存放目录，然后创建一个名称为basic的package目录和WordCount源文件。

[plain] view plain copy

1. package basic
2.
3. /**
4. * Created by Oliver on 2017/5/13.
5. */
6. import org.apache.spark.{SparkConf, SparkContext}
7.
8. // "local"
9. // "E:/MyProject/SparkDiscover/data/wordcount.txt"
10.
11. object WordCount {
12. def main(args: Array[String]){
13. val conf = new SparkConf().setMaster(args(0)).setAppName("WordCount")
14. val sc = new SparkContext(conf)
15. val data = sc.textFile(args(1))
16. data.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)
17.
18. }
19. }