5.开发细节

5.1工程结构讲解

本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块:

5.1.1离线项目代码目录结构

离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。

打开网易新闻 查看精彩图片

ClickStreamETL

Hadoop版本的日志处理分析Eclipse项目图示

打开网易新闻 查看精彩图片

分享之前我还是要推荐下我自己创建的大数据学习资料分享群 232840209,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2017年学习的前端资料和零基础入门教程,欢迎初学和进阶中的小伙伴。

开发代码UML项目结构图

打开网易新闻 查看精彩图片

代码文件组成结构(由于类图过大,故请到本书提供源下载)

打开网易新闻 查看精彩图片

SparkClickStream

Spark版本的日志处理分析

打开网易新闻 查看精彩图片

开发代码UML项目结构图

打开网易新闻 查看精彩图片

代码文件组成结构

打开网易新闻 查看精彩图片

5.1.2实时计算代码目录结构

实时计算代码由两部分组成,第一部分是loggenerator,负责仿造实时数据,进行数据解析,stormanalyse,是storm框架中代码开发实例,负责对数据进行处理的代码。

Stormanalyse

Storm版本的实时数据处理

打开网易新闻 查看精彩图片

Stormanalyse项目结果图

打开网易新闻 查看精彩图片

StormanalyseUML类图

Loggenerator

实时计算项目数据源模拟

Loggenerator项目结构图

打开网易新闻 查看精彩图片

LoggeneratorUML类图(由于类图过大,故请到本书提供源下载)