打开网易新闻 查看精彩图片

一、Google的基本思想 1、GFS

2、MapReduce:计算模型,进行大数据计算

问题的来源:PageRank(网页排名)

核心:先拆分,再合并

3、BigTable:大表,NoSQL数据库:HBase 基于HDFS之上的NoSQL数据库、列式数据库

表 ----> 目录

数据 ----> 文件

思想:通过牺牲存储的空间,来换取性能

把所有的数据存入一张表中,完全违背了关系型数据库范式的要求

分享之前我还是要推荐下我自己创建的大数据学习资料分享群 232840209,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2017年学习的前端资料和零基础入门教程,欢迎初学和进阶中的小伙伴。

打开网易新闻 查看精彩图片

二、Hadoop 2.X的安装与配置

习惯:SecureCRT

准备:1、安装Linux和JDK

2、关闭防火墙

3、配置主机名

解压:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/

设置环境变量:vi ~/.bash_profile

HADOOP_HOME=/root/training/hadoop-2.7.3

export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export PATH

source ~/.bash_profile

介绍Hadoop的目录结构

打开网易新闻 查看精彩图片

Hadoop有三种安装模式

1、本地模式 一台Linux

(*)特点:没有HDFS,只能测试MapReduce程序(本地数据:Linux的文件)

(*)配置:hadoop-env.sh

26行 export JAVA_HOME=/root/training/jdk1.8.0_144

(*)Demo:测试MapReduce程序

example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/temp/data.txt ~/temp/mr/wc1

2、伪分布模式 一台Linux

(*)特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能

(*)hdfs-site.xml

<!--数据块的冗余度,默认是3-->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<!--是否开启HDFS的权限检查,默认:true--

<!--

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

-->

core-site.xml

<!--NameNode的地址-->

<property>

<name>fs.defaultFS</name>

<value>hdfs://bigdata11:9000</value>

</property>

打开网易新闻 查看精彩图片

<!--HDFS数据保存的目录,默认是Linux的tmp目录-->

<property>

<name>hadoop.tmp.dir</name>

<value>/root/training/hadoop-2.7.3/tmp</value>

</property>

mapred-site.xml

<!--MR程序运行的容器是Yarn-->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

yarn-site.xml

<!--ResourceManager的地址-->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata11</value>

</property>

<!--NodeManager运行MR任务的方式-->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

对NameNode进行格式化: hdfs namenode -format

日志:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.

启动:start-all.sh = start-dfs.sh + start-yarn.sh

(*)Demo:测试MapReduce程序

example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1204

3、全分布模式 三台Linux

(*)特点:真正的分布式环境,用于生产

4、掌握免密码登录的原理和配置

打开网易新闻 查看精彩图片

推荐下我自己创建的大数据学习资料分享群 232840209,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2017年学习的前端资料和零基础入门教程,欢迎初学和进阶中的小伙伴。