咱们前面学习了官方的target="_blank">Apache Hadoop版本,我们前面也说了,在实际工作中其实会使用CDH或者HDP,那下面我们就看一下在CDH和HDP中如何操作Hadoop。
注意了,在这里我不打算讲CDH和HDP的安装部署,意义不大,咱们是开发人员,主要侧重于代码开发,安装部署的工作是运维人员的,咱们不能抢饭碗啊,什么都让你做了,别人不就得喝西北风啊,这样太不地道了,对吧。
如果确实想了解CDH是怎么安装的,看下面我整理的CDH集群以及单机部署
不过我们在这里要演示,肯定先安装部署了,在这里给大家分享一个好东西,不要告诉别人哦,这里面的东西目前到官网都下载不到了,没有下载链接了,幸亏我之前留的有后手,提前下载了一份。
注:文件都比较大,尤其是HDP_3.0.1_vmware_181205.ova,有20多个G,谨慎下载,如果自己环境资源是够的,可以尝试下。
这两个文件可以通过vmware打开,里面已经安装好了CDH和HDP,可以在一台机器上启动,模拟正常的集群环境,这都是在官网上下载的,可以直接使用,非常简单,我们在这主要是为了演示一下如何在CDH和HDP中操作Hadoop,其实说实话,他们在操作的时候没有什么区别,和我们操作原生版本的Hadoop一样,但是呢如果不带着大家去亲身感受一把,大家心里面总是感觉有点虚。
注意了,这里面的cloudera-quickstart-vm-5.13.0-0-vmware.zip这个文件目前官网已经没有下载链接了
HDP_3.0.1_vmware_181205.ova目前是有的。
1、下面我们就来先演示一下CDH
先解压,再使用vmware直接打开即可,
选择本地的镜像文件,在这里最好选择centos6.7的iso镜像文件,因为这个操作系统的版本就是centos6.7。
CentOS-6.7-x86_64-minimal.iso
没有的话使用7也行。
注意了,这个虚拟机默认会使用4G内存,1个CPU,64G的磁盘,内存至少要4个G,太少的话有可能启动不了,在这我把资源调大一些,内存给他分8个G,CPU分2个,这样这个虚拟机运行会快一些,当然了,如果你本地的资源不多的话就使用默认的也可以。
接着启动这个虚拟机即可。
在启动之前,先把本地启动的那几台虚拟机关闭掉,要不然启动太多机器容易卡。
启动的过程稍微有点慢,不要着急。
虚拟机启动后,CDH中大数据的所有组件都是启动状态,可以在root账号下通过jsp命令查看已启动的服务
root账号的密码是cloudera
通过su命令切换到root用户,然后输入root用户的密码即可。
这里面除了有Hadoop的相关进程,还有其他大数据框架的进程
注意了,CDH和HDP是一个平台,里面可以安装很多大数据组件,Hadoop只是它里面的一个软件而已。就类似于安卓的谷歌市场,苹果的appstore一样。
我们尝试操作一下hdfs