大数据|Hadoop简介及两大功能三大核心组件(二)

如题所述

第1个回答  2022-06-20
一、为什么需要hadoop?

在数据量很大的情况下,单机的处理能力无法胜任,必须采用分布式集群的方式进行处理,而用分布式集群的方式处理数据,实现的复杂度呈级数增加。所以,在海量数据处理的需求下,一个通用的分布式数据处理技术框架能大大降低应用开发难点和减少工作量。

我们先来看这么一个例子:我们要从一个用户使用app的日志数据中统计每个用户搜索了哪些关键词,这个日志文件有21G大,而我们的一个服务器只有8G内存,很显然一台服务器无法干这活。那么我们的处理方案应该是这样,见图一:

从图一我们知道,要顺利完成这么一个集群工作,它存在几个问题:

要我们自己编写一个程序来处理以上的问题是极其复杂的,我曾经写过一个脚本完成“如何分发业务应用到集群的各台服务器上”这个问题,复杂度也是不小的。

而hadoop却可以帮助我们处理上面的所有问题,我们只需要编写我们的业务程序即可。

二、hadoop是什么?

hadoop是用于处理(运算分析)海量数据的技术平台,并且是采用分布式集群的方式。

hadoop有两大功能:

hadoop三大核心组件:

hadoop两大使用角度:
相似回答