• 大数据人官方¢Ú群

    大数据人|中国大数据第一社区

     ?#19968;?#23494;码
     注册会员

    扫一扫£¬访问微社区

    什么是Hadoop£¬如何学习Hadoop

    2016-1-14 11:01| 发布者: admin| 查看: 22878| 评论: 0

    摘要: 搜索复制Hadoop是一个由Apache基金会所开发的分布式系统基础架构¡£用户可以在不了解分布式底层细节的情况下£¬开发分布式程序¡£充分利用集群的威力进行高速运算和存储¡£Hadoop实现了一个分布式文件系统£¨Hadoop Distr ...
    Hadoop是一个由Apache基金会所开发的分布式系统基础架构¡£用户可以在不了解分布式底层细节的情况下£¬开发分布式程序¡£充分利用集群的威力进行高速运算和存储¡£

    Hadoop实现了一个分布式文件系统£¨Hadoop Distributed File System£©£¬简称HDFS¡£HDFS有高容错性的特点£¬并且设计用来部署在低廉的£¨low-cost£©?#24067;?#19978;£»而且它提供高吞吐量£¨high throughput£©来访问应用程序的数据£¬适合那些有着超大数据集£¨large data set£©的应用程序¡£HDFS放宽了£¨relax£©POSIX的要求£¬可以以流的形式访问£¨streaming access£©文件系统中的数据¡£


    Hadoop的框架最核心的设计就是£ºHDFS和MapReduce¡£HDFS为海量的数据提供了存储£¬则MapReduce为海量的数据提供了计算¡£一句话来讲Hadoop就是存储加计算¡£


    Hadoop这个名字不是一个缩写£¬而是一个虚构的名字¡£该项目的创建者£¬Doug Cutting解释Hadoop的得名 £º¡°这个名字是我孩子给一个棕黄色的大象玩具命名的¡£


    Hadoop是一个能够让用户轻松架构和使用的分布式计算?#25945;¨¡?#29992;户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序¡£它主要有以下几个优点£º


    1¡¢高可靠性 Hadoop按位存储和处理数据的能力?#26723;?#20154;们信赖¡£


    2¡¢高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的£¬这些集簇可以方便地扩展到数以千计的节点中¡£


    3¡¢高效性 Hadoop能够在节点之间动态地移动数据£¬并保证各个节点的动态平衡£¬因此处理速度非常快¡£


    4¡¢高容错性 Hadoop能够自动保存数据的多个副本£¬并且能够自动将失败的任务重新分配¡£


    5¡¢?#32479;?#26412; 与一体机¡¢商用数据仓库以及QlikView¡¢Yonghong Z-Suite等数据集市相比£¬hadoop是开源的£¬项目的软件成本因此会大大?#26723;Í¡?/p>


    Hadoop带有用Java语?#21592;?#20889;的框架£¬因此运行在 Linux 生产?#25945;?#19978;是非常理想的¡£Hadoop 上的应用程序也可以使用其他语?#21592;?#20889;£¬比如 C++¡£


    1Hadoop大数据处理的意义


    Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取¡¢变形和加载(ETL)方面上的天然优势¡£Hadoop的分布式架构£¬将大数据处理引擎尽可能的靠近存储£¬对例如像ETL这样的批处理操作相对合适£¬因为类似这样操作的批处理结果可以直接走向存储¡£Hadoop的MapReduce功能实现了将单个任务打碎£¬并将碎片任务(Map)发送到多个节点上£¬之后再以单个数据集的形式加载(Reduce)到数据仓库里¡£


    1Hadoop由以下几个项目构成


    1¡¢Hadoop Common £ºHadoop体系最底层的一个模块£¬为Hadoop各子项目提供各种工具£¬如?#21495;?#32622;文件和日志操作等¡£


    2¡¢HDFS£º分布式文件系统£¬提供高吞吐量的应用程序数据访问£¬对外部客户机而言£¬HDFS 就像一个传统的分级文件系统¡£可以创建¡¢删除¡¢移动或重命名文件£¬等等¡£但是 HDFS 的架构是基于一组特定的节点构建的£¬这是由它自身的特点决定的¡£这些节点包括 NameNode£¨仅一个£©£¬它在 HDFS 内部提供元数据服务£»DataNode£¬它为 HDFS 提供存储块¡£


    由于仅存在一个 NameNode£¬因此这是 HDFS 的一个缺点£¨单点失败£©¡£ 存储在 HDFS 中的文件被分成块£¬然后将这些块复制到多个计算机中£¨DataNode£©¡£这与传统的 RAID 架构大不相同¡£块的大小£¨通常为 64MB£©和复制的块数量在创建文件时由客户机决定¡£NameNode 可以控制所有文件操作¡£HDFS 内部的所有通信都基于标准的 TCP/IP 协议¡£


    3¡¢MapReduce £º一个分布式海量数据处理的软件框架集计算集群¡£


    4¡¢Avro £ºdoug cutting主持的RPC项目£¬主要负责数据的序列化¡£有点类似Google的protobuf和Facebook的thrift¡£avro用来做以后hadoop的RPC£¬使hadoop的RPC模块通信速度更快¡¢数据结构更紧凑¡£


    5¡¢Hive £º类似CloudBase£¬也是基于hadoop分布式计算?#25945;?#19978;的提供data warehouse的sql功能的一套软件¡£使?#20040;?#20648;在hadoop里面的海量数据的汇总£¬即席查询简单化¡£hive提供了一套QL的查询语言£¬以sql为基础£¬使用起来很方便¡£


    6¡¢HBase £º基于Hadoop Distributed File System£¬是一个开源的£¬基于列存储模型的可扩展的分布式数据库£¬支持大型表的存储结构化数据¡£


    7¡¢Pig £º是一个并行计算的高级的数据流语言和执行框架 £¬SQL-like语言£¬是在MapReduce上构建的一种高级查询语言£¬把一些运算编译进MapReduce模型的Map和Reduce中£¬并且用户可以定义自己的功能¡£


    8¡¢ZooKeeper £ºGoogle的Chubby一个开源的实现¡£它是一个针对大型分布式系统的可靠协调系统£¬提供的功能包括?#21495;?#32622;维护¡¢名字服务¡¢分布式同步¡¢组服务等¡£ZooKeeper的目标就是封装好复杂易出错的关键服务£¬将简单易用的接口和性能高效¡¢功能稳定的系统提供给用户¡£


    9¡¢Chukwa £º一个管理大型分布式系统的数据采集系统 由yahoo贡献¡£


    10¡¢Cassandra ?#20309;?#21333;点?#25910;?#30340;可扩展的多主数据库 ¡£


    11¡¢Mahout £º一个可扩展的机器学习和数据挖掘库 ¡£


    Hadoop 设计之初的目标?#25237;?#20301;于高可靠性¡¢高可拓展性¡¢高容错性和高效性£¬正是这些设计上与生俱来的优点£¬才使得Hadoop 一出现就受到众多大公司的青睐£¬同时也引起?#25628;?#31350;界的普遍关注¡£到目前为止£¬Hadoop 技术在互联网领域已经得到了广泛的运用£¬如Yahoo¡¢Facebook¡¢Adobe¡¢IBM¡¢百度¡¢阿里巴巴¡¢腾讯¡¢华为¡¢中国移动等¡£


    关于怎样学习hadoop£¬首先要了解并且深刻认识什么是hadoop£¬它的原理以及作用是什么£¬包括基本构成是什么£¬分别有什么作用£¬?#27604;»£?#22312;学习之前£¬至少要掌握一门基础语言£¬这样在学习起来才会事半功倍£¬因为目前hadoop在国内发展时间不长£¬?#34892;?#36259;的朋友可以?#26085;?#19968;些书籍来学习£¬打好基本功¡£


    Hadoop交流群£º291282978

    鲜花

    ?#24080;?/a>

    雷人

    路过

    鸡蛋

    相关阅读

    最新评论

    关闭

    站长推荐上一条 /2 下一条


    id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">?#25226;?/a>id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

    QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

    GMT+8, 2019-3-22 00:31 , Processed in 0.527549 second(s), 22 queries .

    Powered by 小雄! X3.2

    © 2014-2016 bigdataer Inc.

    返回顶部
    ºÚÁú½­¿ìÀÖÊ®·Ö