• 大数据人官方群

    大数据人|中国大数据第一社区

     ?#19968;?#23494;码
     注册会员

    扫一扫访问微社区

    Hadoop 3.0新特性预览

    2016-5-31 06:53| 发布者: admin| 查看: 4171| 评论: 0|来自: 董西成

    摘要: Hadoop 2.0是基于JDK 1.7开发的而JDK 1.7在2015年4月已停止更新这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本而这正是hadoop 3.0 Hadoop 3.0的alpha版预计今年夏天发布GA版本11月或12月 ...

    1. Hadoop 3.0简介


    Hadoop 2.0是基于JDK 1.7开发的而JDK 1.720154月已停止更新这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本而这正是hadoop 3.0


    Hadoop 3.0alpha版预计今年夏天发布GA版本11月或12月发布


    Hadoop 3.0中引入了一些重要的功能和优化包括HDFS 可擦除编码多Namenode支持MR Native Task优化YARN基于cgroup的内存和磁盘IO隔离YARN container resizing

     

    2. Hadoop 3.0新特性

     

    Hadoop 3.0在功能和性能方面对hadoop内核进行了多项重大改进主要包括


    2.1 Hadoop Common

    1精简Hadoop内核包括剔除过期的API和实现将默?#29486;?#20214;实现替换成最高效的实现?#28909;?#23558;FileOutputCommitter缺省实现换为v2版本废除hftp转由webhdfs替代移除Hadoop?#37038;中?#21015;化库org.apache.hadoop.Records

    2Classpath isolation以防止不同版本jar包冲突?#28909;?/span>google Guava在混合使用HadoopHBaseSpark时很容易产生冲突https://issues.apache.org/jira/browse/HADOOP-11656

    3Shell脚本重构 Hadoop 3.0Hadoop的管理脚本进行了重构修复了大量bug增加了新特性支持动态命令等https://issues.apache.org/jira/browse/HADOOP-9902

     

    2.2 Hadoop HDFS

     

    1HDFS支持数据的擦除编码这使得HDFS在不?#26723;?#21487;靠性的前提下节省一半存储空间https://issues.apache.org/jira/browse/HDFS-7285

    2NameNode支持即支持一个集群中一个active多个standby namenode部署方式注多ResourceManager特性在hadoop 2.0中已经支持https://issues.apache.org/jira/browse/HDFS-6440

     

    2.3 Hadoop MapReduce

     

    1Tasknative优化为MapReduce增加了C/C++map output collector实现包括SpillSortIFile等通过作?#23548;?#21035;参数调整就可切换到该实现上对于shuffle密集型应用其性能?#21830;?#39640;约30%https://issues.apache.org/jira/browse/MAPREDUCE-2841

    2MapReduce内存参数自动推断在Hadoop 2.0中为MapReduce作业设置内存参数非常繁琐涉及到两个参数mapreduce.{map,reduce}.memory.mbmapreduce.{map,reduce}.java.opts一旦设置不合理则会使得内存资源浪费严重?#28909;?#23558;前者设置为4096MB但后者却是-Xmx2g则剩余2g?#23548;?#19978;无法让java heap使用到https://issues.apache.org/jira/browse/MAPREDUCE-5785

     

    2.4 Hadoop YARN


    1基于cgroup的内存隔离和IO Disk隔离https://issues.apache.org/jira/browse/YARN-2619

    2curator实现RM leader选举https://issues.apache.org/jira/browse/YARN-4438

    3containerresizinghttps://issues.apache.org/jira/browse/YARN-1197

    4Timelineserver next generation https://issues.apache.org/jira/browse/YARN-2928

     

    3.   Hadoop3.0总结


    Hadoop 3.0alpha版预计今年夏天发布GA版本11月或12月发布


    Hadoop 3.0中引入了一些重要的功能和优化包括HDFS 可擦除编码多Namenode支持MR Native Task优化YARN基于cgroup的内存和磁盘IO隔离YARN container resizing



    鲜花

    ?#24080;?/a>

    雷人

    路过

    鸡蛋

    最新评论

    关闭

    站长推荐上一条 /2 下一条


    id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">?#25226;?/a>id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

    QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

    GMT+8, 2019-3-22 23:07 , Processed in 0.541256 second(s), 23 queries .

    Powered by 小雄! X3.2

    © 2014-2016 bigdataer Inc.

    返回顶部
    ʮ