Hadoop大数据解决方案平台技术培训

  培训讲师:刘晖

讲师背景:
刘晖老师通信行业特约培训导师【专业资质】✦北大计算机、北邮通信双学位✦(原)中兴通讯学院高级讲师✦大庆油田技术研究院高级内训讲师✦15年嵌入式硬件、软件开发和系统架构设计总监✦有8年多的“云大智物”开发及实施经验。曾供职于巨龙通信、大唐电信 详细>>

刘晖
    课程咨询电话:

Hadoop大数据解决方案平台技术培训详细内容

Hadoop大数据解决方案平台技术培训

【课程目标】

Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。

通过本课程的学习,达到如下目的:

  1. 全面了解大数据处理技术的相关知识。
  2. 学习Hadoop的核心技术以及应用。
  3. 深入掌握Hadoop的相关工具在大数据中的使用。
  4. 掌握Hadoop的常用模块的工作原理及开发应用技术。
  5. 掌握传统数据中心向大数据中心转换的关键技术。
  6. 掌握海量数据处理的性能优化及维护技巧。

【授课时间】

2天时间

【授课对象】

网络部、大数据系统开发部、大数据中心、网络运维部等相关技术人员。

【授课方式】

原理精讲+案例演练+开发实践+系统优化

【课程大纲】

  1. Hadoop的基本框架
  2. 大数据时代面临的问题
  3. 当前解决大数据的技术方案
  4. Hadoop架构和云计算
  5. Hadoop简史及安装部署
  6. Hadoop设计理念和生态系统
  7. HDFS分布式文件系统--海量数据存储的摇篮
  8. HDFS的设计目标
  9. HDFS的基本架构
  • NameNode名称节点
  • SecondaryNameNode第二名称节点
  • DataNode数据节点
  1. HDFS的存储模型
  • 数据块存储
  • 元数据存储(空间镜像与编辑日志)
  • 多副本存储
  1. 多副本放置策略
  2. 多数据节点管理机制与交互过程
  3. 文件系统操作与管理
  • 读文件过程
  • 写文件过程(数据流管道)
  1. 数据完整性机制
  • 数据校验和
  • 数据完整性扫描线程
  • 元数据备份与合并
  1. 数据可靠性设计
  • 安全模式(数据块与节点映射关系管理)
  • 心跳检测机制(节点失效管理)
  • 租约机制(多线程并发控制)
  1. 其它
  • HDFS的安全机制
  • 负载均衡
  • 文件压缩
  1. 操作接口与编程接口
  • HDFS Shell
  • HDFS Commands
  • WebHDFS REST API
  • HDFS Java API

演练:HDFS文件操作命令

演练:HDFS编程示例

  1. MapReduce分布式计算系统--海量数据处理的利器
  2. MapReduce的三层设计理念
  • 分布治之的设计思想(Map与Reduce)
  • 数据处理引擎(编程模型)
  • 运行时环境(任务调度与执行)
  1. MapReduce的基本架构
  • JobTracker作业跟踪器
  • TaskTracker任务跟踪器
  • MapReduce与HDFS的部署关系
  1. MapReduce编程模型概述
  • 编程接口介绍
  • Hadoop工作流实现原理
  1. MapReduce作业调度机制
  • MapReduce作业生命周期
  • 作业调度策略
  • 静态资源管理方案
  1. 数据并行处理机制(五步骤)
  • Input阶段实现
  • Map阶段实现
  • Shuffle阶段实现
  • Reduce阶段实现
  • Output阶段
  1. MapReduce容错机制
  • 任务失败与重新尝试
  • 节点失效与重调度
  • 单点故障
  1. MapReduce性能优化
  • 优化方向与思路
  • 磁盘IO性能优化
  • 分片优化
  • 线程数量优化
  • 内存优化
  • 压缩优化
  1. MapReduce操作接口
  • Job Shell
  • Web UI

案例演练:MapReduce编程示例

  1. YARN:下一代通用资源管理系统
  • MRv1的局限性
  • YARN基本框架
  • NN HA:解决单点故障
  • HDFS Federation:解决扩展性问题
  1. HBase非关系型数据库--海量数据的黎明
  2. HBase的使用场景
  3. HBase的基本架构
  • Zookeeper分布式协调服务器
  • Master主控服务器
  • Region Server区域服务器
  1. HBase的数据模型
  • HBase的表结构
  • 行键、列键、时间戳
  1. HBase的存储模型
  • 基本单位Region
  • 存储格式HFile
  1. 数据分裂机制Split
  2. 数据合并机制Compaction
  • minor compaction
  • major compaction
  1. HLog写前日志
  2. 数据库读写操作
  • 数据库写入
  • 数据库读取
  • 三次寻址
  1. HBase操作接口
  • Native Java API
  • HBase Shell
  • 批量加载工具
  • HiveQL操作
  1. HBase性能优化
  • 写速度优化
  • 读速度优化
  1. HBase集群监控与管理

案例演练:HBase命令操作实例

  1. Hive分布式数据仓库--高级的编程语言
  2. Hive是什么
  3. Hive与关系数据库的区别
  4. Hive系统架构
  • 用户接口层
  • 元数据存储层
  • 驱动层
  1. Hive常用服务
  2. Hive元数据的三种部署模式
  3. Hive的命名空间
  4. Hive数据类型与存储格式
  • 数据类型
  • TextFile/SequenceFile/RCFile
  1. Hive的数据模型
  • 管理表
  • 外部表
  • 分区表
  • 桶表
  1. HQL语言命令实例
  • DDL数据定义语言
  • DML数据操作语言
  • QUERY数据查询语言
  1. Hive自定义函数
  • 基本函数(UDF)
  • 聚合函数(UDAF)
  • 表生成函数(UDTF)
  1. Hive性能优化
  • 动态分区
  • 压缩
  • 索引
  • JVM重用

案例演练:Hive命令操作实例

  1. Sqoop数据交互工具--与传统数据库的桥梁
  2. Sqoop是什么
  3. Sqoop的架构和功能
  • Sqoop1架构
  • Sqoop2架构
  1. 数据双向交换
  • 数据导入过程
  • 数据导出过程
  1. 数据导入工具与命令介绍

案例演练:Sqoop数据导入/导出实际操作

  1. Pig数据流处理引擎--数据脚本语言
  2. Pig介绍
  3. 命令行交互工具Grunt
  4. Pig数据类型
  5. Pig Latin脚本语言介绍
  • 基础知识
  • 输入和输出
  • 关系操作
  • 调用静态Java函数
  1. Pig Latin高级应用
  2. 开发与测试Pig Latin脚本
  • 开发工具
  • 任务状态监控
  • 调试技巧
  1. 脚本性能优化
  2. 用户自定义函数UDF

案例演练:Pig Latin脚本编写、测试与运行操作

第八部分:Spark技术原理及应用

1、Spark基础知识

  • Scala简介
  • Spark与Hadoop的对比

2、Spark生态系统

3、Spark运行架构

  • 基本概念
  • 架构设计
  • Spark运行基本流程
  • RDD的设计与运行原理

4、Spark的部署和应用方式

  • Spark的部署方式
  • 从“Hadoop+Storm”架构转向 Spark架构
  • Hadoop和Spark的统一部署

5、Spark编程实践

  • 启动Spark Shell
  • Spark RDD基本操作
  • Spark应用程序

第九部分:hadoop各个组件之间的通信机制与关系

1、hadoop生态圈到底有多少组件?

2、hadoop各个组件之间的通信机制介绍

3、hadoop各个组件之间的相互关系

4、hadoop架构的应用案例解析

结束:课程总结与问题答疑。

 

 



 

刘晖老师的其它课程

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时间】1天【课程

 讲师:刘晖详情


【课程背景】住房和城乡建设部印发的《国家智慧城市试点暂行管理办法》和《国家智慧城市(区、镇)试点指标体系(试行)》两个文件指出:建设智慧城市是创新驱动发展、推动新型城镇化、全面建成小康社会的重要举措。这对于服务于千千万万城市、社区、园区、小区、楼宇,以及工作和生活在其中的业主和客户的物业管理服务业来说,已然迎来最大的发展机遇。物业管理行业不仅是智慧社区的受益

 讲师:刘晖详情


5G+智慧煤矿   12.31

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】无线网、核

 讲师:刘晖详情


【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】相关人员【

 讲师:刘晖详情


5G产业发展与应用创新【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握5G在新时代、新技术下的行业发展趋势;2以鲜活的应用案例和解决方案详细掌握5G给环保行业方面带来全新变革的蓝图和愿景;【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强

 讲师:刘晖详情


5G赋能工业互联网【课程背景】5G通过技术创新实现了增强型移动宽带、超大规模物联网和高可靠、低时延等三大应用场景全覆盖,把人与人之间的通信拓展到了人与物、物与物之间的通信,从消费互联网拓展到了产业互联网,为行业数字化转型提供了关键的数字基础设施。5G和人工智能/大数据/云计算/边缘计算/区块链等新一代信息技术相结合,多技术交织并进、深度渗透、协同应用,孕育技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G与数字货币、区块链在金融行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G金融行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握

 讲师:刘晖详情


【课程背景】国家电网“三型两网、世界一流”战略、南方电网定位“五者”,转型“三商”战略,需赋能智能终端,加速电网全面感知,打通数据和业务壁垒,驱动创新能力。传统通信方式难以满足数字电网发展需求,电力生产、传输、消费全过程需要低时延、大宽带、大连接,对5G的诉求十分迫切5G作为最新一代的无线通信技术,其超高速率、超低时延、超大连接特性对智慧城市建设产生巨大的影

 讲师:刘晖详情


COPYRIGT @ 2018-2028 HTTPS://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有