数据工程专项培训

  培训讲师:刘晖

讲师背景:
刘晖老师通信行业特约培训导师【专业资质】✦北大计算机、北邮通信双学位✦(原)中兴通讯学院高级讲师✦大庆油田技术研究院高级内训讲师✦15年嵌入式硬件、软件开发和系统架构设计总监✦有8年多的“云大智物”开发及实施经验。曾供职于巨龙通信、大唐电信 详细>>

刘晖
    课程咨询电话:

数据工程专项培训详细内容

数据工程专项培训

【课程收益】

  1. 掌握数据仓库模型及相关知识;
  2. 掌握数据存储方案的设计;
  3. 掌握数据处理过程的规划、设计、优化;

【课程特色】

1.   课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。

2.   清晰的知识结构,根据应用经验采用最优化授课模式。

3.   内容充沛、详略得当,前后呼应。

4.   讲师资历丰富,具有丰富的实践经验。

5.   知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程对象】相关人员

【课程时长】2天(6小时/天)

【课程大纲】

第一部分:数据仓库

  1. 数据仓库与数据挖掘概述
  2. 数据仓库的发展与展望
  3. 数据仓库的体系结构
  4. 数据仓库的参照结构
  5. 数据挖掘技术概述
  6. 数据挖掘技术与工具
  7. 数据挖掘的应用
  8. 数据仓库开发模型
  9. 数据仓库开发模型
  10. 数据仓库概念模型
  11. 数据仓库逻辑模型
  12. 数据仓库的物理模型
  13. 数据仓库的元数据模型
  14. 数据仓库的粒度和聚集模型
  15. 数据仓库开发应用过程
  16. 数据仓库的规划
  17. 数据仓库的概念模型设计
  18. 数据仓库的逻辑模型设计
  19. 数据仓库的物理模型设计
  20. 数据仓库的实施
  21. 数据仓库的应用、支持和增强
  22. OLAP 技术
  23. OLAP 技术概念
  24. OLAP 与多维分析
  25. OLAP 的实施
  26. 多维 OLAP 与关系 OLAP
  27. OLAP 技术评价
  28. 数据挖掘技术
  29. 传统的统计分析类数据挖掘技术
  30. 统计分析类工具
  31. 统计分析类工具的应用
  32. 统计分析类工具应用的问题
  33. 知识挖掘系统的体系结构
  34. 现代挖掘技术及应用
  35. 知识发现工具与应用
  36. 数据挖掘技术的发展
  37. 数据挖掘的主要算法和模型
  38. 聚集
  39. 决策树
  40. 神经网络
  41. 关联分析
  42. 序列分析
  43. 数据预处理技术
  44. 数据清理
  45. 集成和变换
  46. 规范化
  47. 数据归约
  48. 维归约
  49. 数据压缩
  50. 数值归约
  51. 数据仓库应用与管理
  52. 数据仓库用户
  53. 数据仓库应用案例
  54. 数据仓库的运行技术管理
  55. 数据仓库的元数据管理
  56. 数据仓库应用中的法律问题
  57. 数据仓库的成本与效益分析
  58. 数据仓库开发实例
  59. 实例数据仓库的规划与分析
  60. 数据仓库开发工具的应用
  61. 数据仓库创建实例
  62. 数据仓库事实表与多维数据集的建立
  63. 数据仓库与挖掘应用实例
  64. 数据仓库的数据加载与钻取
  65. 数据挖掘模型的设计
  66. 数据挖掘工具的应用
  67. 数据仓库客户端界面的设计

第二部分:数据存储方案

  1. 分布式存储系统概述
  2. 大数据集(超大文件)存储
  3. 海量小文件存储
  4. 分布式存储技术发展新动向和趋势
  5. 从Google云计算体系,理解海量数据处理的方法
  6. 从Hadoop云计算项目,进一步研究云数据处理方法
  7. 从Windows Azure,理解平台即服务的本质
  8. 从Amazon云计算,讨论如何提供云服务
  9. 实施云计算的关键点:安全策略
  10. 当前数据中心如何向云计算环境转变? 
  11. 基础设施即服务(IaaS)关键实现技术
  12. 软件即服务(SaaS)关键实现技术

第三部分 数据处理过程的规划、设计、优化

  1. 什么是数据工程师
  2. 数据科学家和数据工程师的区别
  3. 数据工程中的不同角色
  4. 核心数据工程技能

课程1:大数据技术基础与应用

时间

内容

案例实践与练习

 

一、大数据时代背景

二、大数据业务应用场景

三、大数据在各行业最佳实践案例

案例讨论:大数据行业应用价值
 

一、大数据处理技术发展趋势

二、大数据主要存储技术介绍

三、大数据主要计算技术介绍

案例分析: 大数据与传统存储计算技术的关系

 

课程2:大数据基础理论与算法入门

时间

内容

 

第1个主题:概率论与数理统计入门

  1. 聊聊概率这件事
  2. 什么是随机变量
  3. 什么是概率分布
  4. 什么是古典概型
  5. 联合概率与边缘概率
  6. 乘法与全概率公式
  7. 贝叶斯公式介绍
  8. 独立性与独立事件
  9. 课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计在各种业务/项目上的应用。
 

第2个主题:离散值的概率分布

  1. 定义与分布律介绍
  2. 离散型随机变量介绍
  3. 伯努利、二项及泊松分布
  4. 期望值及其计算方法
  5. 方差与标准差介绍
  6. 大数定理介绍

课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计

第3个主题:SQL语法与应用实战

  1. SQL概述
  2. 数据库基本操作
  3. 数据类型和约束条件
  4. 数据填充与数据导入
  5. 查询操作符与子查询
  6. SQL查询函数介绍
  7. 课堂实操:动手实际实现客户订单查询案例
 

第4个主题:数据预处理

  1. 数据审核
  2. 数据筛选
  3. 数据排序
  4. 数据清洗
  5. 数据集成
  6. 数据变换
  7. 数据归约
  8. 课堂实操: 合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图

第5个主题:数据分析入门

  1. 数据分析概述
  2. 数据分析开发环境搭建
  3. 数据分析学习技巧
  4. 课堂实操: 量化炒股实例、python常用科学计算
 

第6个主题:数据算法基础

  1. K最邻近算法
  2. 朴素贝叶斯
  3. 线性回归
  4. 梯度下降
  5. 最大似然估计
  6. 多重回归模型
  7. Logistic回归
  8. Logistic函数介绍
  9. 支持向量机
  10. 课堂实操: 算法练习
 

第7个主题:数据算法基础

  1. 什么是决策树
  2. 什么是熵
  3. 神经网络的感知机
  4. 前向传播神经网络
  5. 什么是聚类
  6. K均值算法
  7. 自然语言处理
  8. 推荐系统介绍
  9. 课堂实操: 实现机器学习相关完整案例

课程3:Hadoop生态系统

时间

内容

案例实践与练习

 

一、HDFS特征及读写文件

二、NameNode的考虑

三、HDFS安全概览

案例练习:HDFS基础命令
 

一、运用 Hadoop文件Shell

二、利用Flume 从外部源摄取数据

三、利用Sqoop从关系数据库摄取数据

案例练习:HDFS脚本及接口命令
 

一、MapReduce原理及特征

二、YARN2.0架构与原理

三、Zookeeper和YARN2.0关系

案例练习:MapReduce运行及调度
 

一、SQOOP原理及特征

二、SQOOP开发应用

三、SQOOP和Hadoop关系

案例练习:SQOOP开发
 

一、zookeeper原理及特征

二、zookeeper架构与应用

三、Zookeeper和Hadoop关系

案例练习:Zookeeper集群管理命令
 

一、HBase原理及特征

二、HBase and RDBMS

三、HBase Shell

案例练习:HBase Shell命令
 

一、创建表

二、HBase 的ROWKEY设计

三、Hbase的优化设计

案例练习:HBase 优化设计
 

一、Hive模式和数据存储

二、Hive与传统数据库的比较

三、Hive应用案例

案例练习:Hive模式及管理命令
 

一、HQL基础DDL编程

二、HQL基础DML编程

三、HQL实现关联操作

案例练习:Hive 基础开发
 

一、Hive管理的各中表与模型应用

二、装载数据进入Hive 

三、Hive维度模型开发应用

案例练习:Hive模型开发
 

一、Flume装载数据进入Hive 

二、SQOOP装载数据进入Hive

三、Hive开发与Hadoop关系

案例练习:Hive接口开发
 

一、Scala基础知识

二、Scala常用集合

三、Scala应用场景

案例练习:Scala基础开发
 

一、函数对象

二、编程实例

三、Scala高级开发应用

案例练习:Scala开发应用

课程4:Spark生态系统

时间

内容

案例实践与练习

 

一、Spark发展历史及简介

二、Spark业务应用场景

三、Spark与Hadoop系统关系

案例讨论:Spark与Hadoop系统关系
 

一、Spark原理及特征

二、Spark架构及组件应用场景

三、Spark接口及应用场景

案例讨论:Spark接口及应用场景
 

一、RDD基础

二、转换操作与执行操作

三、共享变量

案例练习:RDD基础开发操作
 

一、Spark计算框架原理及特征

二、Spark架构与应用

三、Spark之宽窄依赖和DAG调度

案例练习:Spark计算模型及运行日志查看
 

一、Spark资源调度原理及特征

二、Spark资源调度架构及应用

三、Spark资源调度基于Hadoop

案例练习:Spark调度命令
 

一、Spark生态系统接口介绍

二、Spark生态系统接口与Hadoop

三、Spark生态系统接口与大数据分析

案例练习:Spark接口开发
 

一、Spark SQL原理与架构

二、Hive SQL与Spark SQL 

三、Spark SQL开发应用

案例练习:Spark SQL基础开发
 

一、Spark SQL与Hive

二、Spark SQL与模型构建

三、Spark SQL与数据挖掘分析

案例练习:Spark SQL模型开发
 

一、Spark Streaming基本原理

二、Spark Streaming开发基础

三、Spark Streaming开发应用

案例练习:Spark Streaming开发
 

一、Spark ML读取数据

二、Spark ML对数据进行探索

三、Spark ML训练模型

案例练习:Spark Mllib开发
 

一、Spark ML组装任务

二、Spark ML评估、优化模型

三、Spark Mllib开发

案例练习:Spark Mllib开发
 

一、Spark GraphX 的核心代码剖析

二、Spark GraphX 命令方式操作

三、Spark GraphX 的客户端 API 介绍

案例练习:Spark Graphx开发

课程5:大数据流式处理技术入门

时间

内容

案例实践与练习

 

一、大数据流式处理技术原理与架构

二、大数据实时计算应用场景

三、大数据实时计算与Hadoop系统

案例讨论:大数据实时计算与Hadoop系统
 

一、大数据流式处理组件介绍

二、SparkStreaming与各流计算组件特点

三、大数据流式处理技术选型实践

案例讨论:大数据流式处理技术选型
 

一、FLUME基本原理

二、FLUME架构部署

三、FLUME管理运维开发命令

案例练习:FLUME开发基础
 

一、FLUME读取数据

二、FLUME处理数据

三、FLUME写入数据

案例练习:FLUME开发应用
 

一、Kafka基本原理

二、Kafka架构部署

三、Kafka管理运维开发命令

案例练习:Kafka开发基础
 

一、Kafka读取数据

二、Kafka处理数据

三、Kafka写入数据

案例练习:Kafka开发应用
 

一、ELK各组件特点

二、ELK架构优势

三、ELK开发应用场景

案例练习:ELK开发基础
 

一、ELK部署配置

二、ELK管理运维

三、ELK开发应用

案例练习:ELK开发应用
 

一、Flink原理

二、Flink架构优势

三、Flink开发应用场景

案例练习:Flink开发基础
 

一、Flink部署配置

二、Flink管理运维

三、Flink开发应用

案例练习:Flink开发应用

 



 

刘晖老师的其它课程

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时间】1天【课程

 讲师:刘晖详情


【课程背景】住房和城乡建设部印发的《国家智慧城市试点暂行管理办法》和《国家智慧城市(区、镇)试点指标体系(试行)》两个文件指出:建设智慧城市是创新驱动发展、推动新型城镇化、全面建成小康社会的重要举措。这对于服务于千千万万城市、社区、园区、小区、楼宇,以及工作和生活在其中的业主和客户的物业管理服务业来说,已然迎来最大的发展机遇。物业管理行业不仅是智慧社区的受益

 讲师:刘晖详情


5G+智慧煤矿   12.31

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】无线网、核

 讲师:刘晖详情


【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】相关人员【

 讲师:刘晖详情


5G产业发展与应用创新【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握5G在新时代、新技术下的行业发展趋势;2以鲜活的应用案例和解决方案详细掌握5G给环保行业方面带来全新变革的蓝图和愿景;【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强

 讲师:刘晖详情


5G赋能工业互联网【课程背景】5G通过技术创新实现了增强型移动宽带、超大规模物联网和高可靠、低时延等三大应用场景全覆盖,把人与人之间的通信拓展到了人与物、物与物之间的通信,从消费互联网拓展到了产业互联网,为行业数字化转型提供了关键的数字基础设施。5G和人工智能/大数据/云计算/边缘计算/区块链等新一代信息技术相结合,多技术交织并进、深度渗透、协同应用,孕育技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G与数字货币、区块链在金融行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G金融行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握

 讲师:刘晖详情


【课程背景】国家电网“三型两网、世界一流”战略、南方电网定位“五者”,转型“三商”战略,需赋能智能终端,加速电网全面感知,打通数据和业务壁垒,驱动创新能力。传统通信方式难以满足数字电网发展需求,电力生产、传输、消费全过程需要低时延、大宽带、大连接,对5G的诉求十分迫切5G作为最新一代的无线通信技术,其超高速率、超低时延、超大连接特性对智慧城市建设产生巨大的影

 讲师:刘晖详情


COPYRIGT @ 2018-2028 HTTPS://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有