大数据高级进阶课程

大数据高级进阶课程


北京北京大数据分析师培训
  • 课程人气: 已有 42 人浏览,其中 2 人选择了在线报名
  • 开课培训:2019-01-02
  • 培训周期:一周以内
  • 上课时间:
  • 授课地点:北京市海淀区东北旺南路29号首农蓝海中心C座7层  地图
  • 交通线路:362路509路909路
  • 学校名称:北京华育兴业科技有限公司
  • 咨询电话: 18913820670

第四阶段 大数据高级进阶课程(207课时)

课程名称

课程内容

课程内容详解

Python

(70)学时

简介及安装(16学时)

主要讲解Python简介、Python开发环境搭建;Python数据类型和运算符;Python条件语句

基础语法(16学时)

主要讲解Python for循环、while循环;break与continue;字符串的使用、元组的定义及使用。

函数与面向对象(16学时)

主要讲解Python中列表、元组、字典;函数的定义及使用;lambda匿名函数及应用;变量的作用域;参数的传递、类的定义、对象创建;面向对象的封装、继承、多态。

模块与I0(16学时)

主要讲解模块概念;模块用法;导入模块;I0模块的使用;日历模块的使用;异常的概念及处理。

正则表达式(16学时)

主要讲解正则表达式概念及应用场景;search和match方法;正则表达式的修饰符;正则表达式的模式;正则表达式的应用。

爬虫之分布式爬虫(21学时)

主要讲解redis简介;安装测试;多机测试;scrapy_redis;简单应用测试;多机协作的redis。

爬虫之反爬虫(14学时)

主要讲解反爬虫介绍;问题的分类;顺从的艺术;反爬虫策略;爬虫编写注意事项。

Spark

(102课时)

spark基础(7学时)

主要讲解Spark 概述;Spark 生态系统;与MapReduce比较;体系结构与工作原理;安装部署及测试;spark应用场景。

RDD (21学时)

主要讲解Spark程序模型;Spark弹性数据集;RDD与共享式内存区别;Spark算子分类及功能;Spark 核心算子介绍:aggregate、aggregateByKey、cartesian。

Spark核心算子:coalesce, repartition,full0uterJoin

、cogroup [Pair], groupWith [Pair]、bineByKey[Pair] ,count,countByKey [Pair]、countByValue,distinct,filter,filterWith (deprecated)、flat Map,flatMapValues,flatMapWith,fold,foldByKey。

Spark核心算子:groupBy、groupByKey [Pair]、intersection、join [Pair]、keys [Pair]、values[Pair]、left0uterJoin [Pair]、map、mapPartitions、mapPartitionsWithIndex、mapValues [Pair]、max、min、reduce、reduceByKey [Pair]、right0uterJoin、sample、sortBy、sortByKey、sum 、take、top、zip、zipWithIndex;RDD特性、常见操作、缓存策略;RDD Dependency、Stage。

spark工作机制(7学时)

主要讲解Spark应用执行机制;Spark调度与任务分配模块;容错机制及共享变量和累加器;Lineage机制;Checkpoint机制;Shuffle机制;集成开发工具开发spark程序;web监控图讲解。

spark编程实战(7学时)

主要讲解编写wordcount程序;TopK;中位数;倒排索引;Countonce;倾斜连接等程序并通过web监控图进行查看。

spark SQL(7学时)

主要讲解Spark SQL概述;DataFrame及DataSet;SparkSession的使用;编程方式执行Spark SQL查询;sparkSQL 数据源之mysql;sparkSQL 数据源之hive;sparkSQL 数据源之json。

sparkSQL运行原理(7学时)

主要讲解Spark SQL组件、架构;DataFrame、SparkSQL运行原理;SparkSQL电商日常数据分析。

电商数据项目(14学时)

主要讲解python爬虫抓取数据;解析json数据;hive建表,数据填充;SparkSQL日常分析;数据的可视化展现。

SparkStreaming基础(7学时)

主要讲解Spark Streaming运行原理;DStream;DStream 常用函数;容错处理;与flume和kafka的集成。

SparkStreaming案例(统计的流式实事监控系统)(14学时)

主要讲解nginx日志文件,flume采集;kafka的应用;SparkStreaming 实时分析;结果写入Mysql数据库。

Spark MLlib(7学时)

主要讲解机器学习基本认识;分类算法、聚类算法;回归算法、决策树和随机森林;K最近邻算法;贝叶斯决策论;EM算法。

综合应用(4学时)

主要对重要知识点串线。

Flume

(14学时)

实时计算介绍和Flume基础(1.5学时)

主要介绍实时计算与离线计算区别;实时技术应用;实时分析三种框架比较;实时分析技术架构。

Flume安装和相关概念(2学时)

主要讲解Flume安装,event介绍; Flume Agent内部原理; 配置Flume Agent。

source相关配置及测试 (3.5学时)

主要讲解source的生命周期;source的配置;常用的几种source的介绍以及应用;Flume拦截器。

channel相关配置及测试 (1.5学时)

主要讲解channle作用;channle事务性;channle的种类;channle配置;Channel选择器。

sink相关配置及测试(1.5学时)

主要讲解sink作用;sink的生命周期;常用的几个sink介绍;Sink组。

复杂数据流的应用(4学时)

主要讲解多source--单channle(Fan in flow); 单source--多channle(Fan out flow);agent—agent。

Kafka

(21学时)

Kafka介绍(2学时)

主要讲解数据的传递方式;消息中间件的优势及作用;常用的消息中间件;kafka的相关概念。

Kafka安装(5学时)

主要讲解kafka相关概念:broker、topic、生产者和消费者;kafka集群类型;kafka集群启动步骤。

Kafka生产者和消费者(7学时)

主要讲解kafka分区机制(Partition); kafka的副本数(replication);Kafka生产者API和Kafka消费者API。

flume与kafka整合(7学时)

主要讲解flume与kafka整合:kafka source、Kafka Sink、Kafka Channel。

课程类别 课程名称 开班时间 培训价
JAVA Java基础课程 2019-01-02 电询
大数据分析师 Hadoop大数据基础课程 2018-12-26 电询
数据库工程师 分布式数据库课程 2019-01-16 电询
JAVA 大数据综合实战项目课程 2019-01-17 电询
软件系统 Python培训 2019-01-08 电询

魔据教育隶属于北京华育兴业科技有限公司,是鑫联华(股票代码:835164)旗下全资教育品牌。公司总部位于北京,目前已在哈尔滨、长春、北京、太原、济南等地建立了分校区,合作院校超百所,每年有数千名大数据人才从这里走向工作岗位。

魔据教育专注于为广大大学生和职场人士提供大数据技术的培养,与高校共同制订大数据行业人才培养标准,魔据教育已然成为大数据人才培养的港湾。

魔据教育一贯注重课程创新引领行业发展,组建 30 人研发团队,不断吸收国际前沿理论知识并结合实际市场需求,总结学员、讲师、企业的反馈意见,制定出科学、完善的大数据课程体系,魔据教育现在已经被公认为大数据培训行业课程标准的制定者。

魔据教育依托于多年项目经验组织研发的 Python、Hadoop、Storm、Spark 等课程体系,深入剖析原理的同时,以”求真,务实”的严谨作风,始终致力于培养实战型,紧缺型和创新型的大数据人才。真正做到为学生负责到底,成为学员可信赖、可托付的教育培训品牌。

  • 5
  • 共 1 人评价
  • 学校环境: 5
  • 老师教学: 5
  • 课程性价: 5
  • 交通便利: 5
北京北京大数据分析师培训

5

北京魔据教育欢迎您!

  • 培训电话: 18913820670
  • 建校时间:2009年
  • 培训课程:共6个培训班
  • 培训认证: