2023热门技术Spark+ClickHouse实战企业级数据仓库高新数据工程师必备技能(21章完整版)

详情简介:

Spark+ClickHouse实战企业级数据仓库,进军大厂必备
掌握数仓构建,完善技术体系,轻松掌握高薪技能

现阶段的数据开发领域,数据仓库作为企业战略决策的“大脑”,地位日益凸显,对数仓技术的掌握程度也成了大厂面试必考的一环。本课程结合ClickHouse+Spark 这一对数据处理的“黄金搭档”,选取“大数据量企业数据仓库“这一典型场景,实战大数据量下数仓的建模、设计与调优等实用技巧,快速掌握ClickHouse+Spark核心技能,为晋级大数据架构师铺路!

适合人群
希望掌握实用的数据仓库建模、设计和调优能力
希望快速提升的ClickHouse技术能力
希望通过贴近生产实践的案例,提升大数据项目能力的同学技术储备
熟悉java/Scala基础的语法
了解SQL的基本使用
了解Spark基础
章节目录:
第1章 从0到1搭建项目开发环境,快速上手大数据开发
视频:
1-1 大数据时代,你还不知道数据仓库么?(10:28)
视频:
1-2 本章概览(02:05)
视频:
1-3 基于IDEA + Maven构建Spark工程(12:18)
图文:
1-4 数据开发环境(Spark/Hive/Hadoop/MySQL/IDEA)搭建
图文:
1-5 Maven安装配置
视频:
1-6 源码、启动脚本、配置等自动构建打包(13:07)
视频:
1-7 项目多模块规划与自动构建打包(16:11)
第2章 项目关键技术准备,学习通用的数据处理技术
视频:
2-1 本章概览(04:00)
视频:
2-2 IPv4和数值转换(10:51)
视频:
2-3 IP地址简写和全写的格式转换(04:23)
视频:
2-4 IP地址二分查找(12:24)
视频:
2-5 Spark自定义IP函数(04:26)
视频:
2-6 初识Grok通用数据解析器(15:57)
视频:
2-7 在程序中解析Grok(07:23)
视频:
2-8 自定义Grok表达式(06:37)
视频:
2-9 Grok工具类封装(05:57)
视频:
2-10 在Spark中集成Grok(09:43)
视频:
2-11 Grok的序列化问题与源码修改(05:48)
图文:
2-12 Spark源码优化,支持对MySQL的数据进行更新
作业:
2-13 【阶段作业】如何读取Grok的资源文件
第3章 项目数据准备,操练基于Spark的数据开发与优化
视频:
3-1 本章概览(01:31)
视频:
3-2 项目业务数据(06:29)
视频:
3-3 生成IP、域名、IP位置的中间数据(上)(09:05)
视频:
3-4 生成IP、域名、IP位置的中间数据(下)(13:56)
视频:
3-5 生成域名备案、IP位置、违规实体数据(09:43)
视频:
3-6 基于Grok模拟安全访问日志(16:55)
视频:
3-7 安全访问日志生成之广播变量优化(02:49)
作业:
3-8 【阶段作业】超大广播变量如何优化?
第4章 初识OLAP数仓架构
视频:
4-1 本章概览(01:09)
视频:
4-2 基于Lambda架构的数仓(05:54)
视频:
4-3 基于Kappa架构的数仓(02:53)
视频:
4-4 基于实时OLAP架构的数仓(06:19)
图文:
4-5 【面试官来啦】面试讨论题
第5章 详解数据仓库基础理论,掌握数据仓库的实施流程
视频:
5-1 本章概览(02:42)
视频:
5-2 数据仓库的定义(05:25)
视频:
5-3 3NF范式建模(04:23)
视频:
5-4 Kimball和Inmon数据仓库架构(04:57)
视频:
5-5 数据仓库建模方法(06:26)
视频:
5-6 事实表与维度表(05:58)
视频:
5-7 星型、雪花和星座维度模型(03:27)
视频:
5-8 数据仓库构建流程(05:21)
视频:
5-9 数据仓库分层模型(08:48)
图文:
5-10 【面试官来啦】面试讨论题
第6章 【项目实战第一篇】项目业务流程与ODS层数据同步
视频:
6-1 课程目录(01:25)
视频:
6-2 项目业务流程与技术架构(03:26)
视频:
6-3 ODS数据同步技术架构(05:10)
视频:
6-4 基于HDFS API的数据同步(17:30)
视频:
6-5 基于HDFS API的数据同步工具封装(17:37)
视频:
6-6 业务数据库的数据同步(11:48)
作业:
6-7 【阶段作业】Spark如何读取配置文件?
作业:
6-8 【阶段作业】HDFS数据同步多线程优化
第7章 快速上手OLAP分析引擎ClickHouse
视频:
7-1 本章概览(01:56)
视频:
7-2 初识OLAP分析引擎ClickHouse(13:10)
视频:
7-3 ClickHouse与MySQL、Hbase、Elasticsearch(05:38)
视频:
7-4 ClickHouse单机版安装(02:22)
视频:
7-5 ClickHouse快速入门(06:55)
视频:
7-6 ClickHouse-client使用(14:28)
图文:
7-7 ClickHouse常用的数据格式
视频:
7-8 可视化工具DBeaver安装配置(05:35)
视频:
7-9 ClickHouse表引擎快速入门(05:43)
视频:
7-10 ClickHouse学习建议(07:44)
第8章 基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程
视频:
8-1 本章概览(02:15)
视频:
8-2 JDBC操作ClickHouse(15:35)
视频:
8-3 使用Spark将数据写入ClickHouse(14:45)
视频:
8-4 Spark写ClickHouse的配置化改造(13:13)
视频:
8-5 在Spark中集成写ClickHouse的通用能力(22:52)
视频:
8-6 基于Spark源码自定义ClickHouse外部数据源(20:46)
第9章 数仓高级之维度模型设计
视频:
9-1 本章概览(02:24)
视频:
9-2 维度相关基本概念(05:43)
视频:
9-3 维度设计的基本方法(03:08)
视频:
9-4 维度设计的反规范化(03:08)
视频:
9-5 一致性维度集成(03:57)
视频:
9-6 维度模型设计原则和方式(10:07)
视频:
9-7 缓慢变化维度SCD(12:40)
视频:
9-8 维度的层次关系(06:29)
视频:
9-9 其他常见的维度模型(06:05)
图文:
9-10 【面试官来啦】面试讨论题
第10章 【项目实战第二篇】构建项目公共维度层
视频:
10-1 本章概览(01:56)
视频:
10-2 反规范化维度合并之应用内容的模型设计与实现(18:41)
视频:
10-3 公共方法封装(04:41)
视频:
10-4 维度合并拆分之IP域名备案模型设计(02:28)
视频:
10-5 IP域名备案维度代码实现(08:43)
视频:
10-6 违规IP域名数据入库(07:42)
视频:
10-7 维度层次结构扁平化之IP地址段区域维度模型设计(03:46)
视频:
10-8 IP地址段区域维度代码实现(10:26)
作业:
10-9 【阶段作业】ClickHouse的覆盖写功能
第11章 ClickHouse的MergeTree系列引擎原理、实践与优化
视频:
11-1 本章概览(02:29)
视频:
11-2 表引擎概述(04:36)
视频:
11-3 MergeTree引擎(14:07)
图文:
11-4 表/列的TTL生命周期
视频:
11-5 数据片段存储合并机制与自定义分区(12:41)
视频:
11-6 主键、索引、数据标记的工作机制(08:34)
视频:
11-7 性能优化利器之跳数索引的基本使用(26:18)
视频:
11-8 性能优化利器之跳数索引实现原理与使用场景(11:31)
图文:
11-9 【重难点梳理】性能优化利器之跳数索引
视频:
11-10 性能优化利器之Projection(18:30)
图文:
11-11 【重难点梳理】性能优化利器之Projection
作业:
11-12 【阶段作业】Projection的使用有哪些限制?
视频:
11-13 ReplacingMergeTree引擎(09:10)
图文:
11-14 【重难点梳理】ReplacingMergeTree引擎
视频:
11-15 SummingMergeTree引擎(05:22)
图文:
11-16 【重难点梳理】SummingMergeTree引擎
视频:
11-17 AggregatingMergeTree引擎(11:18)
图文:
11-18 【重难点梳理】AggregatingMergeTree引擎
视频:
11-19 CollapsingMergeTree引擎(08:32)
图文:
11-20 【重难点梳理】CollapsingMergeTree引擎
视频:
11-21 VersionedCollapsingMergeTree引擎(04:21)
图文:
11-22 【重难点梳理】VersionedCollapsingMergeTree引擎
视频:
11-23 MergeTree系列引擎选型对比(11:09)
视频:
11-24 数据实时更新删除(13:02)
图文:
11-25 【重难点梳理】如何实现数据的实时更新删除
第12章 数仓高级之事实表模型设计
视频:
12-1 本章概览(01:34)
视频:
12-2 事实表设计过程(09:10)
视频:
12-3 事务、无事实事实表模型设计(08:03)
视频:
12-4 多事务事实表模型设计(06:58)
视频:
12-5 周期快照事实表模型设计(04:24)
视频:
12-6 累积快照事实表模型设计(08:12)
视频:
12-7 聚集事实表模型设计(03:17)
视频:
12-8 六类事实表对比(03:21)
图文:
12-9 【面试官来啦】面试讨论题
第13章 【项目实战第三篇】数据清洗加工,构建项目数据明细层
视频:
13-1 本章概览(01:58)
视频:
13-2 事务无事实事实表模型建模(05:40)
视频:
13-3 日志事务事实表代码实现(上)(16:20)
视频:
13-4 日志事务事实表代码实现(下)(13:53)
视频:
13-5 日志拦截无事实事实表代码实现(08:46)
视频:
13-6 累计快照事实表建模与代码实现(06:50)
视频:
13-7 Spark资源参数调优(18:42)
图文:
13-8 【重难点梳理】Spark资源参数调优
视频:
13-9 大数据量场景下的程序部署与优化实践(11:19)
视频:
13-10 周期性快照事实表模型设计与实现(09:57)
图文:
13-11 【重难点梳理】周期性快照事实表模型设计与实现
图文:
13-12 【面试官来啦】面试讨论题
作业:
13-13 【阶段作业】结合数据进行模型设计
第14章 构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案
视频:
14-1 本章概览(01:08)
视频:
14-2 集群规划与环境准备(09:02)
视频:
14-3 ClickHouse集群安装配置(13:55)
视频:
14-4 ClickHouse集群功能验证(12:05)
视频:
14-5 ClickHouse的原子写入与去重(04:05)
图文:
14-6 ClickHouse分布式集群部署
图文:
14-7 Zookeeper关键优化点
视频:
14-8 复制表与副本同步机制(07:21)
视频:
14-9 分布式表与本地表(06:13)
第15章 【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略
视频:
15-1 本章概览(01:40)
视频:
15-2 负载均衡与高可用五问(03:54)
视频:
15-3 分布式请求的副本高可用和负载均衡(03:16)
视频:
15-4 基于代码层面的负载均衡与高可用(03:17)
视频:
15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用(18:31)
图文:
15-6 【重难点梳理】基于Nginx反向代理TCP/HTTP的负载均衡与高可用
视频:
15-7 基于Chproxy的负载均衡与高可用(14:32)
图文:
15-8 【重难点梳理】基于Chproxy的负载均衡与高可用
视频:
15-9 Spark如何写本地表方案(05:00)
视频:
15-10 Spark写本地表之随机策略代码实现(16:16)
视频:
15-11 Spark写本地表之轮询策略代码实现(04:39)
视频:
15-12 大数据量场景写ClickHouse集群的程序部署与优化(09:34)
视频:
15-13 Spark自定义分片路由与方案总结(03:24)
图文:
15-14 【面试官来啦】面试讨论题
作业:
15-15 【阶段作业】Spark实现分片key的自定义路由策略
第16章 【项目实战第五篇】如何选择合适的维度表存储方案
视频:
16-1 本章概览(02:01)
视频:
16-2 Log系列引擎(05:47)
视频:
16-3 MySQL引擎(09:30)
图文:
16-4 【重难点梳理】MySQL引擎
视频:
16-5 HDFS引擎与HA配置(09:32)
图文:
16-6 【重难点梳理】HDFS引擎与HA配置
视频:
16-7 高性能数据检索的RocksDB引擎(09:44)
图文:
16-8 【重难点梳理】高性能数据检索的RocksDB引擎
图文:
16-9 Kafka引擎
图文:
16-10 JDBC引擎引擎
视频:
16-11 Merge表引擎(05:03)
图文:
16-12 【重难点梳理】Merge表引擎
视频:
16-13 Join表引擎(07:51)
图文:
16-14 【重难点梳理】Join表引擎
视频:
16-15 深入浅出ClickHouse数据字典(上)(20:47)
视频:
16-16 深入浅出ClickHouse数据字典(下)(15:25)
图文:
16-17 【重难点梳理】深入浅出ClickHouse数据字典
视频:
16-18 分布式场景的表关联子查询的运行流程与优化(04:29)
视频:
16-19 分布式场景下的维度表存储选型优化(05:59)
视频:
16-20 项目的维度表存储优化(11:52)
图文:
16-21 【重难点梳理】项目的维度表存储优化
第17章 【项目实战第六篇】数据汇总层与应用查询优化
视频:
17-1 本章概览(01:40)
视频:
17-2 主键与排序键优化(06:11)
视频:
17-3 聚合查询优化(04:45)
视频:
17-4 物化视图提速(05:05)
视频:
17-5 DWS层之IP流量监测主题(14:43)
图文:
17-6 【重难点梳理】DWS层之构建IP流量监测
视频:
17-7 DWS层之区域流量分析主题(11:20)
图文:
17-8 【重难点梳理】DWS层之构建区域流量分析主题
视频:
17-9 构建数据应用层(ADS)(16:42)
图文:
17-10 【重难点梳理】构建AWS数据应用层
视频:
17-11 应用查询优化案例(06:21)
图文:
17-12 【重难点梳理】应用查询优化案例
视频:
17-13 数据写入与查询优化常用经验法则(02:12)
作业:
17-14 【阶段作业】构建违规IP/域名的上下行流量聚集事实表汇总模型
第18章 【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控
视频:
18-1 本章概览(01:41)
视频:
18-2 基于轻量级BI工具的数据可视化效果(02:16)
视频:
18-3 Superset环境搭建与基本使用(13:02)
图文:
18-4 【重难点梳理】Superset环境搭建与基本使用
视频:
18-5 Superset查询分析可视化展示(10:50)
视频:
18-6 Grafana的安装与ClickHouse数据源管理(07:15)
图文:
18-7 【重难点梳理】Grafana的安装与ClickHouse数据源管理
视频:
18-8 Granfana查询分析可视化展示(09:14)
视频:
18-9 ClickHouse监控概述(02:32)
视频:
18-10 ClickHouse系统表+ Granfana可视化监控(02:54)
视频:
18-11 Promethues安装与ClickHouse的metric采集(04:26)
图文:
18-12 【重难点梳理】Promethues安装与ClickHouse的metric采集
视频:
18-13 prometheus + Granfana可视化监控(03:34)
第19章 数仓管理之调度系统DolphinScheduler 3.x
视频:
19-1 本章概览(03:51)
视频:
19-2 我们为什么需要配合调度系统(07:32)
视频:
19-3 DolphinScheduler单机部署(04:32)
视频:
19-4 快速上手DolphinScheduler(12:27)
视频:
19-5 DolphinScheduler源码编译(02:43)
视频:
19-6 DolphinScheduler伪集群安装(14:45)
图文:
19-7 【重难点梳理】dolphinscheduler集群部署
视频:
19-8 工作流管理之子流程管理(03:41)
视频:
19-9 工作流管理之依赖检查管理(07:51)
视频:
19-10 工作流管理之Conditions条件分支判断(05:16)
视频:
19-11 工作流管理之Switch条件分支判断(04:24)
视频:
19-12 本地和HDFS两种文件资源管理方式(15:52)
视频:
19-13 内置参数、本地参数、全局参数和参数传递(14:12)
视频:
19-14 如何动态生成自定义参数(08:15)
视频:
19-15 Spark任务节点管理(10:05)
视频:
19-16 流程告警管理(07:11)
视频:
19-17 数仓项目之文件数据源同步(20:37)
视频:
19-18 数仓项目之Spark工作流调度(09:23)
第20章 构建现代数据技术栈的元数据管理平台
视频:
20-1 本章概览(04:00)
视频:
20-2 为什么数仓管理中需要元数据管理(11:50)
视频:
20-3 元数据体系架构的演进(10:12)
视频:
20-4 DataHub的元数据体系架构(07:03)
视频:
20-5 DataHub元数据系统搭建(09:41)
视频:
20-6 基于Pull(拉取)流程的元数据摄取(03:29)
视频:
20-7 基于Pull的元数据摄取实践(06:56)
视频:
20-8 DataHub的MetaData元数据模型(07:48)
视频:
20-9 基于Kafka的Sink接收器同步MySQL元数据(06:54)
视频:
20-10 ClickHouse的元数据摄取实践(06:08)
视频:
20-11 可视化BI工具的元数据摄取(02:52)
视频:
20-12 构建数据集之间的血缘链路实践(05:18)
视频:
20-13 构建数据集与可视化BI工具的血缘链路实践(04:08)
图文:
20-14 自定义基于元数据事件的实时响应流程最近学习
第21章 通用数据质量管理实践
视频:
21-1 本章概览(03:29)
视频:
21-2 如果数仓不考虑数据质量会有什么危害(06:31)
视频:
21-3 数据质量评估标准(05:55)
视频:
21-4 数据质量管理架构与数据模型(08:23)
视频:
21-5 通用数据质量管理工具之配置逻辑(16:28)
视频:
21-6 通用数据质量管理工具之代码实践(19:54)
视频:
21-7 通用数据质量管理工具之历史周期性质量指标对比(07:36)
视频:
21-8 单数据源的检查之唯一性校验(06:30)
视频:
21-9 单数据源的检查之表字段长度校验(04:51)
视频:
21-10 单数据源的检查之表记录数检查(03:20)
视频:
21-11 单数据源的检查之枚举值校验(04:10)
视频:
21-12 多数据源检查之准确性检查(05:39)
作业:
21-13 【阶段作业】及时性检查和多数据源的值对比功能
资源下载此资源下载价格为35软妹币立即购买,年费会员免费
资源下载
下载价格35 软妹币
0

评论0

请先

                                                  在校大学生直接拍教育优惠VIP,君子协议无需证明
没有账号? 注册  忘记密码?