jupyter notebook 在 linux 下安装,并实现远程登陆
安装Anaconda
- 首先安装
按照官网指引即可完成本地安装
懒得看官网往下看
首先进行下载 Anaconda installer for Linux 编写时Anaconda版本已经支持到 Python3.7 (请自行安装)
按照官网指引即可完成本地安装
懒得看官网往下看
首先进行下载 Anaconda installer for Linux 编写时Anaconda版本已经支持到 Python3.7 (请自行安装)
利用 mysql catalog,mysql cdc,flink jdbc 等技术实现 mysql 整库迁移至下游数据库,这里是示范 mysql to mysql ,其他 sink 组件可自行扩展实现。
通过 flink ParameterTool,可以选择是整库同步还是多表亦或单表同步,可以设置全局并发,源表 mysql 参数,目标表 mysql 参数
采集到 Kafka 的 topic_log 和 topic_db 主题的数据即为实时数仓的 ODS 层,这一层的作用是对数据做原样展示和备份。
数仓开发之DIM层
DIM层设计要点:
(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。
(2)DIM层的数据存储在 HBase 表中
DIM 层表是用于维度关联的,要通过主键去获取相关维度信息,这种场景下 K-V 类型数据库的效率较高。
常见的 K-V 类型数据库有 Redis、HBase,而 Redis 的数据常驻内存,会给内存造成较大压力,因而选用 HBase 存储维度数据。
(3)DIM层表名的命名规范为dim_表名