跳到主要内容

5 篇博文 含有标签「数据仓库」

查看所有标签

· 阅读需 1 分钟

Hbase 存储和查询维度数据

  • Hbase 数据分析效率低 分析函数少,Hbase数据分析涉及磁盘读取数据,比较版本,聚合导致效率低下

ClickHouse 存储和查询宽表数据

  • 更擅长数据分析而不是查询明细,维度数据不宜存放 ClickHouse

· 阅读需 103 分钟

数仓开发之ODS层

采集到 Kafka 的 topic_log 和 topic_db 主题的数据即为实时数仓的 ODS 层,这一层的作用是对数据做原样展示和备份。

数仓开发之DIM层

DIM层设计要点:

(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。

(2)DIM层的数据存储在 HBase 表中

DIM 层表是用于维度关联的,要通过主键去获取相关维度信息,这种场景下 K-V 类型数据库的效率较高。

常见的 K-V 类型数据库有 Redis、HBase,而 Redis 的数据常驻内存,会给内存造成较大压力,因而选用 HBase 存储维度数据。

(3)DIM层表名的命名规范为dim_表名

· 阅读需 32 分钟

数据仓库概述

数据仓库概念

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。

数据仓库核心架构

img

· 阅读需 11 分钟

什么是数据仓库

数据仓库是一个为数据分析而设计的企业级数据管理系统。

数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。

同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。

什么是数据湖

数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式。