离线数仓构建流程概述

本教程将 从前期的资源准备、数仓规划,到后期的运维补数据、查看运行结果,指导您如何使用Dataphin完成基本的离线数仓构建。以帮助您快速了解Dataphin离线数仓建设的基础流程。使用Dataphin进行离线数仓建设的基本流程如下:主流程 描述 ...

离线数仓构建流程概述

本教程将 从前期的资源准备、数仓规划,到后期的运维补数据、查看运行结果,指导您如何使用Dataphin完成基本的离线数仓构建。以帮助您快速了解Dataphin离线数仓建设的基础流程。使用Dataphin进行离线数仓建设的基本流程如下:主流程 描述 ...

新用户免费试用

新用户试用教程推荐 试用教程推荐 示例场景 涉及产品 操作难度 数仓加速查询 了解搭建离线数仓的思路,学习离线数仓中Hologres的加速查询功能和大屏展示效果。Hologres MaxCompute(可选)DataV PAI+Hologres基于大模型搭建企业级知识库 ...

搭配云HBase和Spark构建一体化数据处理平台

融合云Kafka+云HBase X-Pack能够构建一体化的数据处理平台,支持风控、推荐、检索、画像、社交、物联网、时空、表单查询、离线数仓等场景,助力企业数据智能化。方案架构 下图是业界广泛应用的大数据中台架构。说明 其中HBase和Spark选择云...

数仓加速查询

示例架构 搭建离线数仓时,Hologres可直接读取离线数仓MaxCompute中的数据,并对接BI分析工具将数据实时展示在大屏中,示例架构如图所示。其中:待处理数据:本实践使用GitHub公开事件作为示例数据,更多关于数据集的介绍请参见 业务与数据...

什么是ETL

离线数仓加速:通过流数据处理先将数据预处理至数仓,后续再对数仓数据进行深度挖掘。既不影响业务库运行,也能满足离线数仓对外服务。报表提速:构建实时报表体系,不仅大幅提升报表产出效率,还能支持更多实时分析场景,满足了企业数字化...

流式ETL

离线数仓加速:通过流数据处理先将数据预处理至数仓,后续再对数仓数据进行深度挖掘。既不影响业务库运行,也能满足离线数仓对外服务。报表提速:构建实时报表体系,不仅大幅提升报表产出效率,还能支持更多实时分析场景,满足了企业数字化...

Iceberg概述

对比项 子项目 开源Clickhouse实时数仓 开源Hive离线数仓 阿里云Iceberg数据湖 系统架构 架构 计算存储一体 计算存储分离 计算存储分离 多计算引擎支持 不支持 支持 支持 数据存储在对象存储 不支持 支持不完善 支持 数据存储在HDFS 不支持...

构建数据仓库

方案优势:阿里云实时数仓全套链路与离线数仓无缝打通。满足一套存储,两种计算(实时计算和线计算)的高性价比组合。产品组合:DataHub+实时计算Flink+交互式分析+MaxCompute+DataWorks+Quick BI/DataV 场景说明:数据采集:通过...

数据集成支持的数据源

整库迁移 适用于将本地数据中心或在ECS上自建的数据库,同步数据至离线数仓(Hive)、大数据计算服务等场景。例如,将ECS上自建的MySQL数据库的数据迁移至MaxCompute中。线集成支持的数据源 数据源 读取 写入 大数据存储型数据源 ...

准备数据源和计算源

Dataphin支持为MaxCompute计算引擎的离线数仓添加加速计算源,以满足对查询速度有要求的业务场景。如果需要加速业务数据的查询速度,则您需要完成Hologres的准备。如何开通Hologres,请参见 购买Hologres。如何创建Flink项目,请参见 Flink...

准备数据源和计算源

Dataphin支持为MaxCompute计算引擎的离线数仓添加加速计算源,以满足对查询速度有要求的业务场景。如果需要加速业务数据的查询速度,则您需要完成Hologres的准备。如何开通Hologres,请参见 购买Hologres。如何创建Flink项目,请参见 Flink...

画像分析-标签宽表

背景信息 离线数仓模型中,用户标签数据被分隔成面向主题、维度的多张表,这样的组织形式便于体系化的构建标签系统及数据维护管理。在线画像分析服务如果按照这样的数据模型组织标签数据,不可避免的需要Join多张标签表来完成多标签的过滤...

离线集成概述

应用场景 DMS线集成提供的批量处理数据功能,可应用于以下场景:通过低代码可视化编辑的方式快速搭建离线数仓,支持即席查询、多维分析、数据挖掘、线计算等数仓应用场景。解决企业复杂大数据批处理难题,支持企业精细化运营、数据营销...

数据集成支持的数据源

整库迁移 适用于将本地数据中心或在ECS上自建的数据库,同步数据至离线数仓(Hive)、大数据计算服务等场景。例如,将ECS上自建的MySQL数据库的数据迁移至MaxCompute中。实时集成 适用于将来源端数据源中整库或全部表的数据变化实时集成至...

数据导入方式介绍

离线数仓加速 线数据运行在MaxCompute等离线数仓上,单天数据增量达到几十GB甚至TB级,需要每天导入数据到 AnalyticDB MySQL 进行数据加速分析。使用方法 数据导入方式分为常规导入(默认)和弹性导入。常规导入在计算节点中读取源数据,...

产品优势

多场景支持:支持离线数仓搭建、数仓提速、线数据分析、数据中台搭建、大规模数据集成、线计算、异构数据集成等。低门槛:近乎零代码,简单配置连线后即可满足各项线数据集成任务,同时任务支持复杂调度。基于资产的虚拟湖:配合数据...

基于Flink+Hologres搭建实时数仓

传统离线数仓搭建的方法论比较明确,通过定时调度实现数仓分层(ODS->DWD->DWS->ADS);但对于实时数仓的搭建,目前缺乏明确的方法体系。基于Streaming Warehouse理念,实现数仓分层之间实时数据的高效流动,可以解决实时数仓分层问题。...

分析外部OSS上的数据

该架构有几个典型的瓶颈点:将离线数仓分析结果导入关系型数据库时,存在导入速度慢和存储成本高等问题;数据应用层(ADS)并不只是简单的查询数据和分析结果,也存在大量的计算,甚至会将线数据和实时数据进行聚合分析,此时,行存格式...

基于Flink+Hologres搭建实时数仓

传统离线数仓搭建的方法论比较明确,通过定时调度实现数仓分层(ODS->DWD->DWS->ADS);但对于实时数仓的搭建,目前缺乏明确的方法体系。基于Streaming Warehouse理念,实现数仓分层之间实时数据的高效流动,可以解决实时数仓分层问题。...

基于GitHub公开事件数据集的离线实时一体化实践

本文为您介绍如何基于GitHub实时事件数据通过MaxCompute构建离线数仓、通过Flink和Hologres构建实时数仓,然后通过Hologres和MaxCompute分别进行实时与线数据分析,从而实现实时线一体化解决方案。背景信息 随着社会数字化发展,企业对...

文档修订记录

新说明 Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库或Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的离线实时一体化分析能力。新用户免费...

基于GitHub公开事件数据集的离线实时一体化实践

本文为您介绍如何基于GitHub实时事件数据通过MaxCompute构建离线数仓、通过Flink和Hologres构建实时数仓,然后通过Hologres和MaxCompute分别进行实时与线数据分析,从而实现实时线一体化解决方案。背景信息 随着社会数字化发展,企业对...

离线实时一体化数仓

以下为您系列讲解阿里云离线实时一体化数仓的能力,帮助您设计构建离线实时一体化数仓离线实时一体化概要介绍 主要产品:MaxCompute、Hologres、Flink、DataHub 课程时长:8分钟 离线实时一体化方案核心能力解读 主要产品:MaxCompute ...

2022年

新说明 系统讲解阿里云离线实时一体化数仓的能力,帮助您设计构建离线实时一体化数仓离线实时一体化数仓 2022-07-14 字符串函数。更新说明 新增 regexp_extract_all 函数。字符串函数 2022-07-13 新增模拟IDC Spark读写MaxCompute实践。...

离线实时一体化数仓

以下为您系列讲解阿里云离线实时一体化数仓的能力,帮助您设计构建离线实时一体化数仓。课程视频列表 课程简介 课程内容:离线实时一体化概要介绍。主要产品:MaxCompute、Hologres、Flink、DataHub 课程时长:8分钟 课程内容:离线实时...

Doris概述

使用场景 数据源经过各种数据集成和加工处理后,通常会入库到实时数仓Doris和离线湖仓(Hive、Iceberg和Hudi中),如下图所示。Apache Doris被广泛应用在以下场景中。报表分析 实时看板(Dashboards)。面向企业内部分析师和管理者的报表。...

产品简介

服务内容 服务大类 服务类型 服务内容 大数据专家咨询服务 大数据技术架构方案咨询 为客户提供构建和优化大数据体系的技术架构方案咨询服务,覆盖离线/实时数仓体系建设管理、数仓建模管理,数据开发管理,数据安全管理、数据质量管理、...

什么是MaxCompute

离线实时一体 与实时数仓Hologres深度融合,支持外部表关联查询,支持存储层直读,查询效率相比其他类型外部表高5倍以上。Hologres针对MaxCompute支持查询加速,数据无需移动,查询加速10倍以上。Hologres支持MaxCompute元数据的批量导入,...

Hologres开发规范

数据域规范 数仓分层 数据仓库以分层建设为主包含如下几类分层,其中CDM包含DWD、DWS、DIM。在Hologres中通过Schema隔离不同的分层。ODS(Operational Data Store):操作数据层 CDM(Common Data Model):公共维度模型层 DWD(Data ...

支持的云服务

支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute深度融合,提供离线实时一体化全栈数仓解决...

画像分析-RoaringBitmap优化方案

产生这种错误的原因是 cust_type、shop_id 两个字段存在一定的关联性,在数仓模型中 cust_type 是 shop_id 维度的指标数据,脱离统计维度单独使用指标是错误的。因此可以将维度 shop_id 和指标 cust_type 组合值作为构建Bitmap的单元,生成...

LTS(原BDS)服务介绍

MaxCompute/Hive->Lindorm 离线数据查询加速,将数仓中的明细、指标等数据批量回流Lindorm提供在线查询。待补充,目前可联系值班咨询 Lindorm 数据导出 ODPS(MaxCompute)重要 该功能自2023年6月16日下线,2023年6月16日后购买的LTS 不再...

离线同步常见问题

本文为您介绍离线同步的相关问题。文档概述 问题分类 相关文档 离线同步任务运维常见问题 为什么数据源测试连通性成功,但是离线同步任务执行失败?如何切换数据集成任务执行资源组?脏数据如何排查和定位?如何查看脏数据?如果离线同步...

标签资产市场概述

离线调用次数:指的是在指定的统计时间范围内,引用该标签的标签离线服务、群组离线服务、群组分页查询服务的成功调用实例。引用次数:标签被其他标签或群组直接引用的次数(仅包括统计发布版本)。订阅情况:标签订阅情况的数据信息。...

功能特性

OSS数据湖加速 MaxCompute 在Hologres中可以创建MaxCompute外表,加速离线数据查询,也可以通过SQL方式将MaxCompute数据离线导入至Hologres,实现进一步的数仓快速查询,满足BI分析等业务。通过创建外部表加速查询MaxCompute数据 Holo ...

概述

离线下载预览行为50。使用MaxCompute数据源时,需要Access Key对应的账号具有Create Table权限。除MaxCompute以外的数据源,需添加以下白名单列表,否则会导致无法使用自助取功能:47.101.107.0/24 106.15.146.0/24 106.15.145.0/24 ...

计费说明-半托管

智能研发版定价 数据处理单元规格 定价(CNY/年)500 298,000 1000 397,800 1500 497,600 2000 597,400 2500 697,200 3000 797,000 数据处理单元统计规则:数据处理单元总量=(数据同步任务+数据集成任务)/3+计算任务离线和实时)...

离线计算任务提交说明

完成离线计算任务开发并提交时,Dataphin系统将自动解析任务中表和字段的血缘关系及确认任务对象的变更类型、变更内容以及对您提交的计算任务进行前置检查,以确保您提交的任务符合提交条件,降低错误任务提交的可能性。血缘关系解析说明 ...

阿里云实时数仓产品Hologres的应用场景

Hologres兼容PostgreSQL生态,是新一代的 阿里云实时数仓产品,与大数据生态无缝连接,支持实时与离线数据,对接第三方BI工具,实现可视化分析业务。本文为您介绍基于Hologres核心功能的典型应用场景。Hologres的典型应用场景如下:搭建...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 钉钉会议 云消息队列 Kafka 版 数据传输服务 云原生数据仓库 AnalyticDB PostgreSQL版 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用