数仓构建流程

本文为您介绍如何基于阿里巴巴OneData方法论最佳实践,使用Dataphin助力企业数据中台的建设与管理,快速构建标准、规范的数据仓库。数仓构建流程 下图为使用Dataphin构建数据仓库的基本流程。基本概念 在正式学习本教程之前,您需要了解...

开通Dataphin

系统支持选择的 地域 包括:华东2(上海)华南1(深圳)华北2(北京)华东1(杭州)版本 系统默认开通 智能研发版(离线&实时)。计算引擎 系统仅支持 MaxCompute 引擎。数据处理单元 系统默认开通 200,如果您希望开通更高规格数据处理...

规范定义最佳实践

当数据的业务含义存在较大差异时,您可以创建不同的数据板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照数据板块进行划分。在Dataphin中,项目可以归属至数据板块以实现规范建模功能,同一个数据板块中可能包含多个不同的项目...

规范定义最佳实践

当数据的业务含义存在较大差异时,您可以创建不同的数据板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照数据板块进行划分。在Dataphin中,项目可以归属至数据板块以实现规范建模功能,同一个数据板块中可能包含多个不同的项目...

设置Dataphin实例的计算引擎

校验成功后,单击 确认并开始数据建设,即可开始数据建设。后续步骤 完成设置Dataphin实例的计算引擎后,您就可以准备后续数据研发过程中用于读取和写入数据的数据源、用于提供计算资源的计算源。具体操作,请参见 准备数据源和计算源。

资产安全概述

应用场景 基于Dataphin实现数据安全保护的一些典型的场景:场景1:业务数据中敏感数据保护 您可以使用资产安全的敏感数据识别和保护功能,脱敏明文敏感数据,保证业务数据安全。例如,姓名张三脱敏后*三。场景2:开发环境数仓建设 敏感数据...

资产安全概述

应用场景 基于Dataphin实现数据安全保护的一些典型的场景:场景1:业务数据中敏感数据保护 您可以使用资产安全的敏感数据识别和保护功能,脱敏明文敏感数据,保证业务数据安全。例如,姓名张三脱敏后*三。场景2:开发环境数仓建设 敏感数据...

采购单创建结果消息

采购单创建消息,采购下单完成异步返回的消息 消息体 名称 类型 描述 示例值 event string 消息类型 PurchaseOrderCreate body distributorId String 分销商ID 12*01 purchaserId String 采购方ID outerPurchaseOrderId String 创建时传入...

数仓规划概述

数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在您开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。功能介绍 数仓规划包括逻辑空间与物理空间...

概念建模概述

背景信息 在建设数据中台的流程中,一般的首要任务是对整个业务进行前置调研,如先盘点出参与业务的人员、事物和基本规则定义,并理清人、事、物之间的关系和发生的各种交互行为。在全面了解业务的架构和运行情况后,产出业务的概念模型。...

概念建模概述

背景信息 在建设数据中台的流程中,一般的首要任务是对整个业务进行前置调研,如先盘点出参与业务的人员、事物和基本规则定义,并理清人、事、物之间的关系和发生的各种交互行为。在全面了解业务的架构和运行情况后,产出业务的概念模型。...

Dataphin免费试用申请

申请信息填写完后,勾选 我已阅读并同意《Dataphin智能数据建设与治理试用服务协议》,单击 免费试用,体验Dataphin功能。相关文档 试用开通成功后,您可按照 Dataphin新手引导 一步步体验Dataphin的研发流程,也可按照 导入模型 来导入...

逻辑结构说明

例如最近1天、最近30天等(类似于SQL中Where后的时间条件)。统计粒度 统计分析的对象或视角,用于圈定数据的统计范围,您也可以理解为聚合运算时的分组条件(类似于SQL中Group By的对象)。统计时效 派生指标的计算频次,即派生指标产出的...

元数据仓库共享模型概述

元数据共享模型存储方式及产出时效说明 元数据共享模型是一系列元数据相关的物理表,基于Dataphin的系统元数据和相应计算引擎的元数据加工汇总而成,存在Dataphin元仓租户下的元仓项目中,产出时效为T+1。背景信息 什么是元数据仓库?...

创建MySQL数据源

常用于网站、应用程序和商业产品,是一种常见的主要关系数据存储系统。更多详情请参见 MySQL官网。使用限制 Dataphin仅支持 超级管理员、数据源管理员、板块架构师、项目管理员 角色创建数据源。操作步骤 在Dataphin首页,单击顶部菜单栏的...

划分主题域

主题域 业务过程举例 会员和店铺域 注册、登录、装修、开店、关店 商品域 发布、上架、下架、重发 日志域 曝光、浏览、单击 交易域 下单、支付、发货、确认收货(交易成功)服务域 商品收藏、拜访、培训、优惠券领用 采购域 商品采购(供应...

答疑支持

若您在使用智能数据建设与治理Dataphin的过程中有任何疑问,您可通过答疑支持联系我们,为您答疑解惑。操作步骤 在Dataphin页面,按照以下操作指引或单击蓝色小机器人选择 答疑支持,进入答疑支持页面后,输入您需解答的问题。依次单击 ...

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力,包括产品、技术和方法论等,可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

离线数仓构建流程概述

使用Dataphin进行离线数仓建设的基本流程如下:主流程 描述 操作指导 准备工作 使用Dataphin进行离线数仓建设前您需完成相关云资源的准备。云资源准备包括阿里云账号资源准备、Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置...

离线数仓构建流程概述

使用Dataphin进行离线数仓建设的基本流程如下:主流程 描述 操作指导 准备工作 使用Dataphin进行离线数仓建设前您需完成相关云资源的准备。云资源准备包括阿里云账号资源准备、Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置...

快速入门

如果您是首次使用智能数据建设与治理Dataphin,您可以参考快速入门文档,了解如何购买实例并接入服务端。Dataphin全托管 Dataphin全托管快速入门 Dataphin半托管 Dataphin半托管快速入门

步骤五:开发指标

本文为您介绍如何完成本教程的 最近1天西湖龙井品类订单总金额 派生指标开发。操作步骤 在Dataphin首页,单击顶部菜单栏的 研发。默认进入数据 开发 页面。按照下图操作指引,进入 新建派生指标 配置向导页面。在 新建派生指标 配置向导...

步骤五:开发指标

本文为您介绍如何完成本教程的 最近1天西湖龙井品类订单总金额 派生指标开发。操作步骤 在Dataphin首页,单击顶部菜单栏的 研发。默认进入数据 开发 页面。按照下图操作指引,进入 新建派生指标 配置向导页面。在 新建派生指标 配置向导...

DML操作

插入单条数据 INSERT INTO<table_name>VALUES(value1,value2,value3.);更多信息请参见 插入单条数据。插入多条数据 INSERT INTO<table_name>SELECT;更多信息请参见 插入多条数据。单值分区表插入数据 INSERT INTO TABLE<table_name>...

配置限速流程组件

本文为您介绍如何配置限速流程...速度上限 选择数据传输的速度上限:如果您选择 基于数据量限制,则需选择 1M/s、2M/s、5M/s、10M/s。如果您选择 基于数据条数限制,则需填写限制的条数,例如30条/s。单击确定,完成限速流程组件的属性配置。

配置Spark SQL任务参数

参数名称 参数默认值 描述 spark.executor.instances 1 静态分配的执行器数量。spark.executor.cores 1 每个执行器上使用的核心数量。spark.executor.memory 1G 执行程序进程使用的内存量。spark.yarn.am.memory 512M 客户端模式下YARN ...

Dataphin出网IP地址

VPC网络下Dataphin的出网IP地址 地域(推荐)通用IP地址 地域IP地址 华东2(上海)1 00.104.0.0/16 100.104.228.128/26、100.104.115.192/26 华南1(深圳)100.104.48.128/26 华北2(北京)100.104.238.64/26 华东1(杭州)100.104.45.0/26...

应用场景

价值:数据建设统一:数据标准规范定义。数据研发提效:自动化代码生成。战略决策高效:数据分析准确,数据需求响应及时。推荐搭配组合:Dataphin+MaxCompute MaxCompute详情请参见 什么是MaxCompute。输出主题式数据服务,提高数据化运营...

数仓规划概述

数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的一步。在您开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。功能介绍 数仓规划包括逻辑空间与物理空间...

配置限速流程组件

速度上限 选择数据传输的速度上限:如果您选择 基于数据量限制,则需选择 1M/s、2M/s、5M/s、10M/s。如果您选择 基于数据条数限制,则需填写限制的条数,例如30条/s。单击 确认,完成 限速 流程组件的属性配置。后续步骤 完成流程组件的...

管理数据分级

敏感程度 填写数据分级的敏感程度,支持输入1~100的整数。分级描述 填写分级的描述。支持汉字、字母、数字或下划线(_),不超过100个字符。单击 确定,完成数据分级的创建。查看数据分级 在 数据分级 页面,查看系统中的数据分级及每个...

管理数据分级

敏感程度 填写数据分级的敏感程度,支持输入1~100的整数。分级描述 填写分级的描述。支持汉字、字母、数字或下划线(_),不超过100个字符。单击 确定,完成数据分级的创建。查看数据分级 在 数据分级 页面,查看系统中的数据分级及每个...

数据同步概述

说明 系统默认为同步任务分配0.5核CPU、1GB内存,暂不支持扩大资源量。配置同步任务的调度参数,详情请参见 调度配置。说明 系统仅支持周期性节点的同步任务进行调度配置。编写代码的方式构建代码任务,以实现数据同步的流程:可选:上传...

运行配置

配置建议 您可根据您的业务需求和以下配置建议进行设置:一次性运行:取当前租户下即席查询、计算任务试运行、逻辑表冒烟测试、集成任务试运行等平均运行时长的最大值+1小时。周期任务:取当前租户下所有的周期调度任务运行时长的最大值+1...

运行配置

配置建议 您可根据您的业务需求和以下配置建议进行设置:一次性运行:取当前租户下即席查询、计算任务试运行、逻辑表冒烟测试、集成任务试运行等平均运行时长的最大值+1小时。周期任务:取当前租户下所有的周期调度任务运行时长的最大值+1...

数据同步概述

说明 系统默认为同步任务分配0.5核CPU、1GB内存,暂不支持扩大资源量。配置同步任务的调度参数,详情请参见 调度配置。说明 系统仅支持周期性节点的同步任务进行调度配置。编写代码的方式构建代码任务,以实现数据同步的流程:可选:上传...

步骤八:验证数据

即派生指标是否能够统计到 最近1天西湖龙井品类订单总金额。操作步骤 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,进入 新建即席查询 对话框。在 新建即席查询 对话框,配置参数。参数 描述 名称 输入为 数据验证。描述 ...

步骤八:验证数据

即派生指标是否能够统计到 最近1天西湖龙井品类订单总金额。操作步骤 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,进入 新建即席查询 对话框。在 新建即席查询 对话框,配置参数。参数 描述 名称 输入为 数据验证。描述 ...

实时模式时间参数配置

实时任务的时间参数可用于实时计算任务的运行时间偏移。文本将为您介绍如何配置实时模式的时间参数。...例如:stat_date=${yyyyMMdd-1},则任务运行过程中的开始执行时间为${yyyyMMdd-1}。单击 确定,完成任务实时模式的资源配置。

实时模式时间参数配置

实时任务的时间参数可用于实时计算任务的运行时间偏移。文本将为您介绍如何配置实时模式的时间参数。...例如:stat_date=${yyyyMMdd-1},则任务运行过程中的开始执行时间为${yyyyMMdd-1}。单击 确定,完成任务实时模式的资源配置。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 DDoS防护 云服务器 ECS 微服务引擎 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用