公共规范

如果多任务刷新输出一个表(不同任务插入不同的分区),DataWorks上需要建立一个依赖多刷新任务的虚拟任务,通常下游应该依赖此虚拟任务。CDM汇总层应优先调用CDM明细层。在调用可累加类指标计算时,CDM汇总层尽量优先调用已经产出的粗...

网站建设方案书

下表列出了备案主体为个人和企业时,需要提供网站建设方案书的场景:备案主体 前缀不一致的域名数量 要求 企业 大于31(不包含31)需提供每域名的网站建设方案书,以及加盖备案专用章的阿里云保证书。相同前缀域名可以不用提供。个人...

SAVEPOINT

SAVEPOINT 在当前事务中建立一个新保存点。简介 保存点是事务内的种特殊标记,它允许所有在它被建立之后执行的命令被回滚,把该事务的状态恢复到它处于保存点时的样子。语法 SAVEPOINT savepoint_name 参数 savepoint_name 给新保存点的...

填写网站/App信息(备案多个网站/App)

省份 备案主体 备案类型 是否支持备案多个网站 是否支持备案多个App 网站/App数目要求 湖北 个人或单位 首次备案、新增互联网信息服务 否 是 同一个ICP备案订单下,一次只能备案一个网站且对应一个域名。湖南 个人或单位 首次备案、新增...

步骤三:创建实时计算表

现在我们需要创建一个订单表对应的实时元表,可以从订单表中读取增量数据。步骤:创建 oms_orders订单来源元表 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,进入 新建表 对话框。在 新建表 页面,配置相关参数。参数 描述...

步骤三:创建实时计算表

现在我们需要创建一个订单表对应的实时元表,可以从订单表中读取增量数据。步骤:创建 oms_orders订单来源元表 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,进入 新建表 对话框。在 新建表 页面,配置相关参数。参数 描述...

准备阿里云账号

步骤三:创建访问密钥AccessKey 为保证后续作业可以顺利运行,您需要创建一个运行密钥AccessKey。该密钥与注册阿里云账号时设置的账号、密码不同,主要用于在阿里云各产品间互相认证时使用权限。AccessKey包括AccessKey ID和AccessKey ...

标签工厂新手指引

当您的应用程序需要使用标签工厂上的标签、群组服务时,您需要先创建一个应用,如营销应用、分析应用等。应用管理用于管理应用,可管理应用的管理员及成员,申请加入应用,查看应用申请的标签、群组等资产,也可查看应用已创建的服务。具体...

创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前,需要先创建对应数据源中数据表的元数据,以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、...

配置离线管道调度依赖

添加本节点上周期 即该节点任务的调度需要依赖于本节点上周期(前1天或前n小时)运行成功。添加依赖 若 自动解析 无法解析出调度依赖关系或 自动解析 生成的上游依赖配置与实际应用不符时,您可手动单击+添加依赖 添加节点的 上游依赖。...

实时研发基本流程概述

现在要开始设计一个营销活动,在活动期间需要实时地统计每产品类型的销售数量,用于快速地支持活动方案调整。以下为数据流向的示意图:订单系统MySQL的数据通过Ververica Flink任务进行实时计算,实时汇总各产品类型的销售数量并写入另...

实时研发基本流程概述

现在要开始设计一个营销活动,在活动期间需要实时地统计每产品类型的销售数量,用于快速地支持活动方案调整。以下为数据流向的示意图:订单系统MySQL的数据通过Ververica Flink任务进行实时计算,实时汇总各产品类型的销售数量并写入另...

变量分类与赋值

变量赋值 说明 日期时间计算表达式 为本地变量赋值时,如果需要针对日期时间进行运算,Dataphin支持以下快捷日期计算操作符:Dataphin 提供基于两日期时间的运算 基于业务日期${bizdate} 的方式:${(yyyyMMdd|yyyy/MM/dd|yyyy-MM-dd)(+|-...

明细数据层(DWD)

为了便于进行独立的分析研究,我们应该为每业务过程建立一个事实表。本教程中,我们选择交易成功这业务过程,建立事务型事实表。确定粒度。事实表中条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:种是...

配置FTP输出组件

导出列头 选择是否导出列头:选择导出,会在每一个文件中的第行输出字段名。选择不导出,则文件的第行为数据。标记完成文件 是否需要标记完成文件。标记完成文件包括 任务级 和 文件级:任务级:任务完成后只会生成一个标记完成文件。...

确定需求

在基于Dataphin构建与管理企业数据中台之前,首先需要确定数仓构建的目标与需求,进行全面的业务调研。您需要了解真实的业务需求是什么,以及确定整个业务系统能解决什么问题。业务调研 充分的业务调研和需求分析是数据仓库建设的基石,...

使用限制

不建议将同一个物理数据库(配置完全相同)配为两数据源。项目管理 项目名称 建议当配置数据源为MaxCompute类型时,项目英文名必须与MaxCompute的Project英文名一致。项目名不可以 LD_/ld_开始,以免与业务板块名冲突,导致查询功能不...

创建Kudu数据源

Kudu仅仅是一个存储层,并不存储数据,因此需要依赖外部的Hadoop处理引擎(MapReduce,Spark,Impala)。Kudu将数据按照列存储格式,存储在底层Linux文件系统中。Kudu适用HTAP场景(例如物联网),对于数据处理系统的复杂性提出了更高的...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置,才可以进行离线集成。本文将指导您如何进行配置。配置说明 使用该功能需要您先在Hive数据源或者Hadoop计算源的...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置,才可以进行离线集成。本文将指导您如何进行配置。配置说明 使用该功能需要您先在Hive数据源或者Hadoop计算源的...

创建FTP数据源

connectPattern:连接模式,包括以下两种:PORT(主动模式):客户端打开一个端口等服务器建立数据连接。PASV(被动模式):服务器打开一个端口等客户端建立数据连接。单击 测试连接,测试数据源是否可以和Dataphin进行正常的连通。测试...

创建FTP数据源

connectPattern:连接模式,包括以下两种:PORT(主动模式):客户端打开一个端口等服务器建立数据连接。PASV(被动模式):服务器打开一个端口等客户端建立数据连接。单击 测试连接,测试数据源是否可以和Dataphin进行正常的连通。重要 ...

Dataphin免费试用申请

说明 每地域仅支持开通一个Dataphin实例,如果您选择的地域已经有一个Dataphin实例,不支持重复开通。若您使用云数据库,开通地域请和数据库所在地域保持一致,否则只能通过公网进行数据传输,可能产生较高数据传输费用,且传输速度可能...

步骤四:规范定义

基本概念 业务实体:业务对象 业务对象是度量的基础,用来反映业务的类属性,这类属性的集合构成一个业务对象,也可以称为一个实体对象。在划分主题域、构建总线矩阵时,需要结合对业务活动的分析定义业务对象。本教程中,创建 产品 及 ...

步骤四:规范定义

基本概念 业务实体:业务对象 业务对象是度量的基础,用来反映业务的类属性,这类属性的集合构成一个业务对象,也可以称为一个实体对象。在划分主题域、构建总线矩阵时,需要结合对业务活动的分析定义业务对象。本教程中,创建 产品 及 ...

资产安全概述

例如:在某时间段内,公司高管需要查看明文的财务数据,您可以将该高管设置在脱敏白名单中及设定有效时间段。在电商领域中,某些特殊场景下需要显示真实销售额用于宣传,您可以开启将某个用户设置在脱敏白名单中及设定有效的时间段,这样...

资产安全概述

例如:在某时间段内,公司高管需要查看明文的财务数据,您可以将该高管设置在脱敏白名单中及设定有效时间段。在电商领域中,某些特殊场景下需要显示真实销售额用于宣传,您可以开启将某个用户设置在脱敏白名单中及设定有效的时间段,这样...

实时模式时间参数配置

为了规避在 任务参数 处经常漏掉配置 stat_date,您只需要在实时任务配置的属性配置中新增 stat_date 的 kv 配置,其中 Value 是一个基于业务时间的表达式,同时您也可以配置多时间参数,使用半角分号;分割。例如:stat_date=${yyyyMMdd-...

实时模式时间参数配置

为了规避在 任务参数 处经常漏掉配置 stat_date,您只需要在实时任务配置的属性配置中新增 stat_date 的 kv 配置,其中 Value 是一个基于业务时间的表达式,同时您也可以配置多时间参数,使用半角分号;分割。例如:stat_date=${yyyyMMdd-...

数仓构建流程

本文为您介绍如何基于阿里巴巴OneData方法论最佳实践,使用Dataphin助力企业数据中台的建设与管理,快速构建标准、规范的数据仓库。数仓构建流程 下图为使用Dataphin构建数据仓库的基本流程。基本概念 在正式学习本教程之前,您需要了解...

创建PYTHON计算任务

代码审核人为当前项目的项目管理员(多项目管理员时,任意一个审批通过即可正常提交)。后续步骤 如果您的开发模式是Dev-Prod模式,则需要发布Python任务。更多信息,管理发布任务。如果您的开发模式是Basic模式,则提交成功后的Python...

管理元数据

一个数据表只能创建一个元数据。数据对象 数据对象即治理项,包括 物理表、逻辑表 和 任务节点。指标注册 每数据表都有一个必填字段。您也可以通过单击 添加字段,详情请参见 编辑元数据。单击 保存,完成元数据的创建。编辑元数据 重要 ...

管理元数据

一个数据表只能创建一个元数据。数据对象 数据对象即治理项,包括 物理表、逻辑表 和 任务节点。指标注册 每数据表都有一个必填字段。您也可以通过单击 添加字段,详情请参见 编辑元数据。单击 保存,完成元数据的创建。编辑元数据 重要 ...

运行设置

如果您不需要开启Shell和Python模板任务全局共享资源开关,可以手动切换为关闭,也可以键 恢复默认值。单击 保存,即可开启全局共享资源的开关。重要 每次修改配置前已经生成的运行实例不受影响。后续步骤 开启共享资源开关后,您就可以...

新建基线监控

基线一旦建立后,会按照调度依赖关系自动识别圈定需要被纳入监控范围的任务,并按照设定的预警时间和承诺时间,在被保障对象数据可能延迟产出的情况下发送基线告警。基线范围内的任务可设置更高优先级以优先分配资源。本文为您介绍如何进行...

新建基线监控

基线一旦建立后,会按照调度依赖关系自动识别圈定需要被纳入监控范围的任务,并按照设定的预警时间和承诺时间,在被保障对象数据可能延迟产出的情况下发送基线告警。基线范围内的任务可设置更高优先级以优先分配资源。本文为您介绍如何进行...

数据下载配置

可选择开启或关闭其中任数据是否支持下载或需要审批。是否支持下载 默认开启,开启后该项目数据结果可被下载;若关闭,则该项目数据结果不可被下载。是否需要审批 当是否需要审批 开启 时,需选择审批模板,支持 项目管理员审批、板块...

数据下载配置

可选择开启或关闭其中任数据是否支持下载或需要审批。是否支持下载 默认开启,开启后该项目数据结果可被下载;若关闭,则该项目数据结果不可被下载。是否需要审批 当是否需要审批 开启 时,需选择审批模板,支持 项目管理员审批、板块...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

配置DM(达梦)输入组件

多表:适用于将多表的业务数据同步至同一个目标表的场景。多表的数据写入同一个数据表时,使用union算法。union说明,请参见 交集(INTERSECT)、并集(UNION)和补集(EXCEPT)。表 选择来源表:如果 来源表量 选择了 单表,则单击 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云虚拟主机 云安全中心 域名 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用