大数据公共工作组-大数据公共工作组文档介绍内容-阿里云

问题汇总

补数据补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？...为什么不能在调度资源组上进行大数据计算？其他如何设置任务优先级？

通过脚本模式生成API

所选DataWorks服务资源组和API网关实例的类型不同，允许设置的超时时间上限不同：API网关共享实例：公共服务资源组不超过30000ms，独享数据服务资源组不超过30000ms。API网关专享实例：公共服务资源组不超过30000ms，独享数据服务资源组不...

独享调度资源组

网络连通方案独享调度资源组与其他资源组类似，本质上为一组阿里云ECS实例，在进行数据开发等任务运行时，需保障资源组与数据源之间的网络是连通的，且不会因为白名单等特殊安全访问设置阻断资源组与数据源之间的网络连通性。说明如果独...

数据开发

说明 DataWorks为您提供了独享数据集成资源组供您使用，公共数据集成（调试）资源组即将下线，详情请参见 DataWorks公共数据集成（调试）资源组下线公告，建议数据同步任务均使用独享数据集成资源组。购买独享数据集成资源组。登录并进入 ...

创建CDH MR节点

使用限制不支持公共调度资源组运行该类型任务。步骤一：创建CDH MR节点进入数据开发页面。登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键...

创建CDH Hive节点

如果您已部署CDH集群并希望借助DataWorks执行Hive任务（例如，数据查询作业或处理批量数据），可以使用CDH Hive节点。本文为您介绍如何创建CDH Hive节点。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于...

创建CDH Presto节点

使用限制不支持公共调度资源组运行该类型任务。步骤一：创建CDH Presto节点进入数据开发页面。登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间（本实践以使用标准模式工作空间为例，简单模式的操作类似）。操作详情请参见开通DataWorks服务、创建工作空间。开通云原生大数据计算服务MaxCompute，并创建MaxCompute项目。操作详情请...

创建EMR Hive节点

您可以创建EMR（E-MapReduce）HIVE节点，通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库，完成海量日志数据的分析和开发工作。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务...

公共节点

在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择场景模式。将鼠标悬停至公共节点，单击图标。在公共节点页面，单击新建节点...

添加用户和数据源

工作组管理员：拥有工作组内的最大权限，例如工作组内开发基本信息的修改和读取、对工作组内的数据进行分析等。工作组 选择需要管理的工作组。说明仅用户角色授权 工作组管理员时需要设置该配置。单击确定。添加数据源登录云原生...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点，便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...

文档修订记录

开放平台概览 2023年4月更新记录时间特性类别描述产品文档 2023.4.23 新增功能数据集成数据集成的MaxCompute同步任务默认使用公共传输资源上传、下载数据至MaxCompute，为满足您业务增长对传输资源的更高要求，MaxCompute推出了独享...

GetPublicDataset-查询公共数据集详情

西蒙斯基因组多样性计划(Simons Genome Diversity Project,SGDP)是目前世界上最大、质量最高的人群多样性基因组数据。Copyright string 公共数据集版权信息此数据集公开提供给所有人使用，但使用者需遵循数据集来源规定的条款(Fort ...

新增和使用独享调度资源组

说明如果您暂无连通数据库实例的需求，只是为了缓解因公共调度资源组的资源紧张，导致任务延迟的问题，则无需关注本文涉及的网络相关问题。您可以购买任意可用区的独享调度资源组，且无需进行网络相关配置操作。您需要先了解独享调度资源...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

周期性调度作业概述

您需按需购买数据同步所需的资源组（例如，包年包月的独享数据集成资源组、按量付费的公共数据集成（调试）资源组），支付相应的资源组费用。说明 DataStudio界面使用运行、带参运行功能执行的任务，不会收取调度费用。没有实际执行成功的...

2023年

JSON_SET 2023-10-09 新增Sugar BI连接MaxCompute 新说明 Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台，MaxCompute支持您将MaxCompute项目数据接入Sugar BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用Sugar ...

DB2数据源

使用限制 DB2 Reader和DB2 Writer仅支持使用新增和使用独享数据集成资源组，不支持使用公共资源组和自定义资源组。DB2 Writer通过数据同步框架获取Reader生成的协议数据，通过 insert into（当主键/唯一性索引冲突时，冲突的行会写不...

创建EMR Impala节点

说明访问公共网络或VPC网络环境的数据源需要使用与数据源测试连通性成功的调度资源组。详情请参见配置资源组与网络连通。如果您后续执行任务需要修改使用的资源组，您可单击带参运行图标，选择需要更换的调度资源组。使用SQL语句创建...

数据开发概述

进入数据开发登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。数据开发主要功能数据开发（DataStudio）的主要功能介绍如下。您可参考数据开发相关概念辅助理解。...

Elasticsearch数据源

背景信息 Elasticsearch在公共资源组上支持Elasticsearch5.x版本，在独享数据集成资源组上支持Elasticsearch5.x、6.x和7.x版本。独享数据集成资源组的详情请参见新增和使用独享数据集成资源组。Elasticsearch是遵从Apache开源条款的一款...

执行补数据并查看补数据实例（新版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

创建EMR Shell节点

登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。创建业务流程。如果您已有业务流程，则可以忽略该步骤。鼠标悬停至图标，选择新建业务流程。在新建业务流程 ...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

04解决方案实例化

实例化是指将解决方案包中的数据写入到当前工作组对应模块中，以便当前工作组复用解决方案包中的数据。本文介绍如何进行解决方案实例化操作。前提条件已成功导入解决方案，具体操作，请参见新建工作组并导入解决方案。操作步骤登录数据...

执行补数据并查看补数据实例（旧版）

在当前周期任务的DAG图中，结合DAG的聚合功能，按照工作空间、所属责任人或优先级等维度将节点划分为组，直接勾选该节点组，快速添加目标类别的节点为补数据节点。实例的DAG图，详情请参见附录：DAG图功能介绍。在周期任务界面，通过目标...

逆向建模：物理表反向建模

公共层用于加工、整合贴源层输入的公共数据，建立统一的指标维度，构建可复用面向分析和统计的明细事实数据和汇总数据；应用层基于实际应用需求，获取公共层加工整合后的数据，面向具体应用场景或指定产品进行的个性化数据统计。创建的模型...

了解数据资源平台用户和角色体系

数据资源平台提供了完善的权限管控机制，支持以租户或工作组为管控粒度，通过对用户授予不同的角色实现全局或工作组内的各组件功能权限管控。本文为您详细介绍租户、工作组粒度下的角色体系。背景信息数据资源平台功能权限是基于角色的...

MySQL节点

说明访问公共网络或VPC网络环境的数据源需要使用与数据源测试连通性成功的调度资源组。详情请参见配置资源组与网络连通。如果您后续执行任务需要修改使用的资源组，您可单击带参运行图标，选择需要更换的调度资源组。使用SQL语句创建...

创建EMR Spark SQL节点

说明访问公共网络或VPC网络环境的数据源需要使用与数据源测试连通性成功的调度资源组。详情请参见配置资源组与网络连通。如果您后续执行任务需要修改使用的资源组，您可单击带参运行图标，选择需要更换的调度资源组。使用SQL语句创建...

创建数仓分层

各个分层的功能介绍如下：数据引入层 ODS（Operational Data Store）ODS层用于接收并处理需要存储至数据仓库系统的原始数据，其数据表的结构与原始数据所在的数据系统中的表结构一致，是数据仓库的数据准备区。ODS层对原始数据的操作具体...

公告

新增支持OpenGauss数据源、SAP Table数据源、StarRocks数据源、Hudi数据源、Doris数据源、Greenplum数据源。资产质量新增跨源两表字段统计值一致性的质量规则模板，用于跨数据源的数据对比；有效性/字段格式校验的规则模板增加like表达式；...

新建工作组并添加成员

租户下各工作组数据互相隔离，同一个租户下可以新建多个工作组。本文为您介绍如何创建工作组，并设置相应的成员角色。前提条件当前账号具有租户管理员或工作组管理员角色权限。操作步骤登录数据资源平台控制台。在页面右上角，单击图标...

预览物理表

已在工作组中分别添加数据源类型为MaxCompute、RDS MySQL的数据源，具体操作，请参见新建云计算资源。操作步骤登录数据资源平台控制台。在页面左上角，选择>协同。在顶部菜单栏，单击图标，选择目标工作组。在左侧导航栏，单击图标，...

数据开发：开发者

说明目前DataWorks的节点分为数据同步类型节点与计算类型节点两大类，实际开发过程中，您通常需要先通过离线同步任务将业务数据库中的数据同步至数仓中，再通过DataWorks计算节点对数仓中的表数据进行清洗加工。创建节点。您可通过如下两...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

零售电商数据建模

实施工作流可以参考下图：说明上面示意图引用自阿里巴巴数据技术及产品部《大数据之路：阿里巴巴大数据实践》，部分修改。数仓规划相关概念业务分类：业务分类是某一大类的业务的指标和维度的集合。在后续模型设计过程中，可将模型归属到...

运行MySQL to MaxCompute离线同步任务

已在工作组中分别添加数据源类型为MaxCompute、RDS MySQL的数据源，具体操作，请参见新建云计算资源。已获取数据源的物理表，具体操作，请参见获取物理表。已新建周期任务“信用卡客户数据上云_d”，具体操作，请参见创建离线周期任务。...

实例化解决方案

实例化是指将解决方案包中的数据写入到当前工作组对应模块中，以便当前工作组复用解决方案包中的数据。本文介绍如何实例化解决方案。前提条件已成功导入解决方案，具体操作，请参见导入解决方案。操作步骤登录数据资源平台控制台。在...

大数据公共工作组

新品推荐