大数据脚本-大数据脚本文档介绍内容-阿里云

实现开发生产等多套环境隔离

背景信息很多企业用户在大数据的研发流程中有创建并隔离多套环境的需求，如创建并完全隔离开发、测试、生产环境，即各环境的数据物理存储地址、任务运行集群、大数据作业脚本均隔离，并对操作人员有严格的权限管控，如仅运维团队可使用...

SQL脚本模式

当您面对大数据集的ETL任务、自动化定期任务、复杂查询编排等场景时，可以使用MaxCompute当前SQL引擎支持的脚本模式（Script Mode SQL）。在脚本模式下，一个多语句的SQL脚本文件将被作为一个整体进行编译，无需对单个语句进行编译；提交...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

全量备份数据上云（SQL Server 2008 R2云盘、2012及...

RDS SQL Server提供了将本地SQL Server数据库迁移到阿里云RDS SQL Server的数据库上云方案。您只需将本地SQL Server数据库的全量备份数据上传至阿里云的对象存储服务（OSS），然后通过RDS控制台即可将全量备份数据上云至指定RDS SQL Server...

PolarDB数据源

PolarDB数据源为您提供读取和写入PolarDB双向通道的功能，您可以通过向导模式和脚本模式配置同步任务。使用限制离线读写支持读取视图表。实时读来源数据源为阿里云PolarDB MySQL时，您需要开启Binlog。阿里云PolarDB MySQL是一款完全...

ListScripts-查询脚本

BOOTSTRAP 返回参数名称类型描述示例值 object 返回数据 Scripts object[]脚本列表。Action string API 名称。ListScripts RegionId string 区域 ID。cn-hangzhou ScriptId string 脚本 ID。cs-bf25219d103043a0820613e32781*...

通过脚本模式生成API

数据服务支持通过脚本模式或向导模式生成API，相对于向导模式，您可以自行编写API的查询SQL，支持多表关联、复杂查询和聚合函数等功能，满足您个性化查询需求。本文为您介绍如何通过脚本模式生成API。前提条件配置API前，请先在工作空间...

概述

本文为您介绍在MaxCompute Studio上开发SQL脚本的流程、设置SQL编辑器风格和编译相关参数。在MaxCompute Studio上开发SQL脚本流程如下：创建MaxCompute Script Module。编写SQL脚本并提交至MaxCompute服务端。详情请参见开发及提交SQL脚本...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

使用Azkaban调度MaxCompute

您需要将待调度作业依赖的源数据、建表及导入数据脚本、查询数据脚本等以文件形式压缩后上传至Azkaban才可进一步实现调度操作。本文中假设您需要在Azkaban上通过调度功能实现创建表、导入数据、查询数据这一套SQL处理逻辑。基于此场景，您...

脚本模式：高级SQL（Mybatis语法）示例

数据服务支持通过脚本模式来生成API，脚本模式可使用基础SQL或高级SQL语法编写查询逻辑。其中，高级SQL涵盖了Mybatis语法的常见标签类型（例如，if、choose、when、otherwise、trim、foreach、where），您可以借助标签语法来灵活实现空值...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

DDL脚本

创建语句设计好的数据库模型，您可以单击生成DDL脚本，进入 DDL Script编辑器。在 DDL Script编辑器页面中，对象过滤用于过滤需要生成SQL语句的表，类型过滤用于设置需要生成SQL脚本的表、字段、主外键和分区等选项。单击产生脚本，...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

使用实例自定义数据自动配置ECS实例

高级选项（实例RAM角色&实例自定义数据cloud-init）>实例自定义数据输入步骤一：准备实例自定义数据中准备的实例自定义数据脚本。启用伸缩组。具体操作，请参见启用伸缩组。步骤三：验证实例自定义数据的效果由于创建伸缩组时指定组...

实验介绍

涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，加工，质量监控，与数据可视化展现，您需提前开通该服务。详情请参见开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

开发PyODPS脚本

本文为您介绍如何开发PyODPS脚本，以实现与MaxCompute的高效交互和数据处理。前提条件已配置Python开发环境，详情请参见配置Python开发环境。操作步骤在Project区域右键单击 scripts，选择 New>MaxCompute Python。在 Create new ...

数据库导出

更多选项单击 大数据导出选项或 SQL脚本拓展选项，然后选中对应的导出选项。工单附件您可以上传图片或文档对本次的导出操作进行补充说明。配置完成后单击提交申请，等待审批完成。说明您可以在工单详情页的审批区域查看审批进展。工...

ClickHouse数据源

如果您配置离线任务时使用脚本模式的方式进行配置，您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数和writer参数，脚本模式的统一要求请参见通过脚本模式配置离线同步任务，以下为您介绍脚本模式下的数据源的Reader参数...

设置应用生命周期挂载脚本

如果您希望在应用生命周期中的不同阶段（例如启动、重启或停止）配置特定的脚本或代码，用于执行相关任务。您可以在ECS实例上设置应用生命周期挂载脚本，在事件发生时，可以自动执行自定义脚本。挂载脚本定义说明生命周期挂载脚本的运行...

Salesforce数据源

离线任务脚本配置方式如果您配置离线任务时使用脚本模式的方式进行配置，您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数，脚本模式的统一要求请参见通过脚本模式配置离线同步任务，以下为您介绍脚本模式下的数据源的...

RDS MySQL修改字符集（平滑方案）

由于业务需求，需要变更表的字符集（例如从gbk变更为utf8mb4），如果直接使用ALTER命令修改字符集会锁表，当数据表过大时，对业务的影响较大。本文介绍的操作方法需要先在目标实例中创建表结构信息（新字符集），再通过DTS将源实例的数据...

节点运行ECS机器上的脚本

通过DataWorks节点运行ECS机器上脚本的方案仅建议在数据迁移场景下使用，不建议在日常生产中使用。功能概述本文提供了PyODPS、EMR Shell两类节点登录ECS的案例，具体如下：方式一：PyODPS节点通过用户名和密码登录ECS 方式二：PyODPS节点...

常见问题

由于DTS的传输性能受DTS内部、源端和目标端数据库实例的负载、待传输的数据量、DTS实例是否存在增量任务、网络等多种因素影响，所以无法预估DTS任务所需的时间，若对性能有较高要求，建议选择性能上限较大的规格。关于规格的更多信息，请...

开发及提交SQL脚本

说明当SQL中存在变量时，例如上述脚本代码示例中的${bizdate}，会弹出对话框，提示您输入变量值，在本示例中您可以输入 2017-11-11 00:00:00，查询当前分区的表格数据。在SQL任务运行前，IntelliJ IDEA会向您提示预估的SQL费用。确认费用...

手动执行脚本

集群创建完成后，您可以通过手动执行脚本功能批量选择节点来运行指定脚本，以实现个性化需求。本文为您介绍如何添加手动执行脚本。背景信息手动执行功能适用于长期存在的集群，对按需创建的临时集群，应使用引导操作来完成集群初始化工作...

UDF（嵌入式）

本文为您介绍如何通过代码嵌入式UDF（Embedded UDF）将Java或Python代码嵌入SQL脚本。背景信息您可以通过MaxCompute的代码嵌入式UDF解决以下代码实现过程繁琐，且不方便阅读和维护的问题：创建UDF并完成代码开发后，您还需要完成代码编译...

数据库变更管理

背景信息 ODC 支持对数据库中的数据进行变更。用户可以通过数据库变更任务运行耗时较高的 SQL 语句以避免语句执行超时。注意事项只支持对 UPDATE 和 DELETE 变更语句自动生成回滚语句。支持的变更影响行数上限为 100W，超过则不支持自动...

测试数据构建

维护生成测试数据脚本：成本高，且不通用每次都需要修改，数据离散性不足。生产环境数据导出后写入测试环境：数据不安全，存在泄露风险。实际开发过程中可能伴随频繁的数据准备过程，同时需要保障数据安全、数据的离散性特征可控、高效率。...

大数据脚本

新品推荐