上海大数据开发招聘信息-上海大数据开发招聘信息文档介绍内容-阿里云

独享调度资源组

网络连通方案独享调度资源组与其他资源组类似，本质上为一组阿里云ECS实例，在进行数据开发等任务运行时，需保障资源组与数据源之间的网络是连通的，且不会因为白名单等特殊安全访问设置阻断资源组与数据源之间的网络连通性。说明如果独...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎...

在工作空间创建数据源或注册集群

背景信息在DataWorks工作空间中，主要基于数据源或集群执行相关数据同步、数据开发操作。具体如下：数据源 DataWorks支持创建多种类型的数据源，数据源创建成功后，便可在当前工作空间基于该数据源进行数据同步操作。数据同步支持的数据源...

Github实时数据同步与分析

操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化所需费用 0元阿里云提供一定额度的资源包供您免费体验，开通后会使用计算...

产品优势

背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、标签等多种数据的存储及分析，具有高性能、低成本等特点。...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

对于不带分区的Hudi格式，您也可使用单表离线同步方案，但无需在DataWorks数据开发模块创建离线同步任务，直接在DLF控制台中创建关系数据库全量入湖类型的任务即可，具体操作可参考 OSS数据进行格式转换入湖。单表离线同步在DataWorks ...

DataWorks各版本详解

专业版基于DataWorks标准版，增加更专业的数据安全功能，同时增强数据治理、数据服务的功能，完善的数据开发与运维功能，提供产品化的数据治理、数据安全解决方案。此版本适合中小型企业使用。企业版基于DataWorks专业版，在该版本上您...

MaxCompute表数据

您可以在表编辑页面，修改表信息、发布表、查看表的操作日志或进行表模型的数据开发。说明仅DataWorks智能数据建模生成的表会显示模型信息。维度建模概述表权限信息用于查看您当前拥有的表权限，您可以单击点击查看，进入表权限申请 ...

数据开发

重要本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且仅支持在数据集成模块读取数据。用户名输入用户名，示例为 workshop。密码输入密码，示例为 workshop#2017。认证选项无...

文档更新动态（2022年之前）

通用功能 数据开发概述 2020-11-17 运维中心升级功能拓展新增运维大盘功能，为您提供所有任务运行概况、实例分布统计、异常实例统计，便于您及时获取任务运行的状况、了解实例运行的趋势。新增运维列表及批量操作功能，提高运维管理效率...

数据服务

背景信息数据服务提供了数据中台建设过程中的数据服务化能力，面向数据开发者提供覆盖各个加工阶段统一体验的、便捷的数据查询转服务、服务管理、服务运维能力；面向数据资产管理者提供服务的统计分析、服务用量统计分析，实现数据中台...

修饰词

修饰词是基于选择的数据域创建的，是对数据域中的数据不同维度的修饰，用来限定统计数据的业务范围。例如，统计上海区域生鲜门店的销售金额，上海区域和生鲜门店就是对业务范围的限定修饰。前提条件已创建数据域，用于确定修饰词所属的...

PostgreSQL节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点>数据库>PostgreSQL。在新建节点对话框输入节点名称，单击 ...

任务调试流程

调试运行单个任务 数据开发概述，在左侧导航栏的数据开发或手动业务流程模块，双击业务流程目录下的目标节点，进入该节点的编辑页面。调试运行任务。在节点编辑页面，使用节点工具栏中的运行或高级运行调试代码逻辑，也可通过快捷运行调试...

什么是EMR Notebook

产品优势 EMR Notebook可以为大数据用户带来全新的数据分析和数据开发体验。统一平台 EMR Notebook支持多种开发语言，包括SQL和Python等。不论是进行SQL交互式查询还是PySpark程序开发，都可以在同一个开发环境中完成，无需在多种工具中...

无感集成（Zero-ETL）

云原生数据仓库 AnalyticDB PostgreSQL 版提供无感集成（Zero-ETL）功能，可以帮助您一站式完成数据同步和管理，实现事务处理和数据分析一体化，专注于数据分析业务。公测时间 2024年4月1日至6月30日。公测地域华东2（上海）。方案概述 ...

开发数据服务API

物联网数据分析的数据开发任务是使用标准的SQL语句对设备进行数据分析，而API服务可将数据开发任务封装成API，方便开发者调用。API服务既可以直接响应设备端请求，也可以用于服务端数据对接。创建数据分析任务登录数据分析控制台，单击 ...

MaxCompute函数管理

您可以通过MaxCompute函数面板，查看在MaxCompute计算引擎中存在的函数、函数的变更历史，并可以一键添加函数至数据开发面板的业务流程中。查看函数进入 数据开发 页面。登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据...

OpenEvent概述

通过OpenEvent订阅任务变更，实现定制化开发实时任务大屏的数据监控。本文为您介绍OpenEvent支持订阅的事件类型与配置流程。权限说明开放平台管理员和租户管理员拥有开发者后台的读写权限，其他租户级角色、空间级角色仅拥有开发者...

创建Teradata数据源

如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

创建Teradata数据源

如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目...

API概览

删除数据开发项目调用 DeleteFlowProject接口，删除数据开发项目查询工作流信息调用DescribeFlow接口，查询工作流信息。查询作业信息调用DescribeFlowJob接口，查询作业信息。查询项目详情调用 DescribeFlowProject 接口，查询项目...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

新增和使用独享数据集成资源组

您可以使用DataWorks独享数据集成资源组功能，为数据集成同步任务分配独立的计算资源，从而提高任务的执行效率和稳定性。购买独享资源组后，在实际使用前您还需进行网络绑定、白名单等配置操作。本文为您介绍从购买至使用独享数据集成资源...

数据开发与运维中心：数据加工

DataWorks的 数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

入门概述

本模块将指引您快速完成一个完整的数据开发和运维操作。说明如果您是第一次使用DataWorks，请确认已经根据准备工作模块的操作，准备好账号和工作空间角色等内容后，登录DataWorks控制台，单击相应工作空间后的进入数据开发，即可进行...

代码搜索

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在数据开发目录树区域，单击顶部菜单栏的图标，进入代码搜索页面。配置搜索条件并查看搜索结果。...

设置全局Spark参数

背景信息 Apache Spark是用于进行大规模数据分析的引擎。在DataWorks中，您可通过如下方式配置调度节点运行时使用的Spark参数：方式一：配置全局Spark参数设置工作空间级别某DataWorks功能模块运行EMR任务时使用哪个Spark参数，并定义此处...

资源组编排

DataWorks的资源组编排功能，帮助您在数据开发阶段，批量修改指定业务流程下目标节点使用的调度资源组。当您的工作空间中有多个调度资源组时，可以根据实际业务需求，使用该功能快速为目标节点重新分配资源组，促进资源的合理使用。本文为...

查看数据开发操作记录

在数据开发DataStudio界面中，您可在操作历史界面通过操作类型、操作人、操作时间进行筛选，查看人员在当前工作空间中的操作记录。使用说明仅支持查看DataStudio中以下几类操作记录：任务责任人变更操作、任务调度属性变更操作、任务及...

创建DataHub数据源

背景信息 DataHub即阿里云流式数据服务DataHub，如果您使用的是阿里云流式数据服务DataHub，在对接Dataphin进行数据开发时，您需要先完成DataHub数据源的创建。更多DataHub信息，请参见产品概述。权限说明 Dataphin仅支持超级管理员、...

概览

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统，可统一管理企业内...

ETL工作流快速体验

拉链表实现 DataWorks MaxCompute 数据开发 运维中心基于DataWorks on MaxCompute实现拉链存储场景，使用DataStudio 数据开发 与运维中心模块，实现拉链数据加载功能，记录电商订单从开始到当前状态（创建/支付/完成）所有变化信息。...

DataWorks HoloStudio下线公告

尊敬的DataWorks用户：为给您提供一致的开发体验，DataWorks>HoloStudio 产品能力将整合至 DataWorks>数据开发（DataStudio）中，从 2024年2月29日开始，HoloStudio将不再提供服务，届时您可使用DataStudio相关功能继续进行Hologres的数据...

概述

HoloStudio的数据开发模块与DataWorks无缝连接，提供一站式稳定高效的ETL（Extract-Transform-Load）服务，帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下：文件夹用于存放并...

创建Vertica数据源

如果您使用的是Vertica，在对接Dataphin进行数据开发时，您需要先完成Vertica数据源的创建。更多Vertica信息，请参见 Vertica官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤 ...

创建SAP HANA数据源

如果您使用的是SAP HANA，在对接Dataphin进行数据开发或将Dataphin的数据导出至SAP HANA场景中，您需要先完成SAP HANA数据源的创建。更多SAP HANA信息，请参见 SAP HANA官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构...

创建DataHub数据源

背景信息 DataHub即阿里云流式数据服务DataHub，如果您使用的是阿里云流式数据服务DataHub，在对接Dataphin进行数据开发时，您需要先完成DataHub数据源的创建。更多DataHub信息，请参见 DataHub的产品概述。使用限制 Dataphin仅支持超级...

上海大数据开发招聘信息

新品推荐