大数据功能-大数据功能文档介绍内容-阿里云

使用OSS清单功能备份大数据量OSS文件

在大数据量的OSS备份场景中，云备份使用OSS清单功能进行备份，可显著提升备份的效率和性能。云备份提供了灵活的备份策略配置选项，可以将数据备份到云端，并随时查看和恢复数据。本文介绍如何使用云备份来备份OSS Bucket中大量的文件。...

文档修订记录

管理控制台功能概览 2023.7.18 新增功能数据集成为您介绍如何LogHub（SLS）实时ETL同步至Hologres任务 LogHub（SLS）实时ETL同步至Hologres 2023.7.16 新增功能数据建模为您提供由派生指标通过运算规则进行计算而形成的复合指标，帮助...

数据分析：即时快速分析

功能概述数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景适合更多非专业数据开发人员，如数据分析、产品、运营等工作...

2021年

2021-12 功能名称功能描述发布时间发布地域相关文档支持向导式开通MaxCompute到VPC中Hadoop Hive 和数据湖构建DLF+OSS的连接支持一站式创建到VPC的网络连接、数据源连接以及湖仓一体外部项目，代替原有的工单开通方式，时间从天级别...

功能发布记录（2024年）

2024.4.12 所有地域所有DataWorks用户自动化治理-物化视图 2024-03 功能名称描述发布时间发布地域使用客户相关文档新版补数据功能上线周期任务开发完成并提交发布后会按照调度配置定时运行，若您希望在指定时间段运行周期任务，可...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

新功能试用申请

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。功能说明和使用请参见（邀测）MaxCompute Notebook使用说明。2023年3月项目开启Volume权限 External Volume是MaxCompute提供的分布...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

离线同步能力说明

离线同步任务使用调度参数，再结合运维中心补数据功能，可实现基于一套任务配置，批量将历史数据同步至目标数据库或数据仓库指定表或表指定分区。调度参数说明请参见：调度参数支持的格式。说明分库分表支持MySQL、SQL Server、Oracle...

公告

此功能对应MaxCompute管理控制台的配额（Quota）管理，配额（Quota）管理已经全部覆盖原有能力，同时还支持了预留弹性能力，支持数据传输独享Quota的管理等，交互体验上也有了很大的提升，详情请参见项目管理（新版）。作业运维：运维...

数据服务：低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台，旨在为企业提供全面的数据共享能力，帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述作为数据仓库与上层应用系统间的...

数据地图：统一管理，跟踪血缘

DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。数据地图以数据搜索为基础，提供表使用说明、数据类目、数据血缘、字段血缘等工具，帮助数据表的使用者和拥有者更好地管理数据、协作开发。

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

数据源概述

数据源功能概述配置数据源时，您需要了解如下内容：能力说明数据源支持情况与配置在配置数据集成同步任务前，您需要提前在DataWorks数据源管理页面配置好需要同步的数据源。数据集成目前支持几十种数据源，目前支持的数据源及其配置...

开放平台：能力全面开放

开放API（OpenAPI）通过OpenAPI可以实现您的自有应用与DataWorks的深度集成，例如实现批量创建任务、发布任务、运维任务等，提升您的大数据处理效率，减少人工操作成本。关于OpenAPI功能，具体请参见开放API（OpenAPI）。开放事件...

功能发布记录（2023年）

2023-12 功能名称功能描述发布时间发布地域使用客户相关文档数据开发（DataStudio）绑定数据源若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）...

ModifyProtectionModuleMode

调用ModifyProtectionModuleMode接口修改指定WAF防护功能模块（包括正则防护引擎、大数据深度学习引擎、CC安全防护、数据风控、主动防御等模块）中的防护模式。您可以通过设置 DefenseType参数值指定防护功能模块。具体参数值的含义，请...

RDS迁移至MaxCompute实现动态分区

您可以通过DataWorks的运维中心，选择当前的同步数据节点，使用补数据功能实现。在RDS端按照日期筛选出历史数据。您可以在同步节点数据来源区域设置数据过滤条件。执行补数据操作。详情请参见执行补数据并查看补数据实例。在运行的...

DescribeProtectionModuleMode

调用DescribeProtectionModuleMode接口获取指定域名配置中各WAF防护功能模块（包括正则防护引擎、大数据深度学习引擎、CC安全防护、数据风控、主动防御等模块）当前采用的防护模式。您可以通过设置 DefenseType参数值指定防护功能模块。...

函数概述

功能介绍数据服务支持的函数类型包括Aviator函数、Python函数，您可以在数据服务中创建函数、测试函数、发布函数，发布后的函数可被进一步关联至API，作为API的过滤器，对API的请求参数或返回结果进行加工处理，从而实现API的复杂查询...

开放平台概览

功能简介开放API（OpenAPI）DataWorks开放平台的OpenAPI功能为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。您还可以在OpenAPI区域查看...

作业优先级

您可以通过基线管理功能集中设置整条数据链路上各个作业的优先级，无需单独处理每个作业。DataWorks的基线管理功能详情请参见基线管理。DataWorks的基线优先级为1、3、5、7或8，数值越大，优先级越高。当您通过DataWorks的基线管理功能...

采集数据

确认字段映射及通用配置 DataWorks通过配置源端与目标端字段映射关系，实现源端指定字段数据写入目标端指定字段，同时提供并发设置并发读写数据、提供限速功能避免同步对数据库造成影响、提供脏数据影响定义及分布式执行任务等功能。...

采集数据

DataWorks通过配置源端与目标端字段映射关系，实现源端指定字段数据写入目标端指定字段，同时提供并发设置并发读写数据、提供限速功能避免同步对数据库造成影响、提供脏数据影响定义及分布式执行任务等功能。本教程使用默认配置。关于其他...

功能特性

资源观测作业运维 MaxCompute提供作业运维管理功能，数据开发人员和管理员可通过MaxCompute控制台的作业运维功能查看历史作业和正在运行的作业，方便了解作业运行详情：包括参数配置、角色授权、Package、Tables、Resources、UDF管理等...

支持Flink可恢复性写入JindoFS或OSS

背景信息可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质，在大数据场景下保证了数据的安全性和一致性。在Flink作业中的用法通用配置为了支持EXACTLY_ONCE语义写入JindoFS或OSS，您需要执行如下配置：打开Flink的检查点...

简介

当历史数据量较大时，可通过冷数据自动转储功能，将数据存放到OSS中，减少70%以上的成本。百亿量级的轨迹查询（比如查询某段时间、某空间范围内经过的轨迹）只需亚秒级。与spark平台无缝衔接，可以提供类似轨迹相似度、OD分析等强大功能。...

数据及时性监控

本文为您介绍如何使用DataWorks智能监控的规则管理功能监控数据的及时性。前提条件如果您想使用完整的智能监控功能，需要购买标准版及以上版本DataWorks，详情请参见 DataWorks各版本详解。关于DataWorks智能监控功能详情请参见智能基线...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。功能概述 ...

Transaction Table2.0概述

更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储、计算解决方案，本文为您介绍本方案可解决的业务痛点和主要架构功能。现状分析当前典型...

功能发布记录 2022年之前

2021-12 功能名称功能描述发布时间发布地域相关文档数据质量支持选择规则模板来批量配置数据质量规则。DataWorks数据质量支持选择规则模板来批量配置数据质量规则，简化配置难度：支持选择表级规则模板，批量给多张表配置规则。支持...

数据开发概述

数据开发主要功能数据开发（DataStudio）的主要功能介绍如下。您可参考数据开发相关概念辅助理解。类型描述对象组织及管理 DataWorks数据开发提供的对象组织与管理机制如下：对象组织：提供解决方案>业务流程两级管理模式。...

测试数据构建

说明若您使用的是极简模式的控制台，请单击控制台左上角的图标，选择全部功能>数据库开发>环境构建>测试数据构建。在测试数据构建工单列表页，单击右上角的测试数据构建。说明您还可以在目标数据库的SQL窗口中，右键单击目标表，在...

2023年

2023-03-30 全部地域向量计算（Proxima CE）概述支持External Volume非结构化数据存储能力 External Volume是MaxCompute提供的非结构化大数据存储方案，是OSS路径在数仓中的映射和管理对象。2023-03-30 全部地域 External Volume操作 ...

功能发布记录（2022年）

所有DataWorks用户数据集成审批策略数据保护伞新增敏感数据血缘可视化图谱新增敏感数据血缘可视化图谱，功能如下：基于数据的生产信息解析出敏感字段之间的血缘关系，将其中敏感字段类型相同的血缘关系进行识别结果扩散，极大提高识别...

EMR Spark功能增强

EMR版本组件版本功能增强 EMR-5.2.1 Spark 3.1.1 支持数据湖格式Delta Lake和Hudi。支持Remote Shuffle Service。支持Livy。优化E-MapReduce控制台上，Spark服务配置页面的 spark-defaults 页签的配置项名称。优化CBO（Cost-Based ...

时序引擎版本说明

功能优化优化写入性能。修复单值查询超时后，读资源未释放的问题。修复使用lastest函数查询时，指定的Table未过滤时间分区的问题。修复使用SQL写入数据可能导致OOM的问题。3.4.26 发布日期类型说明 2023年03年14日新特性数据文件支持...

数据保护伞入门

数据保护伞是一款数据安全管理产品，提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文示例使用内置规则对 xc_dpe_e2_dev 项目的 phone 数据脱敏，并...

大数据 功能

新品推荐

大数据功能