大数据级别-大数据级别文档介绍内容-阿里云

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

创建Kudu数据源

在新建数据源对话框的 大数据存储区域，选择 Kudu。如果您最近使用过Kudu，也可以在最近使用区域选择Kudu。同时，您也可以在搜索框中，输入Kudu的关键词，快速筛选。在新建Kudu数据源对话框中，配置连接数据源参数。配置数据源的...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

数据质量概述

功能介绍数据质量支持对常见大数据存储（MaxCompute、E-MapReduce Hive、Hologres等）进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度，配置质量监控规则。并可以将质量监控规则与调度节点进行关联，当任务...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

数据传输与迁移概述

对数据可见延迟容忍度高（可接受偶发小时级别数据可见延迟）。对请求延迟容忍度高（可接受偶发分钟级别请求延迟）。典型场景。类型典型场景数据库Binlog采集数据集成-数据库实时数据同步。DTS。日志采集数据集成-实时数据同步（SLS）。...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

BITWISE_OR_AGG

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 bigint bitwise_or_agg...

BITWISE_AND_AGG

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 bigint bitwise_and_agg...

HISTOGRAM

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 map,bigint>histogram(K ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

MAP_AGG

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 map,V>map_agg(K a,V b);参数...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

开通或关闭数据共享

目前仅支持表级别数据共享。开启实例的数据共享登录云原生数据仓库AnalyticDB PostgreSQL版控制台。在控制台左上角，选择实例所在地域。在左侧导航栏中，单击数据共享。在数据共享实例页面，选中需要开启数据共享的实例，单击添加。...

COUNT_IF

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 bigint count_if(boolean)...

VAR_SAMP

关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。命令格式 double var_samp()参数说明 ...

概述

高性能版支持不同隐私级别数据的混合处理，包括明文表与明文表、明文表与密文表、密文表与密文表的数据集混合联表计算。计算结果可加密输出，进一步确保数据安全。数据控制权密钥管理支持使用自有密钥（BYOK），让用户拥有密钥的完全控制...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

功能特性

审计日志权限管理权限管理为确保MaxCompute项目数据的安全性，项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控，确保权限不会过大也不会过小。权限管理管理&运维 MaxCompute提供用户可视化运维、管理功能，方便...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

用户权限说明

ADB 支持以下四个粒度的权限控制：GLOBAL：集群级别 DB：数据库级别 TABLE：表级别 COLUMN：列（字段）级别 Kafka 作为目标端的权限说明如果 Kafka 存在鉴权，请参见新建 Kafka 数据源。Kafka 用户需要具备进行以下操作的权限：创建和...