数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控,您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下:分析业务场景,对数据流转链路上的整个依赖关系,进行资产...

使用DataHub(实时数据传输)

DataHub 是MaxCompute提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用。DataHub同样提供流式数据归档的功能,支持流式数据归档至...

数据质量衡量

在了解保障基于MaxCompute的数据仓库数据质量的方案后,您还需要进一步学习如何制定一套标准度量方案,以及判断质量监控方案是否合适业务需求以及如何改进。例如,针对每一个数据质量事件,必须分析原因和处理过程,制定后续同类事件预防...

基于混合负载的查询优化

Batch模式:采用批计算架构,通过DAG进行任务切分,分批调度,满足有限资源下大数据计算,支持计算数据落盘,适用于计算,吞吐高的复杂分析场景。资源池混合负载隔离 AnalyticDB MySQL版弹性版本支持资源池多租户隔离。通过一个实例...

MaxCompute湖仓一体概述

MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。本文介绍如何通过MaxCompute和异构数据...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本,包括1.0数据类型、2.0数据类型以及Hive兼容数据类型,您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

流式ETL

数据传输服务DTS提供的流式数据ETL(Extract Transform Load)功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务,并结合DTS的高效流数据复制能力,可以实现流式数据的抽取、数据转换和加工、数据...

什么是ETL

数据传输服务DTS提供的流式数据ETL(Extract Transform Load)功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务,并结合DTS的高效流数据复制能力,可以实现流式数据的抽取、数据转换和加工、数据...

JSON_TYPE

返回JSON数据所属的数据类型名称。命令格式 string|number|boolean|null|object|array json_type()参数说明 json:必填,待处理的JSON表达式。返回值说明 返回STRING类型。使用示例 示例1:返回JSON内的数据类型(array类型)。select json...

常见术语

云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案...

操作审计事件数据迁移至MaxCompute

审计事件投递 区域:选择 将事件投递到大数据计算服务MaxCompute。选择 投递到本账号,设置如下参数。参数 描述 大数据计算服务地域 被投递数据的MaxCompute项目所在地域。说明 操作审计会将审计日志投递至MaxCompute指定地域的...

数据资产定级

数据的资产等级,可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下:毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。全局性质:数据直接或间接用于企业级...

什么是云原生数据湖分析

云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB\NoSQL)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统...

查询并下载数据

通过即席查询您可以根据当前的业务情况自定义并执行查询语句和下载查询的数据。例如,当完成计算任务开发后,您可以通过即席查询验证计算任务是否符合预期。本文为您介绍如何新建即席查询并下载结果数据。背景信息 即席查询任务使用您当前...

概述

MaxCompute Tunnel是MaxCompute的数据通道,您可以通过Tunnel向MaxCompute中上传或者下载数据。MaxCompute提供的 数据上传和下载工具 是基于Tunnel SDK编写的。本文将为您介绍Tunnel SDK的主要接口,不同版本的SDK在使用上有所差别,准确...

InstanceTunnel

使用InstanceTunnel下载数据时,如果数据条数超过10000,则需要对Instance上的SQL查询语句中涉及到的所有源表进行权限检查,用户需要具有所有源表的Read权限才可使用。如果用户访问的Endpoint是公网对应的地址,具体公网Endpoint地址请参见...

近实时增量导入

实际业务数据处理场景中,涉及的数据源丰富多样,可能存在数据库、日志系统或者其他消息队列等系统,为了方便用户将数据写入MaxCompute的Transactional Table 2.0,MaxCompute深度定制开发了开源 Flink Connector工具,联合DataWorks数据...

数据质量管理流程

本文为您介绍数据质量管理概念、数据管理流程。数据质量管理是通过划分数据资产等级和分析元数据的应用链路,对不同资产等级的数据采取相对应的质量管理方式。数据质量管理流程图如下。数据管理流程说明如下:分析业务场景,根据应用的影响...

TRANSFORM

将ARRAY数组 a 的元素利用 func 进行转换,返回一个新的ARRAY数组。命令格式 array<R>transform(array...相关函数 TRANSFORM函数属于复杂类型函数,更多对复杂类型数据(例如ARRAY、MAP、STRUCT、JSON数据)的处理函数请参见 复杂类型函数。

存储费用

MaxCompute会对存储的数据(例如表或资源)及备份的数据,按照数据容量大小进行计费。本文为您介绍存储费用的计费规则。背景信息 MaxCompute数据的压缩比一般在5倍左右,因此多数情况,您上传的数据文件大小与实际存储在MaxCompute的大小...

查看账单详情

大数据计算服务MaxCompute(按量付费闲时版)、消费类型为 后付费:指当日该账号开通MaxCompute按量付费闲时版中所有按量付费账单的汇总,包括计算的按量计费账单。大数据计算服务MaxCompute(包月)、消费类型为 后付费:指当日该账号开通...

ProjectProtection

开启或关闭项目空间的数据保护机制。您只能在项目空间中访问数据数据只能在项目空间内流动,不允许流出到项目空间之外,以提高数据的安全性。使用限制 本文中的命令您需要在 MaxCompute客户端 执行。本命令为CMD命令,仅支持在客户端...

转换计费方式

Quota作为MaxCompute计算资源的单元,默认计算Quota的计费方式即代表项目计费方式,修改项目默认计算Quota即可转换计费方式。前提条件 您已经开通MaxCompute的 按量计费 和 包年包月 规格。转换计费方式说明 按量计费 与 包年包月 规格的...

MASK_HASH

返回基于字符串表达式(expr)计算的Hash值。Hash值相同证明表达式的值相同。命令格式 mask_hash()参数说明 expr:必填。需要计算Hash值的字符串表达式。支持STRING、CHAR、VARCHAR、BINARY类型。返回值说明 返回字符串表达式计算出的Hash...

ARRAY_REMOVE

待删除的元素,数据类型必须与 a 中元素的数据类型相同。返回值说明 返回ARRAY类型。返回规则如下:如果ARRAY数组 a 中存在元素为NULL时,NULL值不参与运算。如果ARRAY数组 a 或 element 为NULL,返回NULL。ARRAY数组 a 中不存在 element ...

POSEXPLODE

将ARRAY数组 a 展开,每个Value一行,每行两列分别对应数组从0...pos|val|+-+-+|0|a|1|c|2|f|3|b|+-+-+相关函数 POSEXPLODE函数属于复杂类型函数,更多对复杂类型数据(例如ARRAY、MAP、STRUCT、JSON数据)的处理函数请参见 复杂类型函数。

配额

配额(Quota)是MaxCompute的计算资源池,为MaxCompute SQL、MapReduce、Spark、Mars、PAI等计算作业提供所需计算资源(CPU及内存)。您可以根据实际业务合理设置配额组,确保资源的合理分配和利用,防止某一部分任务占用过多资源而影响...

PyODPS概述

PyODPS提供了 to_pandas 接口,可以直接将MaxCompute数据转化成Pandas DataFrame数据结构,但这个接口只应该被用于获取小规模数据做本地开发调试使用,而不是用来规模处理数据,因为使用这个接口会触发下载行为,将位于MaxCompute中的...

兼容性概览

为了帮助您更清晰地使用外部工具连接访问MaxCompute,本文将为您介绍MaxCompute支持连接的数据库管理工具,以及工具与MaxCompute在数据库连通性、列举数据库、查看表等方面的兼容性。数据库管理工具与MaxCompute的兼容性如下。工具 连接...

组件与数据类型的兼容

不支持 不支持 PAI 支持除Decimal之外的其它数据类型 2.0新增的数据类型中仅支持INT 部分功能支持map数据类型 不支持 不支持 PyODPS 支持 DataFrame不支持2.0数据类型 其它功能都支持2.0数据类型 支持 DataFrame不支持2.0数据类型 其它功能...

概述

PolarDB 是阿里巴巴自研的新一代 云原生数据库,在存储计算分离架构,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL 5.6/5.7/8.0,PostgreSQL 11,PostgreSQL 14,高度兼容...

概述

PolarDB 是阿里巴巴自研的新一代 云原生数据库,在存储计算分离架构,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL 5.6/5.7/8.0,PostgreSQL 11,高度兼容Oracle。PolarDB ...

常见问题

MaxCompute提供数据备份与恢复功能,MaxCompute会自动备份数据的历史版本(被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。更多备份恢复信息,请参见 备份与恢复。不同项目的表是否...

ARRAY_JOIN

将ARRAY数组 a 中的元素使用 delimiter 拼接为字符串。当数组中元素为NULL时,用 nullreplacement 替代...相关函数 ARRAY_JOIN函数属于复杂类型函数,更多对复杂类型数据(例如ARRAY、MAP、STRUCT、JSON数据)的处理函数请参见 复杂类型函数。

ZIP_WITH

将ARRAY数组 a 和 b 的元素按照位置,使用 combiner 进行元素级别的合并,返回一个新的ARRAY数组。...相关函数 ZIP_WITH函数属于复杂类型函数,更多对复杂类型数据(例如ARRAY、MAP、STRUCT、JSON数据)的处理函数请参见 复杂类型函数。

安全操作

MaxCompute提供项目数据保护机制,为数据安全提供保障。本文为您介绍常用安全操作命令。安全操作常用命令如下。详细安全相关操作请参见 安全参数列表。类型 功能 角色 操作入口 开启项目数据保护 开启项目的数据保护机制。项目Owner或授予...

使用客户端(odpscmd)或Studio

MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载,本文为您概要介绍如何在对应的工具中使用Tunnel命令或Tunnel SDK上传数据至MaxCompute。使用Tunnel命令下载数据 Tunnel命令主要有 Upload...

CORR

计算两列数据的皮尔逊系数(Pearson Correlation Coefficien)。此函数为MaxCompute 2.0扩展函数。命令格式 double corr(,)参数说明 col1、col2:必填。...相关函数 CORR函数属于数学函数,更多数据计算、数据转换的相关函数请参见 数学函数。

JSON_EXTRACT

解析JSON表达式中对应json_path的数据,注意json_path非法时会报错。命令格式 json json_extract(,)参数说明 json:必填,待处理的JSON。json_path:必填,需要返回的值的JSON路径。返回值说明 返回JSON类型。使用示例 示例1:从JSON中获取...

CLEAR EXPIRED GRANTS

相关命令 SET LABEL:为表或列数据设置敏感等级标签。GRANT LABEL:由Project Owner或具备Admin角色的用户为低级别用户授予访问高敏感等级数据的权限。REVOKE:由Project Owner或具备Admin角色的用户撤销Label显式授权。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 云服务器 ECS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用