数据上云场景

MaxCompute平台提供了丰富的数据上传下载工具,可以广泛应用于各种数据上云的应用场景,本文为您介绍三种经典数据上云场景。Hadoop数据迁移 您可使用MMA、Sqoop和DataWorks进行Hadoop数据迁移。使用DataWorks结合DataX进行Hadoop数据迁移的...

其它操作

需要注意的是,如果UDF涉及分区裁剪,由于无法确定最终会扫描多少个分区,该场景下的费用无法预估。说明 该信息不能作为实际计费标准,仅供参考,实际费用请以账单为准。命令格式 cost sql;参数说明 sql_sentence:待估算费用的SQL语句。...

数据质量衡量

在了解保障基于MaxCompute的数据仓库数据质量的方案后,您还需要进一步学习如何制定一套标准度量方案,以及判断质量监控方案是否合适业务需求以及如何改进。例如,针对每一个数据质量事件,必须分析原因和处理过程,制定后续同类事件预防...

步骤二:规划数仓

在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息 数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。本教程以 ...

步骤二:规划数仓

在开始数据开发前,需要完成数据仓库的规划,包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息 数据板块:数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。本教程以 ...

CORR

计算两列数据的皮尔逊系数(Pearson Correlation Coefficien)。此函数为MaxCompute 2.0扩展函数。命令格式 double corr(,)参数说明 col1、col2:必填。...相关函数 CORR函数属于数学函数,更多数据计算、数据转换的相关函数请参见 数学函数。

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控,您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下:分析业务场景,对数据流转链路上的整个依赖关系,进行资产...

准备环境

为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...

配额

配额(Quota)是MaxCompute的计算资源池,为MaxCompute SQL、MapReduce、Spark、Mars、PAI等计算作业提供所需计算资源(CPU及内存)。您可以根据实际业务合理设置配额组,确保资源的合理分配和利用,防止某一部分任务占用过多资源而影响...

就绪检测节点

在场景运行开始时,就绪检测节点可检测数据源是否符合设定的条件,如果不符合,则无法继续运行场景。本文介绍就绪检测节点的配置参数说明。节点属性 节点属性 界面关键参数说明如下:参数 说明 节点名称 节点的名称。节点标识 节点的唯一...

组件与数据类型的兼容

不支持 不支持 PAI 支持除Decimal之外的其它数据类型 2.0新增的数据类型中仅支持INT 部分功能支持map数据类型 不支持 不支持 PyODPS 支持 DataFrame不支持2.0数据类型 其它功能都支持2.0数据类型 支持 DataFrame不支持2.0数据类型 其它功能...

近实时增量导入

实际业务数据处理场景中,涉及的数据源丰富多样,可能存在数据库、日志系统或者其他消息队列等系统,为了方便用户将数据写入MaxCompute的Transactional Table 2.0,MaxCompute深度定制开发了开源 Flink Connector工具,联合DataWorks数据...

就绪检测节点

在场景运行开始时,就绪检测节点可检测数据源是否符合设定的条件,如果不符合,则无法继续运行场景。本文介绍就绪检测节点的配置参数说明。节点属性 节点属性 界面关键参数说明如下:参数 说明 节点名称 节点的名称。节点标识 节点的唯一...

ProjectProtection

开启或关闭项目空间的数据保护机制。您只能在项目空间中访问数据数据只能在项目空间内流动,不允许流出到项目空间之外,以提高数据的安全性。使用限制 本文中的命令您需要在 MaxCompute客户端 执行。本命令为CMD命令,仅支持在客户端...

导入数据

数据查询提供数据导入功能,可将数据直接进行导入,并且提供快速预览和一键探查。本文介绍如何导入数据。前提条件 已新建导入数据所需的云计算资源,具体操作,请参见 新建云计算资源。说明 支持进行数据导入的云计算资源有:RDS MySQL、...

导入数据

数据查询提供数据导入功能,可将数据直接进行导入,并且提供快速预览和一键探查。本文介绍如何导入数据。前提条件 已新建导入数据所需的云计算资源,具体操作,请参见 新建云计算资源。说明 支持进行数据导入的云计算资源有:RDS MySQL、...

兼容性概览

为了帮助您更清晰地使用外部工具连接访问MaxCompute,本文将为您介绍MaxCompute支持连接的数据库管理工具,以及工具与MaxCompute在数据库连通性、列举数据库、查看表等方面的兼容性。数据库管理工具与MaxCompute的兼容性如下。工具 连接...

数据质量管理流程

本文为您介绍数据质量管理概念、数据管理流程。数据质量管理是通过划分数据资产等级和分析元数据的应用链路,对不同资产等级的数据采取相对应的质量管理方式。数据质量管理流程图如下。数据管理流程说明如下:分析业务场景,根据应用的影响...

数据资产等级定义

本文为您介绍数据资产等级的定义,以及如何定义生产链路上的相关数据的资产等级。数据资产等级定义 根据数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度划分数据的资产等级。通常,划分为5个性质的等级:毁灭性质:数据...

引擎简介

云原生多模数据库 Lindorm 流引擎面向实时数据处理场景,支持使用标准的SQL及熟悉的数据库概念完成一站式的实时数据处理,适用于车联网、物联网和互联网中常见的ETL、实时异常检测和实时报表统计等场景。本文介绍Lindorm流引擎的应用场景和...

使用DataHub(实时数据传输)

DataHub 是MaxCompute提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用。DataHub同样提供流式数据归档的功能,支持流式数据归档至...

整体架构

云原生数据仓库AnalyticDB MySQL版 是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述 自2012年第一次在集团发布上线以来,AnalyticDB MySQL版 至今已累计迭代发布近百个版本,支撑起集团内的电商、广告、物流、...

导入数据

本文为您介绍如何通过MaxCompute客户端,使用Tunnel Upload将本地数据文件中的数据导入创建好的表中。前提条件 请确认您已满足如下条件:已创建表。更多创建表操作,请参见 创建表。已将CSV或TXT数据文件下载至本地。本文提供的数据文件样...

功能特性

Datahub数据总线 功能集 功能 功能描述 参考文档 数据接入 API接入 使用REST API方式,将数据写入Datahub API参考 SDK接入 使用SDK将数据传入Datahub Java SDK C++ SDK Go SDK Python SDK 插件接入 使用插件将数据传入Datahub LogStash插件...

JSON_TYPE

返回JSON数据所属的数据类型名称。命令格式 string|number|boolean|null|object|array json_type()参数说明 json:必填,待处理的JSON表达式。返回值说明 返回STRING类型。使用示例 示例1:返回JSON内的数据类型(array类型)。select json...

概述

您可以通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询。MaxCompute JDBC驱动还可以用于连接MaxCompute和支持JDBC的工具。JDBC使用说明 使用JDBC连接MaxCompute。详情请参见 使用说明。使用JDBC连接商业智能(BI)分析工具...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本,包括1.0数据类型、2.0数据类型以及Hive兼容数据类型,您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

数据建模新能力解读

以下为您系列讲解阿里云智能数据建模新能力解读。课程视频列表 课程简介 课程内容:数据建模的发展背景。主要产品:DataWorks 课程时长:5分钟 课程内容:当前主流的数据建模方法论。主要产品:DataWorks 课程时长:4分钟 课程内容:数据...

SELECT MATERIALIZED VIEW

背景信息 物化视图状态分为如下两种:物化视图有效 执行查询语句时,MaxCompute会从物化视图中直接查询数据,不会从源数据中查询数据。物化视图无效 执行查询语句时,MaxCompute无法从物化视图中直接查询数据,会从源数据中查询数据,无法...

事务管理

对DTT(Delta Transactional Table)的所有数据修改操作,都会由MetaService统一进行事务管理,满足ACID特性,应用MVCC模型来保障读写快照隔离,采用OCC模型进行乐观事务并发控制。冲突检测规则 下表为作业并发提交场景下,对同一个非分区...

LIST TRUSTEDPROJECTS

相关命令 ProjectProtection:开启项目空间的数据保护机制。ADD TRUSTEDPROJECT:在当前项目空间中添加可信的项目空间,通过项目互信的方式确保数据顺利流转。REMOVE TRUSTEDPROJECT:在当前项目中删除已添加的可信的项目。

使用客户端(odpscmd)或Studio

MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载,本文为您概要介绍如何在对应的工具中使用Tunnel命令或Tunnel SDK上传数据至MaxCompute。使用Tunnel命令下载数据 Tunnel命令主要有 Upload...

产品优势

AnalyticDB MySQL版 提供融合数据库、大数据技术于一体的云原生企业级数据仓库服务,高度兼容MySQL,支持毫秒级更新,亚秒级查询。无论是数据湖中的非结构化或半结构化数据,还是数据库中的结构化数据,您都可使用 AnalyticDB MySQL 构建...

HASH

使用示例 示例1:计算相同数据类型的输入参数的Hash值。命令示例如下。返回66。select hash(0,2,4);示例2:计算不同数据类型的输入参数的Hash值。命令示例如下。返回97。select hash(0,'a');示例3:任一输入参数为空或NULL。命令示例如下。...

GTX_FPGA 最佳实践

GTX-FPGA 介绍 GTX-FPGA产品是由 未来实验室 GTX-Laboratory 开发的全基因组分析加速工具,采用CPU和FPGA协同工作的异构加速技术,利用各自的特性进行基因数据的高性能计算。可以将30X的全基因组数据分析时间从30小时缩短至30分钟;将100X...

ODPS-0123091

ODPS-0123091:Illegal type cast 错误1:in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述 执行数据类型...

开发UDF

说明 如果需要使用MaxCompute项目中的表数据,需要先在 MaxCompute project 中更改设置Endpoint和指定项目名称,指定的MaxCompute项目的表数据未被下载至 warehouse 目录中,会先下载数据;如果数据已经下载,则跳过此步骤。MaxCompute ...

分析业务过程

您可以参考业务规划设计文档以及业务运行(开发、设计、变更等)相关文档,全面分析数据仓库涉及的源系统及业务管理系统:每个业务会生成哪些数据,存在于什么数据库中。对业务过程进行分解,了解过程中的每一个环节会产生哪些数据数据的...

ADD TRUSTEDPROJECT

在当前项目空间中添加可信的项目空间,通过项目互信的方式确保数据顺利流转。命令格式 add trustedproject;参数说明 参数名称 是否必填 说明 project_name 是 待添加可信项目空间的名称。相关命令 ProjectProtection:开启项目空间的数据...

数据资产定级

数据的资产等级,可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下:毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。全局性质:数据直接或间接用于企业级...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 云服务器 ECS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用