使用datax同步 drds数据到odps-使用datax同步 drds数据到odps文档介绍内容-阿里云

导入导出表数据

前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute Studio中添加的MaxCompute项目必须配置了Tunnel。详情请参见安装并配置MaxCompute客户端。导入导出使用的账号必须具备MaxCompute项目中表的操作权限。导入数据在 ...

通过DataWorks实现MaxCompute跨项目迁移

本文为您介绍如何配置不同MaxCompute项目并实现数据迁移。前提条件请您首先完成教程《简单用户画像分析（MaxCompute版）》的全部步骤，详情请参见简单用户画像分析（MaxCompute版）。背景信息本文使用的被迁移的原始项目为教程《简单...

流式数据通道概述

MaxCompute流式数据通道服务提供了以流式的方式把数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式服务在API上极大简化了分布式服务的开发成本，同时解决了批量数据通道在高并发、高QPS（Queries-...

使用Logstash（流式数据传输）

您可以通过Logstash的输出插件 logstash-output-maxcompute，将Logstash收集的日志数据使用MaxCompute流式数据通道（Streaming Tunnel）功能上传到MaxCompute。前提条件在执行操作前请确认您已完成如下操作：已安装 Logstash 并创建...

数据传输作业：数据集成

MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute，数据集成作业主要有三种类型：离线同步、实时同步、同步解决方案。本文为您介绍MaxCompute数据集成的实现方案。离线同步离线（批量）的数据通道通过定义数据...

使用DataWorks连接

使用DataWorks连接MaxCompute有如下方式：数据分析的 SQL查询功能：实现编辑MaxCompute SQL、查询数据、分析数据（电子表格）、在线分享数据及下载数据等功能。SQL查询功能详情请参见 SQL查询。数据开发的MaxCompute任务节点：DataWorks将...

使用DataWorks（离线与实时）

最佳实践数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

数据上传下载成本优化

合理预估VPC带宽当数据在IDC机房时，如果您需要通过专线同步数据到MaxCompute，请预估带宽，平衡数据同步与带宽之间的成本。例如，50 TB数据上云，同步1天，预估需要5 GB带宽。带宽的计算方式为 50（TB）×1024（GB）×8（bit）/（24...

SDK接口

使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-core...

概述

您只需要向DataHub中写入数据，并在DataHub中配置同步功能，便可以在MaxCompute中使用这些数据。详情请参见通过DataHub迁移日志数据至MaxCompute。此方法多用于公测和自研。DataHub用于实时上传数据，主要适用于流式计算场景。数据上传后...

MaxCompute数据迁移至OSS

本文为您介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS（Object Storage Service）。前提条件开通MaxCompute和DataWorks。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见创建业务流程...

Instance Logview示例

本文为您介绍如何使用MaxCompute Java SDK生成Instance Logview链接。Instance Logview可以帮助您快速定位问题。背景信息您可以通过Logview查看和Debug提交的MaxCompute作业，详情请参见使用Logview查看作业运行信息。MaxCompute Java ...

常见问题

本文列举了MaxCompute的用户经常咨询和关注的一些问题，帮助您快速了解MaxCompute。MaxCompute的用户经常咨询和关注的一些问题如下：使用MaxCompute需要具备什么专业技能？如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据...

概述

使用JDBC连接商业智能（BI）分析工具，对MaxCompute中的数据进行可视化分析，相关文档如下：Tableau连接MaxCompute FineBI连接MaxCompute FineReport连接MaxCompute Davinci连接MaxCompute Yonghong BI连接MaxCompute 使用JDBC连接数据库...

2024年

操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据...

2020年

开通MaxCompute和DataWorks 创建MaxCompute项目快速体验MaxCompute 使用DataWorks连接 2020-09-17 新增创建RAM用户描述。新说明新增创建RAM用户描述。准备RAM用户 2020-09-11 新增Logview 2.0功能。新功能新增Logview 2.0功能。使用...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

读取OSS数据

背景信息完成OSS外部表创建后，您可以根据需要选择如下方式之一对OSS外部表进行操作：（推荐）方式一：将OSS的开源格式数据导入MaxCompute内部表，然后再读取OSS的数据。如果直接使用OSS外部表，每次读取数据都涉及OSS的I/O操作，且...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

ODPS-0123091

Query示例-准备数据 odps>create table mc_test(a string);odps>insert overwrite table mc_test values('100'),('-');设置当前处理模式为严格模式，集团内部的flag是odps.sql.udf.strict.mode=true，中国公共云对应的flag是odps.function....

采集数据

DataWorks与MaxCompute关系及对应环境绑定的MaxCompute引擎，详情请参见：DataWorks On MaxCompute使用说明。由于平台已提供用于本教程所需测试数据及数据源，所以您需要在您的工作空间将该平台提供的数据源信息添加至您的工作空间，即可在...

Information Schema常见问题

问题类别常见问题 Information Schema使用通过数据源数据增量同步后，如何查看某一条数据具体被同步到MaxCompute中的时间？如何查看表的Information Schema？information_schema.tables中没有查到MaxCompute项目下所有的表，应该如何解决...

RAM权限策略管理

MaxCompute支持通过使用阿里云的访问控制RAM（Resource Access Management）服务授权，将您云账号下MaxCompute资源的访问及管理权限授予RAM用户和RAM角色，按需为用户分配最小权限，从而降低企业的信息安全风险。本文为您介绍MaxCompute中...

RAM权限

MaxCompute部分资源管理类的操作只能通过管理控制台来完成，其中有些操作权限通过RAM进行鉴权，本文为您介绍MaxCompute管理相关操作对接RAM的权限点列表及权限策略。权限点列表操作类别 Action ARN ARN示例说明项目管理 odps:...

使用客户端（odpscmd）或Studio

MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载，本文为您概要介绍如何在对应的工具中使用Tunnel命令或Tunnel SDK上传数据至MaxCompute。使用Tunnel命令下载数据 Tunnel命令主要有 Upload...

MaxCompute+DLF+OSS湖仓一体的湖查询和湖数据入仓实践

MaxCompute、DLF和OSS是阿里云提供的一体化解决方案，可以实现数据湖查询和湖数据入仓。通过配置DLF，将数据从OSS导入到MaxCompute中，并使用MaxCompute进行数据湖查询。该方案可以方便地进行数据分析和处理，并保证数据的可靠性和安全性。...

概述

为了供您方便快捷的使用MaxCompute SQL进行数据分析和数据加工，MaxCompute提供了丰富的内建函数，以便您在日常开发和分析中使用，您可以根据需要从不同维度快速查询目标函数。MaxCompute支持的函数功能如下。按函数类型查找函数，请参见 ...

内建函数常见错误码

本文为您介绍使用MaxCompute内建函数过程中常见的错误码，帮助您了解错误码的产生原因，并提供对应的解决措施。常见内建函数错误码如下：ODPS-0130071:Semantic analysis exception-X type is not enabled in current mode ODPS-0130221:...

报错FAILED:ODPS-0420095:Access Denied-The task is ...

问题现象在您使用MaxCompute过程中，当您尝试执行下面的SQL语句来合并小文件：set odps.merge.cross.paths=true;set odps.merge.max.partition.count=100;默认优化10个分区，此时设置为优化100个分区。ALTER TABLE 表名[partition]MERGE ...

分区

分区表是指拥有分区空间的表，即将表数据按照某个列或多个列进行划分，从而将表中的数据分散存储在不同的物理位置上。合理设计和使用分区，可以提高查询性能、简化数据管理，并支持更灵活的数据访问和操作。概述分区可以理解为分类，通过...

Spark Connector

为了更好地融入大数据生态，MaxCompute开放了存储组件（Storage API），通过调用Storage API直接访问MaxCompute底层存储，有助于提高第三方引擎访问MaxCompute数据的速度与效率。本文为您介绍如何使用第三方计算引擎Spark通过Spark ...

Amazon Redshift数据迁移至MaxCompute

本文为您介绍如何通过公网环境将Amazon Redshift数据迁移至MaxCompute。前提条件准备Amazon Redshift集群环境及数据环境。您可以登录AWS官网，获取创建Redshift集群的详细操作内容，详情请参见 Amazon Redshift集群管理指南。创建Redshift...

输出错误日志示例

本文为您介绍如何使用MaxCompute Java SDK输出错误日志。接口说明 MaxCompute Java SDK提供了抽象类RetryLogger，详情请参见 SDK Java Doc。public static abstract class RetryLogger {/*当RestClient发生重试前的回调函数*@param e*错误...

UDF开发（Java）

当MaxCompute提供的内建函数无法支撑您的业务实现时，您可以根据本文提供的开发流程，使用开发工具（例如IntelliJ IDEA（Maven）或 MaxCompute Studio）自行编写代码逻辑创建自定义函数（UDF），并在MaxCompute中进行调用，以满足多样化...

创建MaxCompute Script Module

在MaxCompute Studio的本地.\IdeaProjects\MaxCompute_Studio_Project_Name\scripts 文件夹下新建一个MaxCompute的连接配置文件 odps_config.ini，文件中包含MaxCompute连接的鉴权信息，示例如下。连接的MaxCompute项目名称。project_name=...

搭建Windows开发环境

MaxCompute提供了面向Spark1.x、Spark2.x和Spark3.x发布包，下载路径如下（本文采用Spark-2.4.5）：Spark-1.6.3：适用于Spark1.x应用的开发。Spark-2.3.0：适用于Spark2.x应用的开发。Spark-2.4.5：适用于Spark2.x应用的开发。使用Spark-2....

Spark访问湖仓一体外部数据源

MaxCompute Spark目前已支持访问湖仓一体外部数据源，若您想将数据处理作业的环境从Spark更换为MaxCompute，无需再迁移Spark作业数据到MaxCompute，可直接进行访问，从而降低使用成本。本文为您介绍使用MaxCompute访问外部数据源的示例。...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

选择连接工具

DataWorks 使用DataWorks连接 MaxCompute Studio MaxCompute Studio 数据库管理 DBeaver连接MaxCompute DataGrip连接MaxCompute SQL Workbench/J连接MaxCompute ETL工具使用Kettle调度MaxCompute 使用Apache Airflow调度MaxCompute 使用...

使用datax同步 drds数据到odps

新品推荐