MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute,数据集成作业主要有三种类型:离线同步、实时同步、同步解决方案。本文为您介绍MaxCompute数据集成的实现方案。离线同步 离线(批量)的数据通道通过定义数据...
开源产品 Sqoop(Tunnel通道系列)Sqoop基于社区Sqoop 1.4.6版本开发,增强了对MaxCompute的支持,可以将数据从MySQL等关系数据库导入或导出到MaxCompute表中,也可以从HDFS或Hive导入数据到MaxCompute表中。详情请参见 MaxCompute Sqoop。...
新建数据表 跨项目克隆功能无法克隆您的表结构,因此您需要手动新建表。对于非分区表,建议使用如下语句迁移表结构。create table table_name as select*from 源库MaxCompute项目.表名;对于分区表,建议使用如下语句迁移表结构。create ...
data_test 的数据如下:+-+-+|id|name|+-+-+|3|rgege|4|Gegegegr|+-+-+在Hologres创建数据接收表 mc_2_holo(所在数据库名称为 test),您可以在HoloWeb的SQL编辑器中执行建表语句,详情请参见 连接HoloWeb。建表语句如下:说明 数据接收表...
data_test 的数据如下:+-+-+|id|name|+-+-+|3|rgege|4|Gegegegr|+-+-+在Hologres创建数据接收表 mc_2_holo(所在数据库名称为 test),您可以在HoloWeb的SQL编辑器中执行建表语句,详情请参见 连接HoloWeb。建表语句如下:说明 数据接收表...
示例说明:本文以创建一个MaxCompute数据表,利用MaxFrame进行开发处理,并将结果存储到另一个MaxCompute表中为例,为您介绍主要操作流程。通过本地客户端访问 MaxFrame 在系统的命令行执行窗口(例如Windows的CMD窗口)中,通过pip命令...
MaxCompute底层脱敏不支持对MaxCompute数据表的主键字段进行脱敏。MaxCompute底层脱敏仅支持对String类型字段进行脱敏。只有MaxCompute项目中已经存在数据并且数据已创建24小时(h)的情况下,才能使用此功能。准备工作 准备待脱敏的...
合理利用ECS的公共下载资源 如果您的ECS使用包月资源,可以使用Tunnel等数据同步工具,将MaxCompute数据同步到ECS,然后下载到本地。详情请参见 导出SQL的运行结果。Tunnel文件上传优化 小文件会消耗更多计算资源,建议当文件量积累较大时...
若本机环境编码不是UTF-8,则当您通过客户端查询MaxCompute表数据返回值有中文可能会出现乱码或者您通过客户端执行Tunnel命令上传本地数据文件到MaxCompute,也可能会出现中文乱码。安装并配置MaxCompute客户端 说明 客户端从v0.27.0版本...
MaxCompute与消息队列Kafka版服务紧密集成,借助消息队列Kafka版服务的MaxCompute Sink Connector,无需第三方工具及二次开发,即可满足将指定Topic数据持续导入MaxCompute数据表的需求。极大简化Kafka消息队列数据进入MaxCompute的集成...
MR2模型产生背景 传统的MapReduce模型要求在经过每一轮MapReduce操作后,得到的数据结果必须存储到分布式文件系统中(例如,HDFS或MaxCompute数据表)。MapReduce模型通常由多个MapReduce作业组成,每个作业执行完成后都需要将数据写入磁盘...
MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型 功能 角色 操作入口 上传数据 将本地文件的数据上传至MaxCompute的表中,以追加...
从MaxCompute中读取数据写入HBase 通过IntelliJ IDEA工具编写代码,实现从MaxCompute中读取数据写入HBase。代码示例 object McToHbase { def main(args:Array[String]){ val spark=SparkSession.builder().appName("spark_sql_ddl").config...
MaxCompute提供了数据保护机制,支持对数据流出行为进行控制,为项目数据的安全性提供保障。本文为您介绍MaxCompute的数据保护机制以及开启数据保护机制后数据的流出策略。背景信息 部分公司对数据安全非常敏感,例如,只允许员工在公司...
查询外部表Tablestore数据慢 问题现象 查询外部表Tablestore的数据慢,同样的业务数据,1个实时写入Tablestore,1个定时写入MaxCompute,两个表结构和数据量一样。查询MaxCompute内部表耗时远小于查询Tablestore外部表。解决措施 这种情况...
MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具。本文为您介绍MMA的使用概述,帮助您快速了解并使用MMA。功能简介 Hive数据迁移到MaxCompute。MaxCompute跨项目数据迁移。EMR+DLF+OSS迁移MaxCompute项目。数据迁移原理 ...
根据上面的操作,您已创建了外部表ots_table_external来打通MaxCompute与Tablestore数据表ots_tpch_orders的链路,同时还有一份存储在MaxCompute内部表internal_orders的数据。现在,如果您需要对internal_orders中的数据进行处理后再写回...
MaxCompute表无Download权限 报错信息 解决方法 在DataWorks的 数据地图 中搜索对应的MaxCompute表,并申请开通其Download权限,运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限 报错信息 解决方法 申请对应Project下的...
MaxFrame支持直连MaxCompute,允许对MaxCompute中的数据进行高效直接读写操作,运行时无需将数据拉取至本地计算,消除了不必要的本地数据传输,提高了执行效率。MaxCompute表 您可以使用MaxCompute表创建MaxFrame DataFrame对象,并将计算...
MaxCompute Tunnel是MaxCompute的数据通道,您可以通过Tunnel向MaxCompute中上传或者下载数据。MaxCompute提供的 数据上传和下载工具 是基于Tunnel SDK编写的。本文将为您介绍Tunnel SDK的主要接口,不同版本的SDK在使用上有所差别,准确...
数据类型 MaxCompute数据开发支持三个数据类型版本:1.0数据类型版本、MaxCompute 2.0推出了兼容开源主流产品的 2.0数据类型版本 和 Hive兼容数据类型版本。您可以根据您MaxCompute作业的实际情况选用合适的数据类型版本,详情请参见 数据...
本文为您介绍MaxCompute支持连接的商业智能BI工具、数据库管理工具及ETL工具。MaxCompute的生态架构如下图所示。商业智能(BI)工具 商业智能(BI)工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化,以直观的...
{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...
ODPS-0123091:Illegal type cast 错误1:in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述 执行数据类型...
MaxCompute的表类似于传统关系型数据库中的表,可以存储结构化数据,并且使用SQL进行查询和分析。MaxCompute中不同类型计算任务的操作对象(输入、输出)都是表。您可以 创建表、删除表以及向表中导入数据。说明 DataWorks的数据开发模块...
创建方式 平台 基于MaxCompute SQL创建OSS外部表 MaxCompute客户端 使用控制台(查询编辑器)连接 DataWorks控制台-ODPS SQL节点 MaxCompute Studio-SQL程序 以可视化方式创建OSS外部表 MaxCompute Studio-SQL程序 DataWorks控制台-外部表 ...
环境准备 其他环境要求根据不同的数据源会有所不同,具体请根据实际情况参见 Hive数据迁移 或 MaxCompute数据迁移。安装Linux操作系统。安装JDK1.8及以上版本的Java。安装MySQL Server 5.7及以上版本。下载并安装与Hive版本对应的MMA工具。...
MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储,直接对外部数据进行操作,从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...
当MaxCompute项目打开2.0新数据类型开关(odps.sql.type.system.odps2=true)时,存在隐式转换被禁用的风险,您可以关闭2.0新数据类型开关(odps.sql.type.system.odps2=false)。在MaxCompute中创建表的方式有哪些?您可以通过如下方式...
因涉及项目数据保护,无法将MaxCompute数据导出至MySQL,如何解决?如何找回被删除的表?MaxCompute如何保证数据安全?MaxCompute拥有完备的措施来保证用户的数据安全:多用户场景,除项目所有者(Project Owner)或项目管理员之外,未经...
使用Lindorm外部表,可以将Lindorm表中的数据同步到MaxCompute进行后续ETL处理,也可以关联Lindorm表进行联邦计算,或将MaxCompute数据输出到Lindorm表中。本文为您介绍如何通过MaxCompute创建Lindorm外部表并映射Lindorm数据源。背景信息 ...
StarRocks Connector通过实现External Catalog机制,无需数据导入或创建外部表即可无缝访问MaxCompute数据源,并执行复杂的SQL查询,提升了数据分析效率并降低了运维难度和成本。本文为您介绍如何通过StarRocks Connector访问MaxCompute。...
本文为您介绍Spark on MaxCompute访问云数据库HBase的配置方法。背景信息 Spark on MaxCompute可以访问位于阿里云VPC内的实例(ECS、HBase、RDS等)。MaxCompute底层网络和外网默认是隔离的,Spark on MaxCompute提供了一种方案通过配置 ...
MaxCompute控制台提供数据上传功能,支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线(非实时)上传至MaxCompute进行分析处理及相关管理操作。使用限制 仅支持基于 本地文件 或 阿里云对象存储OSS 上传数据,具体如下。本地文件...
为了更好地融入大数据生态,MaxCompute开放了存储组件(Storage API),通过调用Storage API直接访问MaxCompute底层存储,有助于提高第三方引擎访问MaxCompute数据的速度与效率。本文为您介绍如何使用第三方计算引擎Spark通过Spark ...
在MaxCompute项目的IP白名单中添加如下IP:183.240.92.0/24,111.45.0.0/22,14.215.188.4/25 说明 添加IP白名单操作详情请参见 添加IP白名单,不添加如上IP会导致Sugar BI无法读取MaxCompute数据。步骤二:创建数据模型 连接完数据源后,...
利用这个特性,您可以快速下载小部分ODPS数据到本地,使用Pandas计算后端进行代码编写和调试。这些操作包括:非分区表:对其进行选取全部或有限条数据、列筛选的操作(不包括列的各种计算),以及计算其数量。不选取分区或筛选前几个分区...
说明 如果需要使用MaxCompute项目中的表数据,需要先在 MaxCompute project 中更改设置Endpoint和指定项目名称,指定的MaxCompute项目的表数据未被下载至 warehouse 目录中,会先下载数据;如果数据已经下载,则跳过此步骤。MaxCompute ...
在 数据来源 下拉列表中选择数据源类型为 MaxCompute(ODPS),并选择创建好的MaxCompute 数据源名称。选择独享数据集成资源组。选择已创建的独享数据集成资源组,详情请参见 新增和使用独享数据集成资源组。选择数据去向。在 数据去向 下拉...
本文为您介绍如何在Windows操作系统下搭建MaxCompute Spark开发环境。...v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper spark.hadoop.odps.cupid.webproxy.endpoint=...