MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB/EB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。SDK MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK,您可以通过...
操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据...
BI分析工具连接MaxCompute,能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源,为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute,本文为您介绍MaxCompute支持连接的BI分析工具,以及工具与...
配额组(Quota)是MaxCompute的计算资源池,为MaxCompute中的计算作业提供所需计算资源(CPU及内存)。在MaxCompute中支持根据计算作业对计算资源的需求,指定匹配的Quota,助力您高效使用计算资源。本文为您介绍如何使用MaxCompute的Quota...
MaxCompute支持您将MaxCompute项目数据接入Davinci,您只需在可视化UI界面上简单配置即可服务多种数据可视化应用。本文为您介绍如何通过MaxCompute JDBC驱动,连接Davinci和MaxCompute项目,并进行可视化数据分析。背景信息 Davinci是面向...
随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力,正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...
MaxCompute的包年包月计算资源有限,在实际数据开发过程中,系统可以并发运行多个作业,因此涉及到计算资源的分配。MaxCompute中每个包年包月二级Quota的调度策略分为FIFO(先进先出)和FAIR(公平调度)。您可以通过设置二级Quota的调度...
在使用MaxCompute开发过程中会产生费用,如果平时每日消费比较平稳,某段时间的费用增长翻倍。在排除业务增长的情况下,可以进行费用分析,排查导致费用突增的项目、作业是哪些,进而及时优化和调整作业,优化成本。本文为您介绍如何结合...
对应地域所有项目的生命周期都将与按量付费标准服务的生命周期保持一致,所有项目的存储、下载等按量付费账单归属的产品明细为 大数据计算服务MaxCompute(按量付费),同时对应的用量明细选择的计量规格变为 大数据计算服务MaxCompute...
您可以通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询。MaxCompute JDBC驱动还可以用于连接MaxCompute和支持JDBC的工具。JDBC使用说明 使用JDBC连接MaxCompute。详情请参见 使用说明。使用JDBC连接商业智能(BI)分析工具...
方式二:通过DataWorks控制台创建项目 DataWorks为阿里云提供的一站式大数据开发治理平台,您可以在DataWorks上进行MaxCompute作业开发、周期性调度、作业运维、数据治理等一站式数据开发治理操作,如果您希望后续使用DataWorks一站式开发...
本文以开源大数据开发平台E-MapReduce(云上Hadoop)方式模拟本地Hadoop集群,为您介绍如何读写MaxCompute数据。模拟IDC Spark读写MaxCompute实践 2022-07-07 Unload。更新说明 支持使用Unload函数从MaxCompute导出数据到OSS时,自定义设置...
DTS(Tunnel通道系列)什么是数据传输服务DTS 是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能。DTS可以支持RDS、MySQL...
2022-06-27 全部地域 MaxCompute管家 查询加速(MCQA)支持包年包月产品规格 MaxCompute包年包月产品规格支持配制交互式资源用于查询加速优化,查询加速(MCQA)功能可以使EB级数据仓库服务内提供弹性并发的秒级查询能力,在MaxCompute原先...
2019-07 功能名称 功能描述 发布时间 发布区域 相关文档 支持Spark服务 MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行...
MaxCompute平台提供了丰富的数据上传下载工具,可以广泛应用于各种数据上云的应用场景,本文为您介绍三种经典数据上云场景。Hadoop数据迁移 您可使用MMA、Sqoop和DataWorks进行Hadoop数据迁移。使用DataWorks结合DataX进行Hadoop数据迁移的...
为了更好地融入大数据生态,MaxCompute开放了存储组件(Storage API),通过调用Storage API直接访问MaxCompute底层存储,有助于提高第三方引擎访问MaxCompute数据的速度与效率。本文为您介绍如何使用第三方计算引擎Spark通过Spark ...
命令或使用MaxCompute的元数据服务。更多信息请参见 表操作 或 Information Schema。如何快速查看项目下哪些表是分区表?您可以通过 MaxCompute客户端 执行如下命令查看项目下的分区表信息。select table_name from information_schema....
注意事项 在任意区域启动MaxCompute的云命令行(odpscmd),云命令行的服务和临时存储服务默认都部署在上海区域,若您的项目在其他区域,使用此功能会存在数据安全风险,请谨慎使用。进入云命令行(odpscmd)环境 登录 MaxCompute控制台,...
MaxCompute提供多种渠道,以便您从业务系统或外部数据源写入数据到MaxCompute,或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道 外表(湖仓一体)JDBC渠道 场景数据写入MaxCompute 离线数据批量写入(数据...
本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...
在 变配 页面,配置升级后所需的CU数量,并勾选 大数据计算服务MaxCompute服务等级协议 和 阿里云产品服务协议-MaxCompute,单击 立即购买。订单价格计算规则如下:升级订单价格计算=新配置剩余时长购买金额(新配置的月单价/30/24×剩余时...
MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言,其语法类似于标准SQL,但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...
StarRocks Connector通过实现External Catalog机制,无需数据导入或创建外部表即可无缝访问MaxCompute数据源,并执行复杂的SQL查询,提升了数据分析效率并降低了运维难度和成本。本文为您介绍如何通过StarRocks Connector访问MaxCompute。...
RAM授权:MaxCompute支持通过使用阿里云的访问控制RAM(Resource Access Management)服务授权,将您云账号下MaxCompute资源的访问及管理权限授予RAM用户和RAM角色,按需为用户分配最小权限,从而降低企业的信息安全风险。MaxCompute还支持...
本文为您介绍连接并处理MaxCompute项目数据工具的应用场景、运行环境要求以及使用指引。您可根据业务需要和相应准备的环境,选择合适的连接工具。前提条件 已创建MaxCompute项目。更多创建MaxCompute项目操作,请参见 创建MaxCompute项目。...
概述 通过Tunnel迁移日志数据至MaxCompute 通过DataHub迁移日志数据至MaxCompute 通过DataWorks数据集成迁移日志数据至MaxCompute 通过日志服务迁移日志数据至MaxCompute 2019-12-25 新增开源地理空间UDF。新功能 您可以将开源地理空间UDF...
Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似,您首先需要做以下准备工作:准备MaxCompute项目以及对应的AccessKey ID、AccessKey Secret。下载MaxCompute Spark客户端。准备环境变量。...
注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务,所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时,推荐您使用Tablestore私网地址,即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...
MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据处理工作,本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...
为确保MaxCompute项目数据的安全性,项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控,确保权限不会过大也不会过小。本文为您介绍MaxCompute的权限管理案例。Policy权限控制案例 通过Policy以角色方式允许某些用户...
如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接查询公开数据集中的表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。简介 MaxCompute开放的公开数据集类别...
背景信息 MaxCompute的包年包月计算资源有限,在实际数据开发过程中,系统需要优先保障重要作业的计算资源。例如,系统必须在06:00点前产出某些数据,则需要保障产出这些数据的一系列作业(工作流)能够在运行时优先抢占到计算资源。您可以...
Query样例文件 MaxCompute提供了针对不同数据规格的Query样例文件,每个文件内包含99个查询,这些查询的复杂性和扫描数据范围差异很大,请谨慎选取执行,避免产生大量计算费用。您也可以使用TPC-DS基准套件中的工具生成这些查询的不同版本...
MaxCompute提供个两版本的MapReduce编程接口:MaxCompute MapReduce:MaxCompute的原生接口,执行速度快、开发快捷、不暴露文件系统。MaxCompute扩展MapReduce(MR2):对MaxCompute MapReduce的扩展,支持更复杂的作业调度逻辑。MapReduce...
时序图 以甘特图的方式展示作业分布式执行的详细数据,可以调整展示粒度,将每一个计算节点都在甘特图中展示。可以通过甘特图直观地看出作业运行的时间瓶颈和长尾节点等。同时提供多种过滤器,能够直接筛选出作业执行的关键路径、最大数据...
本文为您介绍如何通过DataWorks数据同步功能,迁移阿里云Elasticsearch集群上的数据至MaxCompute。前提条件 已开通MaxCompute服务。开通指导,详情请参见 开通MaxCompute。已开通DataWorks服务。开通指导,详情请参见 开通DataWorks服务。...
本文为您介绍如何将数据上传至MaxCompute或从MaxCompute下载数据,包括服务连接、SDK、工具和数据导入导出、上云等常见操作。背景信息 MaxCompute提供了多种数据上传下载的通道支持,方便您在各种场景下进行技术方案选型时参考。批量数据...
Out[5]:0 1 0 1.0 NaN 1 1.0 1.0 PyODPS PyODPS使用MaxCompute计算和存储数据,而MaxCompute并不保证数据顺序,因此PyODPS不保证数据顺序,不支持时序操作。执行层 Mars Mars包含客户端和分布式执行层。您可以通过调用 o.create_mars_...
在SQL语句中使用自定义函数时,如果计算的数据量过大并且存在倾斜,会导致作业占用的 内存超出默认分配的内存。此时,您可以在Session级别设置 set odps.sql.udf.joiner.jvm.memory=xxxx;属性来解决此问题。更多自定义函数常见问题,请参见...