大数据分布式计算框架-大数据分布式计算框架文档介绍内容-阿里云

授权信息

本文为您介绍云原生大数据计算服务 MaxCompute（MaxCompute）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。云原生大数据计算服务 MaxCompute（MaxCompute）的RAM代码（RamCode）为 odps，支持的授权粒度为 ...

分布式训练加速TorchAcc概述

PAI-TorchAcc（Torch Accelerator）是基于PyTorch的训练加速框架，通过GraphCapture技术将PyTorch动态图转换为静态执行图，然后进一步基于计算图完成分布式优化、计算优化，从而提高PyTorch模型训练的效率，使其更加易于使用。技术简介 ...

概述

负责数据分布式路由、计算及动态调度，负责分布式事务2PC协调、全局二级索引维护等，同时提供SQL限流、三权分立等企业级特性。存储节点（Data Node，DN）负责数据的持久化（面向行存数据），基于多数派Paxos协议提供数据高可靠、强一致保障...

全场景解决方案

金融级高可靠性深度集成 OceanBase 分布式数据库以及 SOFA 金融级云原生分布式框架，保证应用和数据弹性扩展，同时具备高可用（RTO=0，RPO）和一致性，通过蚂蚁集团自身业务沉淀的“资金核对体系”、“全链路压测”等技术风险防控组件，...

四川农信

实现分布式云原生架构体系实现分布式云原生架构体系，需要从技术规范、基础设施、生产力工具、组织流程等各个方面进行持续革新：建立一个面向分布式架构的开发平台和运行平台，结合分布式数据库、分布式缓存、微服务框架、服务管理和发布...

源为PolarDB-X的任务配置方案

方案对比对比项方案一方案二性能拆分成多个DTS任务，性能成倍增长，可承载大规模的 PolarDB分布式版数据写入，仅配置一个以 PolarDB分布式版为源的DTS任务，当业务系统写入源实例数据量较大时，会存在性能瓶颈。稳定性稳定性较强。...

源为PolarDB-X的任务配置方案

方案对比对比项方案一方案二性能拆分成多个DTS任务，性能成倍增长，可承载大规模的 PolarDB分布式版数据写入，仅配置一个以 PolarDB分布式版为源的DTS任务，当业务系统写入源实例数据量较大时，会存在性能瓶颈。稳定性稳定性较强。...

基础术语

分支事务 action 一个分布式事务可能包含多个数据库本地事务，在分布式事务框架下，分支事务可能是一个分库上执行的 SQL 语句，或是一个自定义模式服务的调用。发起方 initiator 分布式事务的发起方负责启动分布式事务，通过调用参与者的...

典型客户案例

实现分布式云原生架构体系实现分布式云原生架构体系，需要从技术规范、基础设施、生产力工具、组织流程等各个方面进行持续革新：需要一个面向分布式架构的开发平台和运行平台，结合分布式数据库、分布式缓存、微服务框架、服务管理和发布...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

Query Profile介绍

Exchange Operator Sink 指标说明 PartType 数据分布模式，包括UNPARTITIONED、RANDOM、HASH_PARTITIONED和BUCKET_SHUFFLE_HASH_PARTITIONED。BytesSent 发送的数据大小。OverallThroughput 吞吐速率。NetworkTime 数据包传输时间（不包括...

什么是图计算服务

图计算服务Graph Compute是阿里云自主研发的高性能分布式图计算产品，为开发者提供万亿级数据规模的一站式图技术服务。Graph Compute支持复杂图关系数据的存储、查询和计算，高效对接图算法与模型，在搜索推荐广告、实时风控、知识图谱、...

多语言版本分片模型

动态分片：主要场景是分布式处理未知数据量的数据，例如一张大表在不停变更，需要分布式跑批。主流的框架为SchedulerX提供的MapReduce模型，目前还没有对外开源。功能特性多语言版本分片模型还具有以下特性。兼容elastic-job的静态分片...

品牌升级

PolarDB-X 融合分布式SQL引擎与分布式自研存储X-DB，专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验。此次品牌升级，存量DRDS实例不受影响，可正常续费...

简介

能够有效支撑大规模遥感影像数据和GIS栅格GRID数据的存储、查询和基础分析处理能力，包括ETL工具支持遥感影像重投影、拼接、切片、入库，支持OGC WMS/WMTS等服务发布以及基于Spark的高性能分布式计算引擎支持海量栅格图像分析和处理。...

企业版产品系列

共享分布式存储（PolarStore）多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大降低了用户的存储成本。基于分布式块存储和文件系统，存储容量可以在线平滑扩展，不会受到单个数据库服务器的存储容量限制，可应对上百TB...

产品优势

I/O优化独有数据分布式缓存技术，极大加速大规模共享数据分发。直接挂载对象存储，透明处理 I/O 访问异常。易用安全无需特殊编程实现已有流程上云。支持 OpenAPI，易于集成。通过 VPC 网络隔离以及存储访问授权实现严格安全控制。按量...

高可用版

图数据库GDB支持高可用版和单节点版两个系列。高可用版采用一主一备的经典高可用架构（主备节点均为独立的图数据库节点），计算与存储分离，...基于超大规模的阿里云飞天分布式存储，保证数据多副本的可靠性。适用场景企业级的生产图数据库。

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

多语言版本分片模型

动态分片：主要场景是分布式处理未知数据量的数据，例如一张大表在不停变更，需要分布式跑批。主流的框架为SchedulerX提供的MapReduce模型，暂时还没有对外开源。功能特性多语言版本分片模型还具有以下特性。兼容elastic-job的静态分片...

升级和降配

在变配页面，配置升级后所需的CU数量，并勾选 大数据计算服务MaxCompute服务等级协议和阿里云产品服务协议-MaxCompute，单击立即购买。订单价格计算规则如下：升级订单价格计算=新配置剩余时长购买金额（新配置的月单价/30/24×剩余时...

JindoFS介绍和使用

在纯客户端模式（SDK）基础上，Cache模式支持可选的元数据缓存和数据分布式缓存，同时保持数据跟OSS兼容和同步。数据缓存可以基于内存、SSD和普通磁盘，以适用不同的计算场景。JindoFS块存储模式（Block）JindoFS存储模式（Block），不仅...

产品架构

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受到...

产品架构

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受到...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

产品简介

高性能针对多个参与方可能出现的高延迟、低带宽问题，产品在通信机制上进行了优化，如采用模型/梯度稀疏化的方案，实现了对大规模、分布式模型训练的可靠支持。针对部分数据异构和算力异构的问题，则采用了 client 模型个性化算法，优化和...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

功能特性

分布式事务（Distributed Transaction-eXtended，简称 DTX）是蚂蚁集团自主研发的金融级分布式事务中间件，支持跨数据库、跨服务以及混合的方式处理分布式应用，具备多种接入模式和金融级配套功能，本文将主要介绍分布式事务的功能特性。...

基本概念

高速服务框架高速服务框架HSF（High-speed Service Framework）是一款面向企业级互联网架构的分布式服务框架，以高性能网络通信框架为基础，提供了诸如服务发布与注册、服务调用、服务路由、服务鉴权、服务限流、服务降级和服务调用链路...

StarRocks概述

StarRocks采用分布式架构：对数据表进行水平划分并以多副本存储。集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。...

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

AUTO模式数据库与DRDS模式数据库

AUTO模式数据库与DRDS模式数据库主要功能对比：功能项 AUTO模式数据库 DRDS模式数据库透明分布式 默认主键分区支持。若建表时不指定分区定义，将自动按主键进行分区。不支持。默认全局二级索引支持。索引不指定分区列时，将自动索引列...

产品架构

计算引擎计算引擎是基于云原生架构提供的分布式计算服务，计算节点运行在阿里云Serverless Kubernetes（简称ASK）容器服务中。计算引擎支持社区版计算模型以及编程接口，同时深度融合Lindorm存储引擎特性，充分利用底层数据存储特征以及...

Map模型

基于MapJobProcessor，调用Map方法，即可实现大数据分布式跑批的能力。注意事项 SchedulerX不保证子任务一定执行一次，在特殊条件下会failover，可能会导致子任务重复执行，需要业务方自己实现幂等。SchedulerX使用的是Hessian序列化框架，...

基本概念

分支事务 action，一个分布式事务可能包含多个数据库本地事务，在分布式事务框架下，分支事务可能是一个分库上执行的 SQL 语句，或是一个自定义模式服务的调用。分支事务记录 Action Record，又叫 Action 记录，用于标识分支事务。它记录了...

什么是EMR Serverless StarRocks

StarRocks特性架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够充分的利用多节点的计算能力，整个查询可以并行执行，从而实现良好的交互式分析体验。StarRocks实例不需要依赖任何其他组件，易部署、易维护和极简...

PyODPS概述

使用这些接口最终都会翻译成SQL到MaxCompute计算集群做分布式计算，并且本地几乎没有任何的内存消耗，相比于单机有很大的性能提升。以下以一个分词的示例为例，为您对比两种方式的代码区别。示例场景用户需要通过分析每天产生的日志字符串...

专业版公测（2022年01月26日）

阿里巴巴分布式任务调度平台SchedulerX 2.0的专业版于2022年01月26正式公测，本次公测带来了全新的可视化功能，兼容开源XXL-JOB任务，支持一次性任务，融合大数据DataWorks任务。可视化日志服务在当前微服务和容器化越来越流行的情况下，...

未来规划

云计算架构的核心逻辑就是通过虚拟化技术带来池化资源，云原生数据库采用分布式数据库架构，实现大规模扩展，每套数据库系统横跨多台服务器和虚拟机，带来了全新的系统管理挑战。其中最核心的挑战就是如何实现弹性以及高可用，实现按需按量...

应用场景

基因数据处理云工作流可以将多个批量计算分布式作业串联或并行编排，可靠地支持执行时间长、并发量大的大规模计算。如基因数据分析中将基因序列对齐，将所有染色体并行做变异分析，最终将各染色体数据聚合产出结果。云工作流根据指定的...

大数据分布式计算框架

新品推荐