大数据分布式计算框架-大数据分布式计算框架文档介绍内容-阿里云

专业版公测（2022年01月26日）

阿里巴巴分布式任务调度平台SchedulerX 2.0的专业版于2022年01月26正式公测，本次公测带来了全新的可视化功能，兼容开源XXL-JOB任务，支持一次性任务，融合大数据DataWorks任务。可视化日志服务在当前微服务和容器化越来越流行的情况下，...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

2019年

您可以通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询。2019-11-18 全部区域 JDBC概述 2019-10 功能名称功能描述发布时间发布区域相关文档支持一次增加或删除多个分区 MaxCompute的DDL语义升级，支持一次增加或删除多...

什么是PolarDB MySQL企业版

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大地降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受...

概述

分布式事务可以与服务框架（SOFABoot、Spring Cloud、Dubbo 等）、数据源（数据访问代理、RDS、MySQL、OceanBase 等）、消息队列等蚂蚁集团中间件产品配合使用，轻松实现服务链路级事务、跨库事务、消息事务及各种组合。分布式事务主要涉及...

分布式事务问题

数据访问代理是否支持分布式事务数据访问代理支持与分布式事务的集成使用。版本要求：数据访问代理 V2.9.5 或更高版本 分布式事务 V2.5.2 或更高版本具体配置信息请参考 分布式事务>开发指南>依赖与配置项。在数据访问代理 V2.9.5 之前的...

产品架构

图计算服务（GraphCompute）一站式图计算解决方案，通过高性能的分布式图计算引擎，提供万亿数据规模下搜推、实时风控、复杂图关系的查询和分析。结合阿里巴巴在电商、安全和社交等多个行业领域的积累，为全球企业及开发者提供图技术服务

引擎简介

Lindorm计算引擎是一款基于云原生多模数据库 Lindorm 核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务，满足用户在云原生多模数据库 Lindorm 支撑场景下的数据生产、交互式分析、机器学习和图计算等场景中的计算需求...

2020年

2020-09-01 全部区域备份与恢复 2020-08 功能名称功能描述发布时间发布区域相关文档数据科学（Mars）功能商业化发布 Mars是一个基于张量的统一分布式计算框架。Mars能利用并行和分布式技术，加速Python数据科学栈，包括Numpy、Pandas...

技术面临的挑战与革新

在Proxy的协同下，甚至可以做到节点切换对应用无感知传统分布式架构与存储计算分离架构对比 分布式数据库其实已经有了不短的历史，早期的分布式数据库，在整体架构上可以分为share nothing和share disk两大类。share disk通过扩展底层的...

依赖与配置项

分布式事务不仅支持 SOFABoot 框架，也支持纯 Spring 的应用场景。本文将分别介绍针对不同的服务框架所要预先完成的依赖与配置项操作。无论是事务发起方还是参与者均需要完成本文的依赖与配置项操作。环境要求必须使用 JDK 1.7 或以上版本...

作业类型

缺点：集群间无法共享分布式缓存数据，访问存储压力大，占用资源多，适用小规模作业的场景。组合集群作业批量计算最新推出的作业类型。使用方法请参考组合集群最佳实践优点：支持资源弹性伸缩，您无需管理集群生命周期；分布式缓存提高...

产品概述

PolarDB分布式版 MySQL Share Nothing，分布式 公共云、专有云企业版、DBStack MySQL生态下的大规模数据、超高并发应用 PolarDB MySQL版和PolarDB PostgreSQL版产品架构 PolarDB MySQL版和PolarDB PostgreSQL版均为计算存储分离、共享...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

2023年

数据科学计算概述 2023-10-27 新增MaxFrame概述新说明 MaxFrame是由阿里云自研的分布式计算框架，提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。MaxFrame概述 2023-10...

产品优势

AI分布式训练通信优化库AIACC-ACSpeed AIACC-ACSpeed（AIACC 2.0-AIACC Communication Speeding）作为阿里云自研的AI训练加速器，专注于分布式训练场景的通信优化功能，在训练场景下具有其显著的性能优势，提高计算效率的同时能够降低使用...

概述

金融分布式架构 SOFAStack 致力于提供一整套帮助广大金融场景落地云原生、分布式架构的产品和解决方案，而其中的应用 PaaS 平台，融合金融科技多年在大规模分布式系统和容器平台的实践经验，使用户在专注于业务价值的同时，提升研发效率和...

将云消息队列 Kafka 版的数据迁移至MaxCompute

MaxCompute和DataWorks一起向用户提供完善的数据处理和数仓管理能力，以及SQL、MR、Graph等多种经典的分布式计算模型，能够更快速地解决用户海量数据计算问题，有效降低企业成本，保障数据安全。本教程旨在帮助您使用DataWorks，将云消息...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

概述

数据访问代理 SOFAStack 数据访问代理是金融级分布式数据库中间件，用于解决海量请求下数据访问的瓶颈及数据库的容灾问题，提供水平拆分、平滑扩缩容、读写分离的在线分布式数据库服务。数据访问代理兼容 MySQL 协议和语法，支持分库分表、...

创建集群

是EMR平台上提供的实时计算一站式解决方案，拥有分布式、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件，专注于解决实时计算端到端的各类问题，广泛应用于实时数据ETL和日志采集...

计算设置概述

设置Dataphin实例的计算引擎为Hadoop CDH5.x Hadoop CDH6.x Hadoop 全球应用较广的分布式系统基础架构，核心为HDFS和MapReduce，提供了海量数据存储与计算。全球应用较广的分布式系统基础架构，核心为HDFS和MapReduce，提供了海量数据存储...

产品概述

产品简介 PolarDB-X 1.0 是由阿里巴巴自主研发的PolarDB分布式版数据库，融合分布式SQL引擎与分布式自研存储X-DB，基于云原生一体化架构设计，可支撑千万级并发规模及百PB级海量存储。专注解决海量数据存储、超高并发吞吐、大表瓶颈以及...

概述

分布式化：框架调用您自定义的Partitioner对点进行分片（默认的分片逻辑是，根据点ID的哈希值对Worker个数取模分片），分配到相应的Worker。例如，假设上图中Worker数是2，则v0、v2会被分配到Worker0，因为ID对2取模结果为0。而v1、v3、v5...

列存索引技术架构介绍

基于多副本的Divergent Design方法随着互联网而兴起的新兴数据库产品很多都兼容了MySQL协议，这些分布式数据库产品大部分采用了分布式Share Nothing方案，其一个核心特点是使用分布式一致性协议来保障单个partition多副本之间的数据一致性...

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

适用场景

按应用类型选择 PolarDB-X 1.0 产品在高并发、分布式事务、复杂SQL优化、并行计算等方面都有比较好的用户沉淀和技术发展，适用于如下场景：对超高并发和大规模数据存储有较高要求的互联网在线事务类业务场景。传统企业级应用因业务发展导致...

PolarDB HTAP实时数据分析技术解密

而这些分布式数据库产品大部分采用了分布式Share Nothing的方案。核心特点是使用分布式一致性协议来保障单个partition多副本之间的数据一致性。由于一份数据在多个副本之间完全独立，因此在不同副本上使用不同格式进行存储，来服务不同的...

MapReduce

本文为您介绍MaxCompute支持的MapReduce编程...有关本地运行的MapReduce使用限制，请参见本地运行和分布式环境运行差异。按量计费开发者版资源仅支持MaxCompute SQL（支持使用UDF）、PyODPS作业任务，暂不支持MapReduce、Spark等其他任务。

操作手册

OSS 数据挂载会有分布式cache（集群内），所以在大规模并发读取数据时性能较好（能达到 10MB~30MB，200 台并发，读取 20G 数据）。OSS 路径必须以’/’结尾。iii.OSS 输出目录与临时本地输出目录渲染作业结束时，计算节点中的临时输出目录...

使用须知

如果您拥有一定开发经验如果您拥有一定的开发经验，了解分布式概念，且希望解决某些无法用SQL实现的数据分析问题，推荐您学习MaxCompute更高级的功能模块。模块说明 MapReduce MaxCompute提供Java MapReduce编程模型。您可以使用...

概述

PolarDB MySQL版 8.0版本重磅推出弹性并行查询框架，当您的查询数据量到达一定阈值，就会自动启动并行查询框架，从而使查询耗时指数级下降。功能简介弹性并行查询（Elastic Parallel Query，ePQ）目前支持单机并行和多机并行两种并行引擎...

偏分析场景的实践和优化

设计为分区表或者广播表广播表会在集群的每个数据节点都存储一份数据，建议广播表的数据量不宜太大，每张广播表存储的数据不超过20万行，这样在大表和广播表做关联时，可以计算下推，让关联贴近数据层做计算，避免大表数据拉取到计算节点...

PolarDB-X适用场景

目前，PolarDB-X 具备从单机到分布式的平滑演进能力，支持动态通过DDL将一张大表动态调整为分布式的分区表，结合分布式事务、以及兼容MySQL binlog的数据回流，可完成单机到分布式的快速改造。数据库国产化替换场景描述信息系统国产化是...

行业趋势与背景

在这种需求下，大规模分布式事务型数据库成为解决分布式系统数据存储、管理的主要方向。PolarDB-X 技术发展产品前言 PolarDB-X 是由阿里巴巴自主研发的云原生分布式数据库，融合分布式SQL引擎DRDS与分布式自研存储X-DB，基于云原生一体化...

PolarDB PostgreSQL版架构介绍

分布式执行加速索引创建 分布式并行执行加速多模：时空数据库传统数据库的问题随着用户业务数据量越来越大，业务越来越复杂，传统数据库系统面临巨大挑战，例如：存储空间无法超过单机上限。通过只读实例进行读扩展，每个只读实例独享一...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

附录一：运维服务产品清单

Elasticsearch elasticsearch 大数据 大数据计算 大数据计算服务 odps 大数据 大数据计算 实时计算Flink版 sc 大数据 大数据计算 E-MapReduce emapreduce 大数据 大数据计算 数据总线 datahub 云计算基础存储服务对象存储 oss 云计算基础...

窗口函数

窗口函数基于查询结果的行数据进行计算。窗口函数运行在 HAVING 子句之后，ORDER BY 子句之前。触发一个窗口函数需要特殊的关键字 OVER 子句来指定窗口。一个窗口包含三个组成部分：分区规范，用于将输入行分裂到不同的分区中。这个过程和 ...

术语表

MaxCompute MapReduce及UDF程序在分布式环境中运行时受到 Java沙箱的限制。T Table（表）表是MaxCompute的数据存储单元。更多表信息，请参见表。Tunnel MaxCompute的数据通道，提供高并发的离线数据上传下载服务。您可以使用Tunnel服务向...

大数据分布式计算框架

新品推荐