大数据和分布式-大数据和分布式文档介绍内容-阿里云

本地运行

本文向您介绍本地和分布式环境运行MapReduce的差异和MapReduce本地运行示例。各阶段介绍本地运行前：通过在Jar命令中设置 –local 参数，在本地模拟MapReduce的运行过程，从而进行本地调试。本地运行时：客户端会从MaxCompute中下载本地...

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

产品整体介绍

在第三方认证层面，AnalyticDB PostgreSQL版通过了“国际数据库TPC官方TPC-H 30TB认证”（性价比综合排名第一），信通院“分布式事务型数据库基础能力评测”（TPC-C）和“分布式分析型数据库大规模性能认证”（640节点 TPC-DS 100TB）。...

概述

金融分布式架构 SOFAStack 致力于提供一整套帮助广大金融场景落地云原生、分布式架构的产品和解决方案，而其中的应用 PaaS 平台，融合金融科技多年在大规模分布式系统和容器平台的实践经验，使用户在专注于业务价值的同时，提升研发效率和...

应用场景

提供大数据和人工智能的中台能力建设，支持分布式金融核心系统的异地多活架构。金融级云原生应用说明满足金融业务发展和严苛场景考验，让云计算更懂金融。蚂蚁集团自主研发的金融级分布式架构平台，专注为金融用户提供全栈式的基础架构...

羲和分析计算引擎

比如：利用数据分布，直接进行基于特定数据的计算，避免分布式系统中数据和命令流交互的开销。利用数据存储的能力，下推谓词、聚合等计算，实现近存储的计算加速。利用数据模型中的范式依赖，数据数值类型等进行查询执行算法优化。

全场景解决方案

金融级应用 PaaS，安全生产支撑异构 IaaS 适配/多集群/应用管理/可观测性/应急容灾 Mesh 异构集成，存量应用平滑上云基础架构和业务解耦/多语言/多协议/多平台客户案例建议产品统一应用运维方案架构“分布式”和“上云”为商业银行...

数据分析整体趋势

这些云原生数据仓库技术分别起源于数据库和大数据，提供标准SQL接口和ACID保证，底层存储通过Share Everything或Share Nothing实现资源池化和横向扩展能力。资源隔离，数据共享是目前业务应用对云原生数据仓库的普遍需求。综上所述，数据...

依赖与配置项

基于 Spring 框架在 Spring 框架中，您需要依次添加 Spring 依赖和分布式事务依赖。添加 Spring 依赖 分布式事务依赖 Spring 4 框架，需要在应用中引入 Spring JAR 包，您可以在应用中添加如下 Spring Maven 依赖：!spring boot and ...

创建PolarDB-X 2.0数据订阅任务

前提条件已创建 PolarDB分布式版实例和数据库，具体操作请参见创建实例和创建数据库。说明 PolarDB分布式版中的数据库须基于RDS MySQL创建，DTS暂不支持基于 PolarDB MySQL版创建的数据库。若源库为经典网络的实例，则不支持通过...

什么是全局事务服务GTS

全局事务服务GTS（Global Transaction Service）用于实现分布式...在单机数据库下很容易维持事务的ACID（Atomicity、Consistency、Isolation和Durability）特性，但在分布式系统中并不容易，GTS可以保证分布式系统中分布式事务的ACID特性。

DeleteDrdsDB

该接口只是提交了删除数据库的任务，接入方需要依据DescribeDrds接口（查询数据库信息的接口）的返回结果来判断分布式数据库是否删除成功。请求参数参数名类型是否必须描述 Action String 是系统规定参数，取值：DeleteDrdsDB。DbName...

购买数据访问代理实例

数据访问代理是蚂蚁金融科技自主研发的金融级分布式数据库中间件，用于解决海量请求下数据访问的瓶颈及数据库的容灾问题。提供水平拆分、平滑扩缩容、读写分离的在线分布式数据库服务。使用本产品前，您需要购买一个数据访问代理实例。操作...

DescribeDrdsDB

DbName String 是 分布式数据库的名称。DrdsInstanceId String 是 PolarDB-X实例ID。返回值参数名类型描述 DbName String 数据库名称。Status String 0-建库中 1-正常 2-建库失败 3-删除中 4-删除失败 5-迁移中 6-迁移失败 CreateTime ...

什么是MaxCompute

MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴...

概述

数据同步服务的内核在阿里巴巴跨域长途实时同步、实时增量分发、分布式数据库、大数据等场景中提供着功能丰富和服务稳定的数据方案，支持着阿里巴巴交易异地多活、广告、搜索、大数据实时抽取、商务对账单等双十一媒体大屏等众多业务场景。

名词解释

术语说明 cassandra 云数据库Cassandra版是在线可靠的NoSQL分布式数据库服务，支持类SQL语法CQL，支持多地多活，提供了安全、容灾、监控、备份恢复等企业级能力。CQL CQL（Cassandra Query Language）是cassandra中提供的一种类SQL查询...

PolarDB-X适用场景

分布式快速改造场景描述当业务体量即将突破单机数据库承载极限和单表过大导致性能、维护问题时，分布式改造是解决上述问题的高性价比方案。数据库作为分布式改造的重点难点，"和使用单机数据库一样使用分布式数据库"一直是广大用户的核心...

总体流程

创建表：以创建与On Time数据集类型对应的表为例，介绍如何使用DMS在已创建的数据库中创建本地表和分布式表。导入数据：以导入On Time数据集至已创建的分布式表为例，介绍如何使用客户端clickhouse-client工具导入数据到云数据库...

人保健康

借助蚂蚁集团的金融级分布式架构 SOFAStack、金融级分布式数据库 OceanBase、金融级 PaaS 平台等能力，人保健康构建起对标行业水平的新一代互联网保险云核心业务系统。客户价值人保健康新一代互联网保险云核心业务系统支持业务高并发需求...

基本原理

在分布式数据库中，如果一个事务同时修改多个分库的数据，无法简单保证所有分库一定都能提交成功。如果在事务提交过程中出错，会出现一些分库提交成功、另一些分库失败回滚，产生数据不一致。因而无法保证事务的原子性。而 PolarDB-X 1.0 ...

产品优势

高性能支持秒级别调度，轻量级分布式计算可以帮助您完成准实时的大数据跑批。节约成本和提升效率无机器和人工运维成本，接入简单，提供报警监控。安全防护多层次安全防护，包括：支持HTTPS，VPC访问。支持用户隔离、命名空间隔离和应用...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

背景信息 PolarDB-X 1.0 是由阿里巴巴自主研发的云原生分布式数据库，融合分布式 SQL 引擎和分布式自研存储 X-DB，基于云原生一体化架构设计。PolarDB-X 1.0 可以支撑千万级并发规模，以及百 PB 级海量存储。详情请参见产品概述。PolarDB-...

云数据源Alibaba PolarDB分布式版

数据库地址部署PolarDB分布式版数据库的外网地址（若使用VPC数据源，需填写部署数据库的内网地址和内网端口）。请登录云原生分布式数据库控制台，获取数据库地址。例：xxxxxxxxxxxxxxxxxxxxxx.drds.aliyuncs.com 请参见查看数据库信息。...

SQL 路由

拆分键是数据访问代理中数据分布和 SQL 路由的凭证。SQL 路由当用户发起执行 SQL 语句的请求时，数据访问代理会理解 SQL 语句的含义，然后按照拆分键的值和执行策略将 SQL 语句路由到对应分区进行执行，如下图所示：数据合并如果一个 SQL...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

Trino概述

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

Presto概述

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

企业版产品系列

一写多读 PolarDB 采用分布式集群架构，一个集群版集群包含一个主节点和最多15个只读节点（可以只包含一个主节点），多个数据库节点构成数据库引擎层。主节点处理读写请求，只读节点仅处理读请求。主节点和只读节点之间采用Active-Active...

技术面临的挑战与革新

在Proxy的协同下，甚至可以做到节点切换对应用无感知传统分布式架构与存储计算分离架构对比 分布式数据库其实已经有了不短的历史，早期的分布式数据库，在整体架构上可以分为share nothing和share disk两大类。share disk通过扩展底层的...

未来规划

云计算架构的核心逻辑就是通过虚拟化技术带来池化资源，云原生数据库采用分布式数据库架构，实现大规模扩展，每套数据库系统横跨多台服务器和虚拟机，带来了全新的系统管理挑战。其中最核心的挑战就是如何实现弹性以及高可用，实现按需按量...

什么是云原生数据库PolarDB分布式版

产品简介 PolarDB-X 是阿里巴巴自主设计研发的高性能云原生分布式数据库产品，为用户提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。PolarDB-X 始终保持对阿里巴巴集团“双十一购物狂欢节”所有相关业务的全面支撑。...

公交出行：启迪公交

解决方案启迪公交采用 PolarDB-X 分布式数据库方案构建了全部业务系统，既支持海量大数据的处理能力，又支持高并发、高可用和很强的弹性伸缩能力。票务管理工作台通过用户检录数据，实时同步到阿里云AnalyticDB分析型数据库，分析出实时...

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

什么是PolarDB MySQL企业版

高可用和高可靠保障，数据安全可靠共享分布式存储的设计，彻底解决了主从异步复制所带来的备库数据非强一致的缺陷，使得整个数据库集群在应对任何单点故障时，可以保证数据零丢失。数据多副本跨可用区部署，主节点故障后RTO。GDN集群间...

新建 PolarDB-X 2.0 数据源

背景信息云原生数据库 PolarDB 分布式版（简称 PolarDB-X）是由阿里巴巴自主研发的云原生分布式数据库，为您提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。详情请参见什么是云原生数据库 PolarDB 分布式版。前提条件...

功能特性

分布式事务（Distributed Transaction-eXtended，简称 DTX）是蚂蚁集团自主研发的金融级分布式事务中间件，支持跨数据库、跨服务以及混合的方式处理分布式应用，具备多种接入模式和金融级配套功能，本文将主要介绍分布式事务的功能特性。...

强一致分布式事务

PolarDB-X 在存储节点（DN）的数据和变更日志中都保存了分布式事务的中心授时（包含了时间戳信息），任意时间点的数据恢复（PITR，point-in-time recovery）都可以快速将时间戳转化为分布式的中心授时，在备份恢复中按数据的版本可见性进行...

基于MySQL 5.7的分布式事务

如何使用 PolarDB-X 1.0 分布式事务使用体验和单机MySQL数据库完全一致，例如：SET AUTOCOMMIT=0 开启一个事务；COMMIT 提交当前事务；ROLLBACK 回滚当前事务。如果事务中的SQL仅涉及单个分片，PolarDB-X 1.0 会将其作为单机事务直接下发给...

典型客户案例

PaaS 层建设，构建分布式系统上下游生态，实现分布式云原生架构体系实现分布式云原生架构体系，需要从技术规范、基础设施、生产力工具、组织流程等各个方面进行持续革新：需要一个面向分布式架构的开发平台和运行平台，结合分布式数据库、...

大数据和分布式

新品推荐