阿里大规模数据计算与处理-阿里大规模数据计算与处理文档介绍内容-阿里云

客户案例

大数据处理能力：随着阿里巴巴集团业务的高速发展，推广营销在商业引流上的重要性越发明显，报表作为营销产品的闭环，其诉求也越发的多样化、个性化，报表数据在近几年的发展中在量级上已经增长到TB甚至数十 TB 的规模。这个时候存储系统的...

基本概念

通过数据集成服务，可将Lindorm数据导入MaxCompute，实现大规模的数据计算。更多信息，请参见什么是MaxCompute。MongoDB 提供稳定可靠、弹性伸缩、完全兼容MongoDB协议的数据库服务。数据结构多样时，可以选择将结构化数据存储在Lindorm，...

迁移方案

本文为您介绍将自建开源Flink集群的流式作业（包含Table API、SQL和Datastream）迁移至阿里云实时计算Flink全托管版的迁移优势、迁移方案和相关文档。迁移优势 Flink全托管产品按CU售卖，根据业务需要按需购买，可以降低成本。另外提供提交...

应用场景

高性能计算适用于大规模高性能科学计算、并行计算、仿真计算等场景，如气象预报、生物制药、基因测序、图像处理等。推荐使用弹性高性能计算E-HPC，弹性高性能计算可以将计算能力积聚，用并行计算方式解决更大规模的科学、工程和商业问题...

功能与优势

应用于实时营销、实时风控、安全态势感知等领域，提升开发效率和大规模数据处理能力，同时保证业务连续性。上下游数据连接（Connector）涵盖阿里云产品和开源社区30+主流引擎，涉及数据库、消息中间件、数据仓库、湖格式、文件系统等多种上...

X-Engine简介

为什么设计一个新的存储引擎 X-Engine的诞生是为了应对阿里内部业务的挑战，早在2010年，阿里内部就大规模部署了MySQL数据库，但是业务量的逐年爆炸式增长，数据库面临着极大的挑战：极高的并发事务处理能力（尤其是双十一的流量突发式暴增...

什么是GPU云服务器

GPU的功能特性如下：拥有大量擅长处理大规模并发计算的算术逻辑单元（Arithmetic and Logic Unit，即ALU）。能够支持多线程并行的高吞吐量运算。逻辑控制单元相对简单。下表为您介绍GPU云服务器与自建GPU服务器的区别。对比项 GPU云服务器 ...

什么是云原生内存数据库Tair

从服务淘宝详情和验证码等业务的持久化系统TBStore，到初始服务于淘宝用户中心的TDBM等等，后端系统缓存技术经历了多个系统和阶段的演变与积累，到2009年，这些系统、技术经验经过进一步的研发，融合成了阿里巴巴大规模高速存储系统Tair。...

PolarDB-X历史

TDDL阶段关键字：阿里巴巴大规模应用；分库分表技术开创者去掉传统商业数据库后，是否有更适合的产品和解决方案来替代呢？对于数据库来说，答案是明确的：开源+分布式，开源解决成本问题，分布式解决性能和容量问题。同年11月11日，TDDL...

Lindorm for Cassandra应用实践

Lindorm For Cassandra特性更强性能：相比开源Cassandra，Lindorm For Cassandra在大规模数据下吞吐量更高，延迟更低。同等规格，20亿行数据下Lindorm与开源Cassandra的性能对比如下：说明以下数值仅供参考，具体以实际场景为准。单行读...

什么是EMR Serverless StarRocks

此外，该引擎还能够利用其他二级索引，在大规模数据更新的场景下，依然能够保持对查询请求的超高速响应。智能物化视图自动化数据同步与实时更新：StarRocks支持使用物化视图进行查询加速和数仓分层。StarRocks的物化视图能够实现自动同步...

什么是DataWorks

DataWorks发展之路阿里巴巴集团内发展历程从2009年产品立项开始，DataWorks与阿里巴巴业务共同发展，结合MaxCompute、Hologres等大数据计算引擎的能力，跨越多个技术阶段，支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内...

高德

卡片的UI模板获取、数据请求聚合与逻辑处理、拼接生成Schema的能力均在FaaS层得到实现，客户端根据服务下发的Schema直接渲染展示，达到更加轻便灵活的目标。在十一出行节峰值场景中，Serverless整体服务成功率均大于99.99%，总计每分钟触发...

高德

卡片的UI模板获取、数据请求聚合与逻辑处理、拼接生成Schema的能力均在FaaS层得到实现，客户端根据服务下发的Schema直接渲染展示，达到更加轻便灵活的目标。在十一出行节峰值场景中，Serverless整体服务成功率均大于99.99%，总计每分钟触发...

简介

能够有效支撑大规模遥感影像数据和GIS栅格GRID数据的存储、查询和基础分析处理能力，包括ETL工具支持遥感影像重投影、拼接、切片、入库，支持OGC WMS/WMTS等服务发布以及基于Spark的高性能分布式计算引擎支持海量栅格图像分析和处理。...

SmartData常见问题

会不会影响Spark或Hive大规模分析计算？JindoFS写性能如何？JindoFS支持Flink实时计算场景吗？JindoFS和OSS场景下，可以使用Presto做交互式分析吗？如果使用JindoFS，如何迁移HDFS上的数据？使用Impala时，可以通过JindoFS查询OSS上的数据...

专家成长计划技术培训课程

30人通过学习本课程，能帮助学员了解阿里云的大数据产品-大数据计算服务MaxCompute和DataWorks的架构与基础运维知识、统一运维平台大数据管家，以及MaxCompute和DataWorks的常见问题定位、排查和处理。使学员全面掌握MaxCompute和...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

产品架构

其基于数据自动分区+分区多副本+LSM的架构思想，具备全局二级索引、多维检索、动态列、TTL等查询处理能力，支持单表百万亿行规模、高并发、毫秒级响应、跨机房强一致容灾，高效满足业务大规模数据的在线存储与查询需求。面向海量半结构化、...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

数据分析整体趋势

技术发展趋势商业数据库起步于二十世纪八十年代，主要代表为Oracle，SQL Server，DB2等结构化数据在线处理的关系型数据库，而以MySQL，PostgreSQL为代表的开源关系型数据库也在二十世纪九十年代得到了发展。近些年来，随着业务数据量的...

创建集群

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。...

上海新能源汽车车辆基础数据

客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品，有效解决了我们平台存储和计算的横向动态扩容瓶颈，同时借助其产品中间件LTS实现了我们平台数据的冷热分离，有效降低了数据存储成本，...

离线异步任务场景

充足的GPU资源供给函数计算平台提供充足的GPU资源供给，当业务遭遇大规模离线任务时，函数计算将以秒级弹性供给海量GPU算力资源，避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损，适合忙闲流量分明（长时空闲、短时繁忙）、忙闲...

什么是基因分析平台？

提供计算侧的文件访问缓存加速，支持计算作业直接读写OSS文件，解决并行任务的I/O和吞吐问题 大规模并行计算调度，提供容器/虚拟机执行环境，支持多种异构计算，加速基因分析。工程化的流程执行引擎，支持GA4GH标准（WDL/CWL）,无需迁移...

2023年

2023-06 功能名称功能描述发布时间发布地域相关文档新增JSON数据类型新增JSON数据类型，MaxCompute支持写入JSON数据类型时，自动优化存储，提高JSON数据计算分析性能。2023-06-27 全部地域 MaxCompute JSON类型使用指南（试用Beta...

用户画像分析概述

RoaringBitmap优化方案基于RoaringBitmap的超大规模画像分析场景，适合数据量大，标签规模多，需要去重处理的场景。通过结合RoaringBitmap结构化存储，实现天然去重，避免Join开销，降低运算复杂度，快速出结果。详情请参见画像分析-...

什么是PolarDB MySQL企业版

计算与存储分离 PolarDB 采用计算与存储分离的设计理念，满足公共云计算环境下根据业务发展弹性扩展集群的刚性需求。数据库的计算节点（Database Engine Server）仅存储元数据，而将数据文件、Redo Log等存储于远端的存储节点（Database ...

使用须知

您可以查询并分析存储在MaxCompute上的大规模数据。MaxCompute SQL支持如下主要功能。功能项说明 DDL操作支持管理表、分区、列、生命周期及视图。DML操作支持插入或更新表、分区数据。DQL操作支持SELECT、子查询等多种查询操作。增强...

迁移方案

本文为您介绍阿里云实时计算Blink独享或共享集群（Blink计算引擎和Bayes开发平台）的业务迁移至实时计算Flink全托管（Flink计算引擎VVR和开发平台VVP）时的迁移限制、迁移方案和常见问题。迁移限制由于Blink作业的State和Flink的State无法...

行业趋势与背景

在这种需求下，大规模分布式事务型数据库成为解决分布式系统数据存储、管理的主要方向。PolarDB-X 技术发展产品前言 PolarDB-X 是由阿里巴巴自主研发的云原生分布式数据库，融合分布式SQL引擎DRDS与分布式自研存储X-DB，基于云原生一体化...

产品概述

云原生数据仓库 AnalyticDB PostgreSQL 版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。云原生数据仓库 AnalyticDB PostgreSQL 版基于开源项目Greenplum构建，由阿里云深度扩展，兼容ANSI SQL 2003，兼容...

云产品事件触发器概述

事件总线EventBridge 作为一种Serverless的事件总线服务，支持包括弹性计算、存储服务、数据库、容器、大数据处理、可观测性服务及中间件服务在内的几乎所有阿里云官方事件源。事件总线EventBridge 与函数计算集成后，接入事件总线...

2021年

2021-12-30 全部地域 MaxCompute湖仓一体概述 MaxCompute支持渐进式计算 MaxCompute支持渐进式计算，在处理数据过程中按照一定时间颗粒度自动按时间分区保存处理过程中的中间结果数据，在下一个周期执行时可以重复使用上周期已经计算好的...

云产品事件触发器概述

事件总线EventBridge 作为一种Serverless的事件总线服务，支持包括弹性计算、存储服务、数据库、容器、大数据处理、可观测性服务及中间件服务在内的几乎所有阿里云官方事件源。事件总线EventBridge 与函数计算集成后，接入事件总线...

2023年

MaxCompute服务不可用赔付案例说明 2023-07-25 新增MaxCompute停止服务规格转换操作指引新说明阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务，您需要将这些版本的计算资源转换为...

向量计算（Proxima CE）概述

Proxima CE 是基于Proxima2.x内核提供的超大规模离线向量检索引擎，用于支持批量离线向量检索任务，包括基础的向量检索、多类目检索及百万TopK检索等功能。本文为您介绍在MaxCompute中如何使用向量计算功能。背景信息 Proxima CE是一款...

企业级状态后端存储介绍

GeminiStateBackend的整体架构是在LSM数据结构的基础上设计的，包含了随数据规模和访问特点变化而自适应、数据冷热分层，可以在Anti-caching和Caching架构间灵活切换的三种能力。此外，还具备随机查询友好的哈希存储结构。Nexmark性能对比 ...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

简介

BatchCompute 是阿里云上的批量计算服务，可以帮助用户进行大规模并行计算。OSS 是阿里云上的对象存储服务，可以存储海量数据。ECS 是阿里云上的云服务器，极易运维和操作,可以方便的制作系统镜像。渲管与这三个云产品的关系如下图 A)制作...

阿里大规模数据计算与处理

新品推荐