云计算分布式大数据hadoop实战高手之路-云计算分布式大数据hadoop实战高手之路文档介绍内容-阿里云

应用场景

基因数据处理云工作流可以将多个批量计算分布式作业串联或并行编排，可靠地支持执行时间长、并发量大的大规模计算。如基因数据分析中将基因序列对齐，将所有染色体并行做变异分析，最终将各染色体数据聚合产出结果。云工作流根据指定的...

HDFS云原生上云方案

Lindorm文件引擎是面向海量非结构化数据的分布式文件存储服务，具有弹性、低成本的优势，提供100%的HDFS协议和使用体验，支持企业大数据中的HDFS无缝平滑上云，构建云原生时代的存储计算分离的大数据架构。方案总览方案优势简单：...

搭建Hadoop环境

Hadoop是由Apache基金会使用Java语言开发的分布式开源软件框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的能力进行高速运算和存储。本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提...

2023年

Spark Connector 2023-10-27 新增数据科学计算概述新说明 MaxFrame是由阿里云自研的分布式科学计算框架，是对历史相关产品功能（PyODPS、Mars）的重大升级，在MaxCompute之上提供一套完全兼容Pandas接口的API，让用户用更为熟悉、更符合...

顺德农商

解决方案通过引入阿里“飞天”云计算操作系统、分布式中间件体系 SOFAStack、分布式数据库平台 OceanBase、金融核心套件 bPaaS、mPaaS、金融数据智能平台、移动开发平台等，逐渐打造了覆盖底层 IDC 到上层移动应用在内的金融级全分布式...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

快速入门

文件存储 HDFS 版适用于互联网行业、金融行业等有大数据计算与存储分析需求的行业客户进行海量数据存储和离线计算的业务场景，充分满足以Hadoop为代表的分布式计算业务类型对分布式存储性能、容量和可靠性的多方面要求。开通文件存储 ...

基于Flink的资讯场景实时数仓

云消息队列 Kafka 版云消息队列 Kafka 版是阿里云基于Apache Kafka构建的高吞吐量、高可扩展性的分布式消息队列服务，广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等，是大数据生态中不可或缺的产品之一，阿里云提供全...

概述

文件存储HDFS版文件存储HDFS版（Apsara File Storage for HDFS）是一款面向阿里云ECS实例及容器服务等计算资源的文件存储服务，满足以Hadoop为代表的分布式计算业务类型对分布式存储性能、容量和可靠性的多方面要求。表格存储表格存储...

天弘基金

业务挑战在大规模分布式应用中，曾经的单体应用按横向和纵向的维度被拆分到集群的各个节点之中，为了解决服务及数据调用的问题，引入了分布式服务框架、分布式消息集群、分布式文件存储、分布式缓存等一系列服务。应用的拆分及分布式中间...

金融级云原生全栈解决方案

SOFAStack™（Scalable Open Financial Architecture Stack）是一套用于构建金融级云原生分布式应用的技术栈。包含构建金融级云原生架构所需的各个组件，也是在金融场景里锤炼出来的最佳实践，提供分布式中间件、应用运维管理、技术风险...

术语表

MaxCompute MapReduce及UDF程序在分布式环境中运行时受到 Java沙箱的限制。T Table（表）表是MaxCompute的数据存储单元。更多表信息，请参见表。Tunnel MaxCompute的数据通道，提供高并发的离线数据上传下载服务。您可以使用Tunnel服务向...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

数据科学计算概述

MaxFrame是由阿里云自研的分布式科学计算框架，是对历史相关产品功能（PyODPS、Mars）的重大升级，在MaxCompute之上提供一套完全兼容Pandas接口的API，让用户用更为熟悉、更符合Python社群习惯的方式使用MaxCompute。本文为您介绍...

全场景解决方案

金融级分布式架构，快速迭代、弹性扩展经济性：高可靠、高性能、低成本，灵活扩展方案优势金融级云原生架构体系技术上引入阿里“全家桶”云原生架构技术体系，包括飞天平台、企业级分布式架构平台、OceanBase 数据库、大数据平台、移动...

组件中心

分布式事务蚂蚁集团自主研发的金融级分布式事务中间件，用来保障在大规模分布式环境下业务活动的最终一致性。在蚂蚁集团内部被广泛地应用于交易、转账、红包等核心资金链路，服务于亿级用户的资金操作。研发效能持续交付基于 Gitflow ...

产品架构

分布式文件系统 LDFS（Lindorm DFS，也称为Lindorm文件引擎）是面向云基础存储设施设计、兼容HDFS协议的分布式存储系统，并同时支持运行在本地盘环境，以满足部分大客户的需求，向多模引擎和外部计算系统提供统一的、与环境无关的标准接口...

查询执行模式

背景云原生数据仓库AnalyticDB MySQL版（简称ADB MySQL版），是阿里巴巴自主研发的海量数据实时高并发在线分析云计算服务，可以对海量数据进行即时的多维分析透视和业务探索。AnalyticDB MySQL 的执行引擎是MPP DAG的融合执行引擎，能够...

物流行业：PolarDB分布式版助力韵达“客户管家”全面...

海量数据怎么存按监管要求，我们需要保存数年的数据，面临日增千万的数据量，在任何一个数据库哪怕是分布式数据库内，也是一个极大的挑战，即便我们的DBA可以定期地人肉备份，清理。绝大部分数据库也不能及时地回收空间，需要DBA额外的...

什么是 SOFAStack

SOFAStack 的名称来自蚂蚁内部发展十多年的金融级分布式中间件 SOFA（Service Oriented Fabric Architecture），代表着从支付宝创立之初就开始在关键金融交易系统锤炼出来的分布式架构实践。SOFAStack 整体产品架构如下图所示：SOFAStack ...

产品概述

产品简介 PolarDB-X 1.0 是由阿里巴巴自主研发的PolarDB分布式版数据库，融合分布式SQL引擎与分布式自研存储X-DB，基于云原生一体化架构设计，可支撑千万级并发规模及百PB级海量存储。专注解决海量数据存储、超高并发吞吐、大表瓶颈以及...

技术原理

分布式线性扩展 PolarDB-X 将数据表以水平分区的方式，分布在多个存储节点（DN）中。数据分区方式由分区函数决定，PolarDB-X 支持哈希（Hash）、范围（Range）等常用的分区函数。以下图为例，shop库中的orders表根据每行数据的ID属性的哈希...

金融大数据

业务架构架构说明：基于阿里云大数据平台强大的计算能力（离线数据处理、交互式OLAP分析能力、实时流处理）以及分布式可视化算法平台PAI，有机集成了批量和实时多模式计算能力，支持实时信用评分和风险预警。实时决策引擎，通过DTBoost...

产品优势

高性能支持秒级别调度，轻量级分布式计算可以帮助您完成准实时的大数据跑批。节约成本和提升效率无机器和人工运维成本，接入简单，提供报警监控。安全防护多层次安全防护，包括：支持HTTPS，VPC访问。支持用户隔离、命名空间隔离和应用...

云原生分布式数据库PolarDB-X 1.0和2.0区别

概述本文主要介绍云原生分布式数据库PolarDB-X 1.0和2.0的区别。详细信息 PolarDB-X提供1.0中间件形态，以及2.0一体化形态，具体区别如下：PolarDB-X 1.0中间件形态由计算层PolarDB-X实例与存储层私有定制RDS实例组成，通过挂载多个MySQL...

块存储概述

按性能分类按云盘性能不同，分为ESSD AutoPL云盘、ESSD PL-X云盘、ESSD云盘、ESSD Entry云盘以及上一代云盘（SSD云盘、高效云盘和普通云盘）。各云盘类型对比说明如下所示：云盘类型特点应用场景计费 ESSD AutoPL云盘容量与性能可解耦...

附录：SOFAStack 产品目录

分布式事务支持数据访问代理结合中间件分布式事务套件，可以支持分布式事务，保证分布式数据库数据一致性。应用场景海量数据读写提供灵活的数据拆分机制，代码侵入性低，可以非常方便地实现数据的水平拆分与扩容，从而解决数据库单机...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

整体架构

AnalyticDB MySQL版融合了分布式、弹性计算与云计算的优势，对规模性、易用性、可靠性和安全性等方面进行了大规模的改进，充分满足不同场景实时数据仓库的需求。支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等，...

分布式任务调度 SchedulerX

SchedulerX是阿里巴巴自研的基于Akka架构的分布式任务调度平台，兼容开源XXL-JOB、ElasticJob、K8s Job、Spring Schedule，支持Cron定时、一次性任务、任务编排、分布式数据处理，具备高可用、可视化、可运维、低延时等能力。

云数据库Cassandra版

全球首发云Cassandra服务。ApsaraDB for Cassandra是基于开源Apache Cassandra，融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra为互联网业务而生，在全球广大互联网公司有成熟应用，是目前最流行的宽表数据库。

存储类型

云数据库RDS MariaDB提供了ESSD云盘、SSD云盘两种存储类型，本文介绍这两种存储类型的基本信息及选购建议。存储类型介绍存储类型说明 ESSD云盘增强型SSD云盘（Enhanced SSD云盘，下文简称ESSD云盘），是阿里云全新推出的超高性能云盘...

产品概述

PolarDB分布式版 MySQL Share Nothing，分布式 公共云、专有云企业版、DBStack MySQL生态下的大规模数据、超高并发应用 PolarDB MySQL版和PolarDB PostgreSQL版产品架构 PolarDB MySQL版和PolarDB PostgreSQL版均为计算存储分离、共享...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态开源大数据生态Hadoop/Spark等、阿里云数据生态开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

授权信息

本文为您介绍云原生大数据计算服务 MaxCompute（MaxCompute）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。云原生大数据计算服务 MaxCompute（MaxCompute）的RAM代码（RamCode）为 odps，支持的授权粒度为 ...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

新建 PolarDB-X 2.0 数据源

背景信息云原生数据库 PolarDB 分布式版（简称 PolarDB-X）是由阿里巴巴自主研发的云原生分布式数据库，为您提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。详情请参见什么是云原生数据库 PolarDB 分布式版。前提条件...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

产品功能

分布式计算 提供简单、易用的分布式编程模型，支持进行大数据批处理。单机随机挑选一台机器执行。更多信息，请参见单机。广播所有机器同时执行且等待全部结束。更多信息，请参见广播。Map模型类似于Hadoop MapReduce里的Map。只要实现...

云计算分布式大数据hadoop实战高手之路

新品推荐