云计算分布式大数据hadoop实战高手之路-从零开始-云计算分布式大数据hadoop实战高手之路-从零开始文档介绍内容-阿里云

公告

2023年12月15日-MaxCompute项目生命周期流程改造公告尊敬的MaxCompute用户：感谢您对云原生大数据计算服务MaxCompute的支持，MaxCompute从北京时间 2023年12月25日（周一）开始陆续对各个地域（Region）的项目生命周期进行改造升级，如果...

阿里云电子政务云产品全家福

阿里云电子政务云平台提供弹性计算类、网络、数据库、存储、大数据、中间件、IoT等品类丰富的产品及高标准的安全合规服务，用以支撑多种政务类业务场景，例如：城市大脑，合规应用平台等。截至文档发布时间，阿里云电子政务云共计上线95款...

数据分析整体趋势

随着Google等互联网企业崛起，以Hadoop为代表的基于传统x86服务器集群的大数据技术迅速发展，同时开源分布式数据库如Greenplum等也成为相应替代方案，为广大中小企业，尤其是互联网行业大大降低了数据分析的技术和成本门槛，还有分布式技术...

行业趋势与背景

该时代的产品专注解决单机解决不好的分布式扩展性问题，满足分布式数据一致性要求，并支持从单机到分布式的平滑演进，利用云原生技术的优势提供低成本和弹性能力，在交付上具备线上公有云、线下专有云、轻量化等全形态输出。

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm：Hadoop可以运用在很多商业应用系统，可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算，允许数据载入内存作反复查询，融合数据仓库、流...

发展历程

本文为您介绍了MaxCompute从诞生到成熟的发展历程。关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到...

序言

纵观全局，可以把传统企业架构迈向云计算架构的演进之路粗粒度地抽象成三个阶段：一、云机房（Cloud-Based），指的是把机房迁移到云（包括公有云或专有云）的第一步，基于虚拟化技术使资源利用率和运维效率有所提高，但依旧需要重点关注...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

PolarDB-X适用场景

目前，PolarDB-X 具备从单机到分布式的平滑演进能力，支持动态通过DDL将一张大表动态调整为分布式的分区表，结合分布式事务、以及兼容MySQL binlog的数据回流，可完成单机到分布式的快速改造。数据库国产化替换场景描述信息系统国产化是...

PolarDB-X历史

DRDS的商业化成功，标志着阿里巴巴分布式数据库技术完成了从内部孵化到市场化运营的阶段性转变，以及从分布式数据库中间件到分布式数据库系统实质性跨越。PolarDB-X 1.0阶段关键字：架构与品牌升级；国计民生项目 2018~2019年，DRDS凭借...

典型客户案例

完成云平台 PaaS 层建设，构建分布式系统上下游生态，实现分布式云原生架构体系实现分布式云原生架构体系，需要从技术规范、基础设施、生产力工具、组织流程等各个方面进行持续革新：需要一个面向分布式架构的开发平台和运行平台，结合...

2023年

Spark Connector 2023-10-27 新增数据科学计算概述新说明 MaxFrame是由阿里云自研的分布式科学计算框架，是对历史相关产品功能（PyODPS、Mars）的重大升级，在MaxCompute之上提供一套完全兼容Pandas接口的API，让用户用更为熟悉、更符合...

计算设置概述

设置Dataphin实例的计算引擎为TDH或ArgoDB 星环TDH 6.x Transwarp Data Hub（TDH)是星环大数据平台实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持实时计算，具有高吞吐低延迟等优势，同时也支持离线计算与调度。...

使用DTS将华为云分布式缓存服务Redis迁移至阿里云

使用数据传输服务（DTS），您可以将数据从华为云分布式缓存服务Redis迁移至阿里云云数据库Redis版。前提条件华为云Redis实例的引擎版本为Redis 3.0。源数据库实例类型为单机版。源数据库实例支持公网连接。已创建阿里云Redis实例，相关...

什么是 SOFAStack

SOFAStack 的名称来自蚂蚁内部发展十多年的金融级分布式中间件 SOFA（Service Oriented Fabric Architecture），代表着从支付宝创立之初就开始在关键金融交易系统锤炼出来的分布式架构实践。SOFAStack 整体产品架构如下图所示：SOFAStack ...

产品优势

高可用和高可靠保障，数据安全可靠共享分布式存储的设计，彻底解决了主从（Master-Slave）异步复制所带来的备库数据非强一致的缺陷，使得整个数据库集群在应对任何单点故障时，可以保证数据零丢失。多可用区架构，在多个可用区内都有数据...

大数据型

大数据型实例规格族旨在解决大数据时代下海量业务数据的云上计算和存储难题，适用于Hadoop分布式计算、海量日志处理和大型数据仓库等需要海量数据存储和离线计算的业务场景，充分满足以Hadoop为代表的分布式计算业务对实例存储性能、容量和...

整体架构

AnalyticDB MySQL版融合了分布式、弹性计算与云计算的优势，对规模性、易用性、可靠性和安全性等方面进行了大规模的改进，充分满足不同场景实时数据仓库的需求。支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等，...

Teamtnt变种攻击Hadoop集群

概述 Hadoop作为一个分布式计算应用框架，种类功能繁多，而Hadoop Yarn作为其核心组件之一，负责将资源分配至各个集群中运行各种应用程序，并调度不同集群节点上的任务执行。Hadoop Yarn未授权访问使得攻击者无需认证即可通过REST API部署...

块存储概述

按性能分类按云盘性能不同，分为ESSD AutoPL云盘、ESSD PL-X云盘、ESSD云盘、ESSD Entry云盘以及上一代云盘（SSD云盘、高效云盘和普通云盘）。各云盘类型对比说明如下所示：云盘类型特点应用场景计费 ESSD AutoPL云盘容量与性能可解耦...

什么是云原生数据库PolarDB分布式版

本文介绍什么是云原生数据库PolarDB分布式版，也称为 PolarDB分布式版，本手册中简称为 PolarDB-X。产品简介 PolarDB-X 是阿里巴巴自主设计研发的高性能云原生分布式数据库产品，为用户提供高吞吐、大存储、低延时、易扩展和超高可用的云...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态开源大数据生态Hadoop/Spark等、阿里云数据生态开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

客户案例

基于金融云计算平台以及 OceanBase 的海量存储，网商银行拥有处理高并发金融交易、海量大数据和弹性扩容的能力，可以利用互联网和大数据的优势，给更多小微企业提供金融服务。唐家才网商银行 CTO“网商银行选择 OceanBase 三地五中心部署...

Tair（Redis企业版）简介

阿里云数据库Redis企业版（又称阿里云Tair），是基于阿里集团内部使用的Tair产品研发的云上托管企业级内存数据库，从2009年开始正式承载阿里集团业务，历经天猫双十一、优酷春晚、菜鸟、高德等业务场景的磨练，是一款真正的企业级内存数据...

什么是云原生内存数据库Tair

实例存储介质随着互联网的高速发展，业务场景变得越来越丰富和复杂，云原生内存数据库Tair 作为一个高可用、高性能的分布式NoSQL数据库，从访问延时、持久化需求、整体成本这三个核心维度考量，基于DRAM、NVM和ESSD云盘存储介质，推出了...

产品概述

PolarDB分布式版 MySQL Share Nothing，分布式 公共云、专有云企业版、DBStack MySQL生态下的大规模数据、超高并发应用 PolarDB MySQL版和PolarDB PostgreSQL版产品架构 PolarDB MySQL版和PolarDB PostgreSQL版均为计算存储分离、共享...

客户案例

价值体现 从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

搭建Hadoop环境

Hadoop是由Apache基金会使用Java语言开发的分布式开源软件框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的能力进行高速运算和存储。本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提...

基本概念

发起方 Initiator，分布式事务的发起方负责启动分布式事务，通过调用参与者的服务，将参与者纳入到分布式事务当中，并决定整个分布式事务是提交还是回滚。一个分布式事务有且只能有一个发起方。分组标识用于在网关上做全局的唯一标识，...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

附录一：运维服务产品清单

Elasticsearch elasticsearch 大数据 大数据计算 大数据计算服务 odps 大数据 大数据计算实时计算Flink版 sc 大数据 大数据计算 E-MapReduce emapreduce 大数据 大数据计算数据总线 datahub 云计算基础存储服务对象存储 oss 云计算基础...

产品整体介绍

云原生数据仓库AnalyticDB PostgreSQL版提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能，支持数据高吞吐实时写入与批量导入，提供ACID保证和标准事务隔离级别，采用MPP全并行架构，是一款具有高性价比的云原生数仓产品，提供基于...

PolarDB PostgreSQL版架构介绍

分布式执行加速索引创建 分布式并行执行加速多模：时空数据库传统数据库的问题随着用户业务数据量越来越大，业务越来越复杂，传统数据库系统面临巨大挑战，例如：存储空间无法超过单机上限。通过只读实例进行读扩展，每个只读实例独享一...

使用Stage和Task详情分析查询

AnalyticDB for MySQL 在前端接入节点接收到查询请求后，会将查询切分成多个Stage，在存储节点（Worker节点）和子任务执行节点（Executor节点）分布式进行数据的读取和计算。部分Stage可以并行执行，但部分Stage之间存在依赖关系，只能串行...

ECS选型最佳实践

d：表示大数据型（big data）处理器与内存配比为1:4，适用于Hadoop MapReduce、HDFS、Hive、HBase等大数据计算和存储业务场景，Elasticsearch、Kafka等搜索和日志数据处理场景。s：表示共享型（share）t：表示突发型（burst）e：表示经济型...

自助建站方式汇总

搭建Hadoop环境 Hadoop是一款由Apache基金会用Java语言开发的分布式开源软件框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的能力进行高速运算和存储。环境类型部署方式说明搭建Hadoop环境手动搭建...

HDFS云原生上云方案

Lindorm文件引擎是面向海量非结构化数据的分布式文件存储服务，具有弹性、低成本的优势，提供100%的HDFS协议和使用体验，支持企业大数据中的HDFS无缝平滑上云，构建云原生时代的存储计算分离的大数据架构。方案总览方案优势简单：...

快速入门

如果您是初次使用阿里云Elasticsearch，可参见产品使用系列文档，快速使用Elasticsearch、Logstash、Beats、高级监控报警功能和应用...大数据云产品迁移包括MaxCompute、Hadoop、以及经过实时计算处理后的数据迁移至阿里云Elasticsearch。

技术面临的挑战与革新

云计算下如何平衡扩展性和稳定性SLA 云计算环境下，企业和个人通过开启云服务，即可以得到所需的软件功能、计算资源、存储空间，并按实际使用量付费。在业务量逐步上涨的过程中，用户需要不断提升计算和存储资源来满足业务需要。因此，扩展...

创建集群

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。...

云计算分布式大数据hadoop实战高手之路-从零开始

新品推荐