大数据和Linux运计算-大数据和Linux运计算文档介绍内容-阿里云

产品系列

在数仓版的能力基础上，从数据的采集、存储、计算和应用等方面做了全面的升级。提供将源端数据实时同步到湖（Hudi on OSS）或仓（C-Store）的可视化配置能力。通过底层存储的一份全量数据，来支持离线和在线两种场景，避免因数据同步产生的...

作业优先级

背景信息 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障重要作业的计算资源。例如，系统必须在06:00点前产出某些数据，则需要保障产出这些数据的一系列作业（工作流）能够在运行时优先抢占到计算资源。您可以...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。说明更多场景案例请参见阿里云实时计算Flink版产品案例和解决方案汇总。背景信息作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入，由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议，使数据库服务具备自动扩展存储和计算资源的能力。背景信息为业务应用选择一个合适的数据库计算...

产品简介

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

兼容性概述

BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute，本文为您介绍MaxCompute支持连接的BI分析工具，以及工具与...

什么是MaxCompute

MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴...

客户案例

迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID...

应用场景

实时数仓该场景需要在一个平台上提供统一的在线查询和离线计算的能力，简化数据架构，降低开发和运维成本。通过弹性伸缩支持更合理的资源配比，减少非高峰期的保有资源，优化成本，提高性价比。该场景可实现：在离线一体化支持数据实时增...

授权信息

本文为您介绍云原生大数据计算服务 MaxCompute（MaxCompute）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。云原生大数据计算服务 MaxCompute（MaxCompute）的RAM代码（RamCode）为 odps，支持的授权粒度为 ...

其他问题

为什么不能在调度资源组上进行大数据计算？其他如何设置任务优先级？如何查看任务优先级？周期任务与周期实例、补数据实例、测试实例是什么关系？DataWorks每晚将根据周期任务，批量生成第二天自动调度的周期实例，周期实例自动生成并且...

2023年

当前成本分析仅支持计算和存储的按量付费相关数据分析，且费用数据为用量明细数据（直接按计费公式统计的原价费用），会存在因为精度或者取近似值的缘故使得统计的费用结果和账单真实值有些出入。更多详情请参见成本分析。感谢您的配合！...

EMR Studio概述

能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等开源大数据开发使用体验。覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势 ...

PostgreSQL Serverless实例简介

为了应对不断变化的业务需求，使数据库资源能够适应业务规模的快速变化，避免资源浪费和控制数据库运维成本，云数据库RDS PostgreSQL Serverless实例提供了实时弹性能力。通过本文档，您将了解到Serverless实例的特性、架构和使用方法，...

概述

它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-SQL、...

产品概述

高度可扩展相比传统单机关系型数据库，PolarDB-X 1.0 采用分层架构可确保在并发、计算、数据存储三个方面均可线性扩展，通过增加 PolarDB-X 1.0 计算资源与存储资源以达到水平扩展效果。相比基于分布式存储的新型Cloud Native数据库，理论...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

整体架构

技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批处理的混合负载。AnalyticDB MySQL 数仓版（3.0）主要用来处理高性能在线分析场景的数据。随着数据...

什么是堡垒机

运维安全中心（堡垒机）是阿里云提供的运维和安全审计管控平台，可集中管理运维权限，全程管控操作行为，实时还原运维场景，保障运维行为身份可鉴别、权限可管控、操作可审计，解决资产多难管理、运维职责权限不清晰以及运维事件难追溯等...

构建数据仓库

方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：MaxCompute+Flink+DataWorks。场景说明用户数据来源丰富，包括来自云端...

Serverless Spark概述

DLA Spark基于云原生架构，提供面向数据湖场景的数据分析和计算功能。开通DLA服务后，您只需简单的配置，就可以提交Spark作业，无需关心Spark集群部署。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓...

简介

BatchCompute 是阿里云上的批量计算服务，可以帮助用户进行大规模并行计算。OSS 是阿里云上的对象存储服务，可以存储海量数据。ECS 是阿里云上的云服务器，极易运维和操作,可以方便的制作系统镜像。渲管与这三个云产品的关系如下图 A)制作...

计算设置概述

Fusioninsight Flink Fusioninsight Flink 是一种基于Apache Flink的流式处理引擎，可以实现高速数据流的实时计算和分析。Blink独享版 Blink是阿里云实时计算引擎。重要该版本在公共云已停售，请谨慎选择。计算设置入口在Dataphin首页，...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

功能概述

当您的数据库中有数据需要被保护时，可以使用RDS MySQL全密态数据库功能，该功能提供的加密解决方案能够在遵守数据保护法规的前提下保障您的数据安全，使被保护数据免受未授权访问。本文介绍全密态数据库的概念、应用场景和安全分级。什么...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态开源大数据生态Hadoop/Spark等、阿里云数据生态开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

DataWorks V3.0

DataWorks V3.0核心特性支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构，在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上，新增开源大数据引擎E-MapReduce、交互式分析和图计算服务（Graph Compute）等引擎服务。...

什么是边缘流数据分析

流数据分析是一种使用流的方法快速实时处理数据的计算方式。边缘计算中的流数据分析，继承了物联网平台的流数据分析能力。在数据分析控制台创建流数据分析任务，并将该任务下发到边缘端，通过边缘设备实时运行。运行结果可以存储在边缘端...

2022-03-04版本

集成阿里云OSS和DLF等组件，完善数据在计算引擎间的连通性。管理DLF Catalog AUTO OPTIMIZE语句 Hudi结果表提升日志查看和设置的易用性新增日志分页显示。在作业探查页签中，新增日志分页的能力，避免作业长期运行会导致日志过大页面无法...

公告

尊敬的MaxCompute用户：感谢您对云原生大数据计算服务MaxCompute的支持，MaxCompute从 2022年9月发布新版管理控制台以来，陆续实现了原有 MaxCompute管家的能力，同时交互体验有了很大提升，并扩展更多的管理和运维能力。目前...

2024年

准备工作 2024-03-25 新增StarRocks Connector 新说明 StarRocks Connector通过实现External Catalog机制，无需数据导入或创建外部表即可无缝访问MaxCompute数据源，并执行复杂的SQL查询，提升了数据分析效率并降低了运维难度和成本。...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

什么是EMR Serverless Spark

它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。产品特性构建企业级全托管的数据...

功能更新动态（2022年之前）

同时，手动任务、汇总逻辑表不再计算数据处理单元，您将以更低的成本进行逻辑研发。2021年08月19日华北2（北京）、华东1（杭州）计费说明 2021年08月24日华南1（深圳）2021年08月26日华东2（上海）系统将依据您选择的数据处理单元规格...

大数据AI公共数据集分析

MaxCompute：适用于数据分析场景的企业级SaaS模式云数据仓库，为海量数据提供丰富的计算和存储能力。所需费用 DataWorks：产品版本：阿里云为您提供了免费的基础版DataWorks。增强分析：阿里云为您提供了免费的使用额度，超出额度后将收取...

数据迁移

MaxCompute为您提供了完善的数据迁移方案以及多种经典的分布式计算模型，能够快速地解决海量数据存储和计算问题，有效降低企业成本。DataWorks 为MaxCompute提供一站式的数据集成、数据开发、数据管理和数据运维等功能。其中：数据集成为...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

产品优势

可快速对接视频智能和大数据产品，实现业务降本增效。多场景支持，快速技术演进支持公共云（中心云、边缘智能云）、专有云形态，覆盖多应用场景。智能开放，对接智能视觉、机器学习平台、视频智能生态合作伙伴，快速技术迭代，构建利用...

大数据和Linux运计算

新品推荐