大数据计算能力是什么-大数据计算能力是什么文档介绍内容-阿里云

生态对接

商业智能（BI）工具商业智能（BI）工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化，以直观的形式展示给决策者，帮助高层管理者做出更明智的业务决策。MaxCompute支持的BI工具如下。商业BI工具工具版本要求 ...

数据表-数据概况

功能说明在数据表详情的数据概况标签页，基于对元数据及存储数据的统计，为您提供了数据表更加详细的指标信息，比如表存储大小、表文件总数、DDL最后更新时间、数据最后更新时间、访问次数、分区存储大小，分区文件数，分区最后更新时间等...

核心概念的层次结构

部门B创建了项目B，项目B没有开启按Schema存储，所以项目下直接存储了表3、表4、视图1和资源1，关联了默认后付费Quota，部门B的用户B被授予了项目B数据的访问权限，并且可以发起作业，所有作业默认使用的计算资源为默认后付费Quota。

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

什么是云数据库HBase

云数据库HBase是低成本、高扩展、云智能的大数据NoSQL，兼容标准HBase访问协议，提供低成本存储、高扩展吞吐、智能数据处理等核心能力，是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

作业优先级管理与成本优化

作业优先级 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障重要作业的计算资源。您可以通过MaxCompute设置使用包年包月计算资源Project的作业优先级，优先保障高优先级作业的计算资源。当高优先级作业启动时，...

实例类型

E-MapReduce集群由多个不同类型的实例...当集群计算能力不足时，您可以随时通过计算实例节点快速给集群增加额外的计算能力，例如Hadoop的MapReduce任务和Spark Executors等。计算实例节点可以随时新增和减少，并且不会影响现有集群的运行。

成本优化概述

由于大数据的动态性和不断变化的性质，企业用户成本优化的活动应该持续不断的进行。您可以参考以下流程进行优化：在使用MaxCompute之前，建议您详细了解付费策略以及预估自己需要使用的资源，选择适合您的付费方式。详情请参见选择付费...

应用案例

栅格代数运算栅格代数运算是指使用数学运算符对栅格数据进行加减乘除等代数计算的操作。例如，您可以应用简单的数学运算（例如加法或乘法）来更新栅格像元值，或者对多个栅格数据图层执行叠加计算（Overlay）等。栅格代数运算中最常见的...

其他问题

MaxCompute具有海量数据处理能力，推荐您通过MaxCompute进行大数据计算。如何设置任务优先级？您可以通过设置节点所在基线的优先级来实现节点优先级调整。基线优先级高（取值[1,3,5,7,8]，数值越大，优先级越高），DataWorks上任务调度时将...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

与标准SQL的主要区别及解决方法

如果希望执行大数据量的排序任务，甚至是全表排序任务，可以增大N值。解决方案请参见 MaxCompute查询得到的数据是根据什么排序的？UNION ALL 参与UNION ALL运算的所有表必须列数一致，否则会报错。参与UNION ALL运算的所有列的数据类型、列...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

操作审计事件数据迁移至MaxCompute

审计事件投递区域：选择将事件投递到大数据计算服务MaxCompute。选择投递到本账号，设置如下参数。参数描述 大数据计算服务地域被投递数据的MaxCompute项目所在地域。说明操作审计会将审计日志投递至MaxCompute指定地域下的...

数据集成概述

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量...

步骤三：创建隐私计算任务并执行

本文整体介绍，如何快速创建DataTrust隐私计算任务，进行隐私计算一、DataTrust隐私计算能力列表 DataTrust当前具备：四大隐私计算通用能力、三大隐私计算定制能力功能类型功能名称功能描述通用能力 ID安全匹配 TrustDA/PSI 在不泄漏...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

系统函数分类

字符串函数处理字符串类型数据，实现截取字符串、替换字符串、拼接字符串、查找字符串、大小写转换等业务处理能力。数学函数处理整数、小数等数值类型数据，实现数学的运算、四舍五入等业务处理能力。身份证加工函数处理身份证号数据，...

导入概述

异步导入 Spark Load 通过外部的Spark资源实现对导入数据的预处理，提高StarRocks大数据量的导入性能并且节省StarRocks集群的计算资源。Spark Load是一种异步导入方式，需要通过MySQL协议创建导入作业，并通过 SHOW LOAD 查看导入结果。...

调优集群性能

UPDATE SQL 如果单个UPDATE WHERE语句命中了较多行数据，计算引擎需要计算出所有命中行的主键，并更新其对应的字段值，然后再逐个下发给存储节点进行标记旧行以及追加（Append）新行的操作。一个UPDATE SQL操作步骤可能会放大很多倍，从而...

ECU详解

弹性计算单元（Elastic compute units，简称ECU）是分析型数据库MySQL版中衡量实例计算能力的元单位。ECU由内存容量和磁盘容量组成。ECU分类分析型数据库MySQL版中有高性能和大存储两种类型的ECU。高性能：以字母C或者H开头的ECU为高性能...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

产品概述

云原生数据仓库 AnalyticDB PostgreSQL 版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。云原生数据仓库 AnalyticDB PostgreSQL 版基于开源项目Greenplum构建，由阿里云深度扩展，兼容ANSI SQL 2003，兼容...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

产品系列概述

本文介绍云数据库RDS的产品系列，以及各系列的适用场景、支持的规格和功能等。RDS MySQL 支持的系列系列说明适用场景基础系列单节点，计算与存储分离。不支持增加只读实例。个人学习。微型网站。中小企业的开发测试环境。高可用系列 ...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

创建Hologres计算源

Dataphin支持使用Hologres为MaxCompute计算引擎作为加速计算源或单独作为离线计算源，作为加速源使用时可加速数据服务中的Dataphin数据源的查询速度，以满足对查询速度有要求的业务场景。本文为您介绍如何创建Hologres计算源。前提条件在...

统一服务

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”的传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

购买数据安全中心

阿里云数据安全中心DSC（Data Security Center）为您提供以数据为中心视角的安全风险治理能力，包括数据梳理、数据脱敏、数据风险审计等。本文介绍如何购买 DSC 服务。购买指导视频支持的地域和数据库类型购买数据安全中心前，您需要先...

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储...Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有机型。

MaxFrame概述

处理数据量大、处理逻辑复杂，需要基于MaxCompute海量数据及弹性计算资源、MaxFrame分布式能力进行大规模数据分析、处理及数据挖掘，提高开发效率。面向Data+AI开发，需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。支持的...

TPC-H

分布式事务验证：全面测试数据库系统事务能力，涵盖Atomic、Consistency、Isolation和Durability测试（coordinator节点、计算节点关机测试），考验数据库系统的事务能力，以及在断电等极端情况下的系统高可用。相关文档 TPC-H测试中需要多...

引擎简介

时序计算：时序引擎提供丰富的时序聚合计算能力，聚合引擎支持10+核心聚合算子，20+填充策略，10+插值算法。弹性伸缩：时序引擎采用分布式架构，支持在线弹性伸缩，以适应任何规模的数据存储与处理需求。数据库内机器学习：时序引擎内置...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

大数据计算能力是什么

新品推荐