大数据的计算引擎-大数据的计算引擎文档介绍内容-阿里云

SDK接口

本文为您介绍流式数据通道SDK接口的使用方法。使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

操作审计事件数据迁移至MaxCompute

审计事件投递区域：选择将事件投递到大数据计算服务MaxCompute。选择投递到本账号，设置如下参数。参数描述 大数据计算服务地域被投递数据的MaxCompute项目所在地域。说明操作审计会将审计日志投递至MaxCompute指定地域下的...

2024年

对应地域所有项目的生命周期都将与按量付费标准服务的生命周期保持一致，所有项目的存储、下载等按量付费账单归属的产品明细为 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变为 大数据计算服务MaxCompute...

EMR Studio概述

能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等开源大数据开发使用体验。覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势 ...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

管理中心功能概览

在DataWorks的管理中心，用户可以按照工作空间维度进行操作，包括配置工作空间的基本设施、选择合适的计算引擎、接入不同的数据源、注册开源集群、配置扩展程序，以及管理工作空间成员的权限和角色；此外，用户还可以在全局维度进行...

名词术语

为了更好理解DataTrust平台的安全管控机制和更好的理解使用该平台，建议您事先仔细了解以下术语。...MaxCompute 租户提供，全托管的在线数据仓库服务，提供高性能可扩展的计算和存储能力。用于存储和保护本地数据源和多方安全计算的引擎。

功能特性

计算引擎访问宽表数据宽表引擎动态列 Lindorm宽表引擎支持动态列功能，用于在实际业务中动态写入数据并执行查询，减少了数据结构设计的复杂性。动态列二级索引 Lindorm宽表引擎提供了Tabular模型下的二级索引功能。在非主键匹配的查询...

简介

能够有效支撑大规模遥感影像数据和GIS栅格GRID数据的存储、查询和基础分析处理能力，包括ETL工具支持遥感影像重投影、拼接、切片、入库，支持OGC WMS/WMTS等服务发布以及基于Spark的高性能分布式计算引擎支持海量栅格图像分析和处理。...

逻辑视图和字段资产详情

Dataphin数据表：为您展示表的名称、对象类型、存储类型、逻辑表及逻辑视图的所属板块/物理表及物理视图的所属项目、负责人、存储量、生命周期（Hadoop集群的计算引擎不支持展示该信息）、描述、血缘来源信息，同时您可以进行查看血缘...

云原生数据仓库AnalyticDB MySQL版（ADB）3.0

背景信息云原生数据仓库AnalyticDB MySQL版3.0 是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。AnalyticDB MySQL版支持高吞吐的数据实时增删改、低延时的实时分析和复杂ETL，兼容上下游生态工具，可用于构建企业级报表系统、...

产品概述

用户可以编写应用程序或者使用流计算引擎来处理写入到数据总线 DataHub的流式数据比如实时Web访问日志、应用日志、各种事件等，并产出各种实时的数据处理结果比如实时图表、报警信息、实时统计等。产品概述数据总线 DataHub基本介绍阿里...

引擎功能

时序数据计算能力 Lindorm时序引擎提供专业全面的时序数据计算函数，支持降采样、数据插值和空间聚合计算，能满足各种复杂的业务数据查询场景。监控运维 Lindorm时序引擎提供实例运维系统，用户可以实时掌握实例的运行情况、性能指标和存储...

逻辑视图和字段资产详情

Dataphin数据表：为您展示表的名称、对象类型、存储类型、逻辑表及逻辑视图的所属板块/物理表及物理视图的所属项目、负责人、存储量、生命周期（Hadoop集群的计算引擎不支持展示该信息）、描述、血缘来源信息，同时您可以进行查看血缘...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

引入预制模型

计算引擎说明仅当计算设置中的计算引擎为MaxCompute时，支持导入模型。模型导入在Dataphin产品首页，单击顶部菜单栏的管理中心。在管理中心页面，单击左侧导航栏模型市场，进入模型市场页面。在模型市场页面，单击导入模型，...

查看账单详情

上图中，产品明细说明如下：大数据计算服务MaxCompute（按量付费）、消费类型为后付费：指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总，包括存储、计算、公网下载的按量计费账单。大数据计算服务...

使用DataWorks连接

背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎的计算任务，并进行周期调度。使用DataWorks连接MaxCompute有如下方式：数据分析的 SQL查询功能：实现编辑MaxCompute SQL、...

云数据库RDS MySQL版

connectionMaxActive 数据库连接池大小 Integer 否 40 仅Flink计算引擎VVR 4.0.7及以上版本支持该参数。如果出现获取连接超时的问题，可能是连接池不够用，可适当增大连接池的大小。如果数据库能支持的最大并发连接比较小，可适当减小连接...

调优集群性能

UPDATE SQL 如果单个UPDATE WHERE语句命中了较多行数据，计算引擎需要计算出所有命中行的主键，并更新其对应的字段值，然后再逐个下发给存储节点进行标记旧行以及追加（Append）新行的操作。一个UPDATE SQL操作步骤可能会放大很多倍，从而...

设置Dataphin实例的计算引擎为Hadoop

在您开始创建用于研发数据的项目空间前，需要先设置Dataphin实例的计算引擎。设置Dataphin实例的计算引擎后，系统支持为项目空间添加相应的计算源，为项目空间提供计算和存储的资源。本文为您介绍如何设置Dataphin系统的计算引擎为Hadoop。...

什么是EMR Serverless StarRocks

使用数据湖的优势在于可以使用开放的存储格式和灵活多变的Schema定义方式，可以让BI、AI、AdHoc、报表等业务维持在统一的单点身份可信（Single Source of Truth），而StarRocks作为数据湖的计算引擎，可以充分发挥向量化引擎和CBO（Cost ...

设置Dataphin实例的计算引擎

在开始使用Dataphin前，您需要完成Dataphin实例计算引擎的设置...后续步骤完成设置Dataphin实例的计算引擎后，您就可以准备后续数据研发过程中用于读取和写入数据的数据源、用于提供计算资源的计算源。具体操作，请参见准备数据源和计算源。

Schema

Schema是MaxCompute介于项目和表、资源、函数之间的概念，对表、资源、函数进行进一步归类。本文为您介绍Schema的基本操作。前提条件：准备运行环境 PyODPS支持在DataWorks的PyODPS节点或本地PC环境中运行，运行前您需先选择运行工具并准备...

授权信息

本文为您介绍云原生大数据计算服务 MaxCompute（MaxCompute）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。云原生大数据计算服务 MaxCompute（MaxCompute）的RAM代码（RamCode）为 odps，支持的授权粒度为 ...

限流配置

当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时，通过配置开发或生产环境任务的限流规则，保障系统的稳定性以及业务数据按序及时产出。本文为您介绍如何进行限流配置。背景信息在未进行限流配置的情况下，任务...

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储...Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有机型。

通过流引擎实现地理围栏监控

写入数据，使用Kafka客户端写入数据到数据流表 input_stream，具体操作请参见通过开源Kafka客户端写入Lindorm流引擎数据。完整的代码示例如下：import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients....

查看作业运行状态

如果Lindorm实例的计算引擎服务规模较大，计算引擎作业运行日志可能给DFS造成较大的压力。您可以在计算引擎作业启动参数中配置 spark.dfsLog.executor.enabled=false，该参数指定Executor日志不保存至DFS，而计算引擎作业Driver运行日志的...

节点类型说明

本文按照节点离线、在线和流式的分类，分别介绍各节点类型对应能处理的数据类型以及运行引擎。计算类节点计算类节点分为离线类、在线和流式类节点主要用于处理各种不同的数据。节点分类节点说明离线节点更多详细信息，请参见离线类...

数据开发与运维中心：数据加工

说明进行数据开发时，可能会产生的计算引擎系统计算和存储费用，此类费用不属于DataWorks相关收费范畴，账单也不会体现在DataWorks产品下。开通使用开通DataWorks版本后，您即可根据需要购买调度资源组，绑定计算引擎，开始数据开发。...

其它函数

支持的计算引擎 MaxCompute(ODPS)、MYSQL、RDS、HIVE、AnalyticDB PostgreSQL(ADB_PG)、POLAR_PG、POSTGRESQL、SPARK。COALESCE 函数说明返回入参中第一个非NULL的值。参数说明 expr1：必填，任意类型。待验证的参数值1。exprN：可变参数...

读API

仅支持访问content type为以下类型的外部接口：application/json application/x-www-form-urlencoded text/plain 数据的写入操作和用户指定的计算引擎、临时存储关系如下表：计算引擎临时存储执行写入操作 Spark Hive Storage Spark ...

资源分析

数据回流表：以计算引擎源为数据来源，以物理数据源（业务）为目标的同步数据表的数量。治理健康度健康度包括计算和存储两部分。计算健康分：为您展示报告日期当天的计算健康评分。健康分是根据健康分高低进行分段评估：大于等于85分...

存储类型

说明容量型云存储使用高密度磁盘存储阵列，提供极低成本存储能力，和高吞吐读写能力，但随机读能力较弱，适用于写多读少场景或大数据计算场景。宽表引擎、文件引擎、流引擎不涉及。本地SSD盘 0.1ms~0.3ms 网络游戏、电商、视频直播、媒体...

限流配置

当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时，通过配置开发或生产环境任务的限流规则，保障系统的稳定性以及业务数据按序及时产出。本文为您介绍如何进行限流配置。背景信息在未进行限流配置的情况下，任务...

产品架构

SmartData，为EMR各个计算引擎提供统一的存储优化、缓存优化、计算缓存加速优化和多个存储功能扩展，详情请参见 SmartData。阿里云产品 EMR衔接了开源大数据生态和阿里云生态。EMR可以部署在阿里云ECS（Elastic Compute Service）和...

访问列存数据

背景信息 Lindorm列存是面向海量半结构化、结构化数据设计的列格式分布式存储服务，适用于车联网、物联网、订单、日志等大规模存储场景，核心能力包括：计算分析 Lindorm计算引擎可以访问列存数据，完成海量数据的交互式分析和离线计算。...

什么是EMR Serverless Spark

产品架构产品优势云原生极速计算引擎 内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升200%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储...

大数据的计算引擎

新品推荐