大数据流式计算-大数据流式计算文档介绍内容-阿里云

流式数据通道概述

流式计算结果实时写入MaxCompute 流式服务写入MaxCompute解除并发数及 batch size 的限制。解决高并发抢锁导致流式服务不可用，避免 batch size 太小导致MaxCompute产生大量小文件的问题。流式存储服务（DataHub、Kafka）实时同步...

使用DataHub（实时数据传输）

DataHub 是MaxCompute提供的流式数据处理（Streaming Data）服务，它提供流式数据的发布（Publish）和订阅（Subscribe）的功能，让您可以轻松构建基于流式数据的分析和应用。DataHub同样提供流式数据归档的功能，支持流式数据归档至...

使用阿里云Flink（流式数据传输）

实时计算Flink版内置插件支持通过批量数据通道写入MaxCompute，受到批量数据通道并发数及存储文件数影响，内置版本插件会有性能瓶颈。MaxCompute提供了使用流式数据通道的Flink插件，支持使用Flink在高并发、高QPS场景下写入MaxCompute。...

RDS搭配大数据计算服务实现大规模数据计算

开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的存储和计算，提供海量数据仓库解决方案以及针对大数据的分析建模服务。通过数据集成服务，可将RDS数据导入MaxCompute，实现大规模的数据计算，...

SQL增强操作

功能是否支持限制云原生大数据计算服务MaxCompute-EXPLAIN 是无云原生大数据计算服务MaxCompute-CLONE TABLE 是无云原生大数据计算服务MaxCompute-参数化视图是创建参数化视图不支持表值参数table。支持any以及MaxCompute的所有...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

操作审计事件数据迁移至MaxCompute

参数描述 大数据计算服务地域被投递数据的MaxCompute项目所在地域。说明操作审计会将审计日志投递至MaxCompute指定地域下的actiontrail_<阿里云账号ID>项目中。因为同一阿里云账号下MaxCompute项目名称唯一，若账号下已有actiontrail_...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

授权信息

本文为您介绍云原生大数据计算服务 MaxCompute（MaxCompute）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。云原生大数据计算服务 MaxCompute（MaxCompute）的RAM代码（RamCode）为 odps，支持的授权粒度为 ...

发展历程

深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的委员会委员，是中国担任此国际性能标准化测试组织委员的唯一企业。...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

2023年

该地域项目的存储、下载后付费账单归属的产品明细将从 大数据计算服务MaxCompute（包月）变成 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute（按量付费）。当您使用的包年包月...

实验介绍

云原生大数据计算服务MaxCompute 实现底层加工计算，您需提前开通该服务。详情请参见开通MaxCompute。云数据库RDS MySQL版本案例中用于存储用户信息数据。案例已默认提供该MySQL数据源基本信息，您无需单独开通该服务。对象存储OSS 本...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute 实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持...

ECS资源复用版

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格，旨在将ECS闲置实例转换为可用的MaxCompute计算资源，该方式可以充分利用已有的计算资源，而不需要额外购买新的MaxCompute计算资源，从而在满足大数据处理需求的同时，提高资源利用...

查看账单详情

上图中，产品明细说明如下：大数据计算服务MaxCompute（按量付费）、消费类型为后付费：指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总，包括存储、计算、公网下载的按量计费账单。大数据计算服务...

升级和降配

在变配页面，配置升级后所需的CU数量，并勾选 大数据计算服务MaxCompute服务等级协议和阿里云产品服务协议-MaxCompute，单击立即购买。订单价格计算规则如下：升级订单价格计算=新配置剩余时长购买金额（新配置的月单价/30/24×剩余时...

基础概念

语法详述见功能概览使用过程中请注意：iGraph Gremlin语法与开源使用差异其他相关服务 MaxCompute：大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布...

调优集群性能

TopN算子云原生数据仓库 AnalyticDB MySQL 版在进行TopN计算时（例如SQL中有 ORDER BY id LIMIT m,n），当 m 较大时，云原生数据仓库 AnalyticDB MySQL 版中的TopN算子会缓存较多数据在内存中，以完成最终的全局排序，这个过程会消耗较...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

通过函数计算节点实现GitHub实时数据分析与结果发送

阿里云原生大数据计算MaxCompute 阿里云对象存储OSS 阿里云函数计算FC MaxCompute配置数据源类型显示当前数据源类型，即MaxCompute。数据源名称选择步骤二中创建的MaxCompute数据源。OSS配置数据源类型显示当前数据源类型，即OSS。...

MaxCompute账单用量明细分析

背景信息 MaxCompute是一款大数据分析平台，其计算资源的计费方式分为包年包月和按量付费两种。MaxCompute每天以项目为维度进行计费，账单会在第二天06:00前生成。更多MaxCompute计量计费信息，请参见计费项与计费方式概述。MaxCompute会...

Tablestore外部表

本文将进一步为您介绍如何将来自Tablestore（原OTS）的数据纳入MaxCompute上的计算生态，实现多种数据源之间的无缝连接。背景信息表格存储（Tablestore）是构建在阿里云飞天分布式系统之上的NoSQL数据存储服务，提供海量结构化数据的存储...

DataWorks On MaxCompute使用说明

DataWorks为MaxCompute提供任务调度、元数据管理、数据治理、数据安全管控等能力，但任务计算、数据存储仍在MaxCompute中。标准模式工作空间下，DataWorks为不同环境绑定不同的MaxCompute项目，实现DataWorks开发环境与生产环境存储、资源...

SDK接口

本文为您介绍流式数据通道SDK接口的使用方法。使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>...

使用Logstash（流式数据传输）

您可以通过Logstash的输出插件 logstash-output-maxcompute，将Logstash收集的日志数据使用MaxCompute流式数据通道（Streaming Tunnel）功能上传到MaxCompute。前提条件在执行操作前请确认您已完成如下操作：已安装 Logstash 并创建...

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

什么是边缘流数据分析

流数据分析是一种使用流的...提供和阿里云流式计算完全相同的SQL语法。您开发一次SQL，既可以在云上执行、也可以在边缘执行。提供了内建的字符串处理和时间、统计等各类计算函数。支持对消息乱序的处理。提供了流数据分析开发的图形化控制台。

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

查询执行模式

适用场景：适用于执行时间长、计算数据量大的查询。例如：清洗类查询（Extract-Transform-Load）。默认执行模式版本产品系列默认执行模式是否支持Batch模式数仓版（3.0）预留模式集群版 Interactive 否弹性模式集群版（新版）是切换...

基于Flink+Paimon搭建流式湖仓

方案架构和优势架构实时计算Flink版是强大的流式计算引擎，支持对海量实时数据高效处理。流式数据湖仓Paimon是流批统一的湖存储格式，支持高吞吐的更新和低延迟的查询。Paimon与Flink深度集成，能够提供一体化的流式湖仓联合解决方案。...

基于Flink+Hologres搭建实时数仓

方案架构实时计算Flink版是强大的流式计算引擎，支持对海量实时数据高效处理。Hologres是一站式实时数仓，支持数据实时写入与更新，实时数据写入即可查。Hologres与Flink深度集成，能够提供一体化的实时数仓联合解决方案。本文基于Flink+...

概述

DataHub用于实时上传数据，主要适用于流式计算场景。数据上传后会保存到实时表，后续会在几分钟内通过定时任务的形式同步到MaxCompute离线表，供离线计算使用。LogHub 日志服务SLS提供数据投递功能，将LogHub实时采集的日志投递至...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

产品概述

流计算StreamCompute StreamCompute 是阿里云提供的流计算引擎，提供使用类SQL的语言来进行流式计算。数据总线 DataHub 和StreamCompute无缝结合，可以作为StreamCompute的数据源和输出源，具体可参考实时计算文档流处理应用用户可以...

大数据流式计算

新品推荐