阿里云流式数据发布使用指引-阿里云流式数据发布使用指引文档介绍内容-阿里云

流式数据通道概述

本文为您介绍如何使用流式数据通道服务。功能介绍 MaxCompute流式数据通道服务已商业化且不计费，您可以免费使用。MaxCompute流式数据通道服务自2021年1月1日起开始公测，公测期间可直接免费使用，后续商业化通知请关注公告。以下服务支持...

使用Tunnel命令或Tunnel SDK

MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具...使用流式数据通道SDK上传数据的使用案例请参见：简单上传示例多线程上传示例异步化IO多线程上传示例使用Streaming Tunnel SDK上传数据的具体操作请参考 Streaming Tunnel SDK。

使用阿里云Flink（流式数据传输）

MaxCompute提供了使用流式数据通道的Flink插件，支持使用Flink在高并发、高QPS场景下写入MaxCompute。前提条件已开通实时计算Flink版的Blink服务并创建Blink项目。更多开通Blink及创建Blink项目的信息。已安装使用流式数据通道的 Flink...

使用Logstash（流式数据传输）

该插件的特点如下：使用流式数据通道，避免通过批量数据通道导入产生的并发和小文件问题。支持动态分区，可以根据Logstash解析的日志字段产生分区字段，能够自动创建不存在的分区。logstash-output-maxcompute 插件应用于如下场景：需要...

从自建Oracle同步至DataHub

阿里云流式数据服务DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布、订阅和分发功能，让您可以轻松分析和使用流式数据。您可以通过DTS将自建Oracle同步至DataHub，帮助您快速实现使用流计算等大数据产品对数据实时...

数据总线 DataHub

阿里云流式数据服务DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅(Subscribe)和分发功能，让您可以轻松构建基于流式数据的分析和应用。

SDK接口

本文为您介绍流式数据通道SDK接口的使用方法。使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>...

稳定性说明与使用限制

更多信息，请参 流式数据通道使用限制说明。300：杭州地域单项目最多可用Slot数。更多信息，请参见共享资源说明。重要超过MaxCompute写入限制，写数据到MaxCompute会不稳定，且会触发MaxCompute侧的流控，导致FlowExceeded或者SlotExceed...

MaxCompute投递（新版）

更多信息，请参 流式数据通道使用限制说明。300：杭州地域单项目最多可用Slot数。更多信息，请参见共享资源说明。重要超过MaxCompute写入限制，写数据到MaxCompute会不稳定，且会触发MaxCompute侧的流控，导致FlowExceeded或者SlotExceed...

数据传输服务（上传）场景与工具

实时数据通道：DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish）、订阅（Subscribe）和分发功能，支持流式数据归档至MaxCompute。功能介绍批量数据通道上传使用批量数据通道上传数据时，可以通过单个...

创建DataHub项目

阿里云流数据处理平台DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish），订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。前提条件您已经完成了创建RDS MySQL数据库表。操作...

数据传输服务概述

流式数据通道使用限制说明。限制项限制说明单Slot写入速度 1 MB/s。单Slot写入请求数每秒10个。单表并发写入分区数 64个。单分区最大可用Slot数 32个。StreamUploadSession占用Slot数受Slot并发数限制，创建StreamUploadSession时指定...

全景视角

数据使用视角：在数据分析、发布或使用数据服务等数据使用场景下，建议您使用数据使用视角，关注查看数据使用过程中，浏览、访问过的表列表、拥有权限的数据服务等方面的情况。详情请参见：数据使用视角。数据生产视角：在数据开发场景下，...

算法说明

目前智能巡检使用流式图算法、流式分解算法进行数据巡检。本文介绍流式图算法、流式分解算法的适用场景、参数配置、预览说明等内容。流式图算法流式图算法基于Time2Graph系列模型中的原理进行研发，可对数据进行整体降噪，分析异常数据...

内置时空数据引擎Ganos

IoT时空解决方案：支持通过Kafka、Flink等流式引擎和消息中间件接入时空流式数据建模为移动对象数据库、激光点云数据库或时序点数据库。Ganos将逐步沉淀基础时空云计算能力到云计算基础平台，赋能ISV厂商，推动时空云计算作为数字化转型的...

配置流程

数据传输服务DTS提供的数据加工功能ETL（Extract Transform Load），实现了流式数据的清洗和转换处理，能够准确、高效地提供您需要的数据。本文介绍如何通过DAG模式（可视化拖拽方式）配置ETL任务。背景信息说明 ETL功能处于灰度公测阶段...

什么是MaxCompute

API与SDK：Restful API Java SDK、Python SDK JDBC：JDBC Connector：给第三方产品封装的连接器，目前包括Flink、Spark、Kafka等，详情请参见使用Flink（流式数据传输-新版）、Spark Connector、使用Kafka（离线与实时）。开放存储：...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

运营

资产使用方：主要进行数据查找和使用申请，目标是找到需要使用的数据资产，进行权限获取以完成后续业务使用。资产管理员：对所有可对外服务的高价值数据资产进行管理维护与编目上线，进行资产对外服务的生命周期维护，同时针对申请使用进行...

功能简介

资产使用方：主要进行数据查找和使用申请，目标是找到需要使用的数据资产，进行权限获取以完成后续业务使用。资产管理员：对所有可对外服务的高价值数据资产进行管理维护与编目上线，进行资产对外服务的生命周期维护，同时针对申请使用进行...

功能简介

资产使用方：主要进行数据查找和使用申请，目标是找到需要使用的数据资产，进行权限获取以完成后续业务使用。资产管理员：对所有可对外服务的高价值数据资产进行管理维护与编目上线，进行资产对外服务的生命周期维护，同时针对申请使用进行...

管理数仓规划待发布对象

设置数据源替换规则来源环境和目标环境的属性配置一般都不同，因此在发布前，您可使用数据源替换规则功能设置替换规则，将数据源的配置批量替换成目标环境的配置。数据源对象发布时，将按顺序使用匹配的第一条规则进行属性的替换。在设置...

管理数仓规划待发布对象

设置数据源替换规则来源环境和目标环境的属性配置一般都不同，因此在发布前，您可使用数据源替换规则功能设置替换规则，将数据源的配置批量替换成目标环境的配置。数据源对象发布时，将按顺序使用匹配的第一条规则进行属性的替换。在设置...

数据服务概述

数据服务与API网关（API Gateway）完全集成，支持您将数据服务快速发布到API网关，从而使用API网关提供的API权限管控、IP白名单控制、流量控制、计量计费、SDK下载等全面的API服务。因此在使用数据服务前，请先开通 API网关。更多API网关...

简介

数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能，提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息，以文档的形式进行交付，并在交付后，希望有可以替您...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

功能发布记录（2022年）

英国（伦敦），美国（硅谷），美国（弗吉尼亚），阿联酋（迪拜）所有DataWorks用户数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake，实现基于EMR引擎的数据集成、数据建模、数据开发...

添加DataWorks数据服务数据源

DataWorks数据服务生成的API发布后会对接到API网关，直接使用API网关默认提供的二级域名会有每天限流1000次的限制，您可以在 API网关控制台中为分组绑定独立域名来解除限流限制。添加DataWorks数据服务数据源操作步骤登录 DataV控制台。...

生成数据API

数据服务解决从数仓到应用的“最后一公里”，将数据源中的数据表快速生成数据API，在API网关进行统一管理和发布。实现低成本、易上手、安全稳定的数据共享与开放。背景信息为了将最终分析的结果加速查询后开放出API接口对接三方服务，本次...

DataWorks on EMR Serverless StarRocks最佳实践

DataWorks支持StarRocks数据源，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。背景信息了解EMR ...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

数据服务入门

步骤一：创建数据源并配置网络连通性 使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

概述

随着业务的快速发展，企业数据呈几何倍增长，数据量庞大、复杂、各类数据间标准不一致，往往会出现数据难以管理的现象。DataWorks智能数据建模服务，将无序、杂乱、繁琐、庞大且难以管理的数据，进行结构化有序的管理。使企业中的数据产生...

元表和字段资产详情

⑤ 使用说明您可为数据表添加使用说明，为数据浏览者和消费者提供信息参考。单击新增使用说明进行添加。⑥ 资产信息为您展示物理表的基础信息、物理信息和使用信息等详细信息。基础信息：包括环境、专题目录、项目、表类型、最高...

元表和字段资产详情

⑤ 使用说明您可为数据表添加使用说明，为数据浏览者和消费者提供信息参考。单击新增使用说明进行添加。⑥ 资产信息为您展示物理表的基础信息、物理信息和使用信息等详细信息。基础信息：包括环境、专题目录、项目、表类型、最高...

数据加工过程卡点校验

本文为您介绍在线或离线业务系统的数据在生成过程中进行的卡点校验。在线系统卡点校验在线业务系统产生的数据是数据仓库的重要数据来源。在线业务系统复杂多变，每次变更都会产生数据的变化。因此，数据仓库需要适应多变的业务发展，及时...

加速服务

数据服务支持对部分数据源表的查询提供加速能力，加速能力包含DataWorks数据服务提供的加速能力和MaxCompute本身支持的加速方案（MCQA）。通过使用加速服务，您可以在调用API时提高数据查询的速率和性能。本文为您介绍两种加速方案的使用...

数据服务：低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台，旨在为企业提供全面的数据共享能力，帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述作为数据仓库与上层应用系统间的...

开发管控：管理者

作为工作空间的管理者，在使用数据开发（DataStudio）时，您可以针对用户的开发行为实施有效的管控措施，进行开发流程、数据安全、审计等相关操作，本文将帮助您快速掌握DataStudio的相关功能，实现对数据开发过程的有效管控。背景信息 ...

阿里云流式数据发布使用指引

新品推荐