数据流是干嘛的-数据流是干嘛的文档介绍内容-阿里云

设置资产数据源

单击编辑器右侧的数据图标。在数据面板中，单击配置数据源。在设置数据源页面中，可修改数据源的类型和脚本、配置数据过滤器并查看数据响应结果。修改数据源的类型和脚本在设置数据源页面中，在数据源类型列表中可修改数据源...

异地应用双活切流

查看切流进程详情创建切流任务后，MSHA会自动执行切流的各个步骤，这边切流任务页面可能包含包含3种类型，异地应用双活范围切流，数据层切流，同城切流，您可以在切流任务页面单击步骤下的查看详情查看步骤的执行详情。异地应用双活...

执行补数据并查看补数据实例（新版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

离线集成概述

数据管理DMS离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。支持的数据库类型 MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、PolarDB分布式版、AnalyticDB...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

ACL授权

ACL授权主要有两种方式：使用数据流服务Confluent控制台实现ACL授权。本文详细介绍这一授权方式。使用Confluent CLI实现ACL授权。操作指引请参见使用Confluent CLI进行ACL管理。管控侧ACL授权步骤首先登录流数据服务Confluent管控页，...

概述

数据同步：数据同步属于持续性动作，项目创建后会一直同步数据，保持源端和目标端的数据一致性，实现关键业务的数据实时流动。您可以通过数据同步功能，实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、数据聚合和实时...

计算设置概述

Fusioninsight Flink Fusioninsight Flink 是一种基于Apache Flink的流式处理引擎，可以实现高速数据流的实时计算和分析。Blink独享版 Blink是阿里云实时计算引擎。重要该版本在公共云已停售，请谨慎选择。计算设置入口在Dataphin首页，...

概述

EdgeBus：边缘端消息总线（边缘端跨进程通信机制），EdgeBus的数据作为输入源，会根据消息路由（管理边缘端消息流向）的配置将数据输入到流作业中，目前支持设备数据流向流作业。结果表目的数据存储，用于存储流数据分析的计算结果。每个...

RBAC授权

本文介绍如何在数据流服务Confluent控制台中进行RBAC授权。背景信息 RBAC的全称是Role Based Access Control。RBAC的授权方式是基于角色进行授权的，而ACL是基于权限进行授权。因此，RBAC比ACL更适合批量授权以及权限回收。RBAC授权主要有...

DAS Auto Scaling弹性能力

背景信息为业务应用选择一个合适的数据库计算规格（CPU和内存），是每个数据库运维人员都会经常面临的一个问题。若规格选得过大，会产生资源浪费；若规格选的过小，计算性能不足会影响业务。通常情况下，运维人员会采用业务平稳运行状态下...

查看数据迁移项目的详情

对于已暂停或失败状态的数据迁移项目，您可以开启 DDL/DML 统计功能，统计开启该功能时间点之后的数据库操作。同时，您可以查看增量同步对象的具体信息，以及增量同步性能信息。同步对象统计页签为您展示表级别的统计 DML 数量，在该...

创建DataHub项目

阿里云流数据处理平台DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish），订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。前提条件您已经完成了创建RDS MySQL数据库表。操作...

常见问题（FAQ）

是的，您可以使用结构化流直接将数据写入Delta表并从Delta表中读取。Delta Lake是否支持使用Spark Streaming DStream API进行写入或读取？Delta不支持DStream API。我们建议进行表流读取和写入。使用Delta Lake时，是否可以轻松地将代码...

Kafka兼容说明

流引擎的流表兼容Kafka协议，支持通过开源Kafka客户端写入数据，也支持通过Kafka生态工具将MySQL、日志等数据投递至流引擎。...将流表中的数据写入Kafka Topic。具体操作，请参见通过开源Kafka客户端写入Lindorm流引擎数据。

持续查询

本文介绍如何在流引擎中持续查询数据。背景信息持续查询（Continuous Query）是基于流表的实时计算，它的基本处理模型如下图所示。Source表示数据源头的流表，Operator表示计算逻辑，Sink表示存储计算结果的结果表。每当源头的流表有数据...

集群资源规格评估建议

阿里云流数据服务Confluent组成架构阿里云流数据服务Confluent是一个流数据平台，能够组织管理来自不同数据源的数据，是一个稳定高效的系统。如下图所示，它由六个组件构成，分别为Kafka Broker、Rest Proxy、Connect、Zookeeper、ksqlDB...

离线同步并发和限流之间的关系

问题二：为什么我的数据同步任务跑的比较慢，实际运行的并发数不够？问题三：为什么我的同步任务并发数配置的很高，但是任务运行速度仍然很慢，为什么我的独享资源组经常等待资源？并发数是指数据同步任务中，可以从源端并行读取和向目标...

使用ETL分析实时订单

单击左上角的，在新增数据流 对话框中，您需在 数据流名称配置ETL任务名称，选择开发方式为 DAG。单击确认。执行如下操作，配置流表和维表信息。配置流表信息页面左侧，将输入/维表 MySQL 节点拖拽至页面右侧画布的空白区域。单击...

数据统计

API提供以下接口供您查询对应的数据：查询直播域名带宽数据查询直播录制路数、转封装用量查询直播域名截图张数查询直播域名流量数据查询域名转码用量数据查询直播域名实时带宽数据查询直播域名实时HTTP返回码占比查询直播域名实时...

EMR数据开发停止更新公告

如果您后续需要更丰富的数据开发功能，推荐迁移至DataWorks构建工作流，EMR已经跟DataWorks进行深度对接。作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等...

DataHub数据源

datahub侧对于一次request请求写入的数据条数限制是10000条，超出10000条数据会超出限制导致任务出错，请根据您单条数据平均数据量*10000条数据的数据总量来从侧方面进行单次写入datahub的数据条数控制。比如每条数据10 k，那么此参数的...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

通过Flink SQL模式配置ETL任务

在数据加工页面的 数据流信息部分，添加源库和目标库。参数说明地区选择数据源所在地域。类型选择库表类型。配置源表信息时，如源表为流表，则需选择流表；如源表为维表，则需选择维表。配置目标表信息时，则需选择输出。数据...

新建连接模板

单击左上角的，在新增数据流 对话框中，您需在 数据流名称配置ETL任务名称，选择开发方式为 DAG。单击确认。在页面左侧，将输入/维表 MySQL 节点拖拽至页面右侧画布的空白区域。单击画布区域的输入/维表 MySQL-1，在下方的节点配置...

同步 OceanBase 数据库的数据至 Kafka

背景信息 Kafka 是目前广泛应用的高性能分布式流计算平台，数据传输支持 OceanBase 数据库两种租户与自建 Kafka 数据源之间的数据实时同步，扩展消息处理能力，广泛应用于实时数据仓库搭建、数据查询和报表分流等业务场景。前提条件数据...

补数据

补数据基于任意任务流的发布态版本，可通过指定业务时间或业务范围时间，生成一个或多个任务流实例（运行某条任务流的记录）。本文为您介绍如何给任务流补数据。使用场景电商公司在多个时间段进行促销活动，需要分析促销活动带来的营收、...

外部数据

简介本数据库实现了部分的 SQL/MED 规定，允许我们使用普通 SQL 查询来访问位于本地数据库之外的数据。这种数据被称为外部数据。说明这种用法不要和外键混淆，后者是数据库中的一种约束外部数据可以在一个外部数据包装器的帮助下被访问...

Binlog日志服务

按照数据行的主键计算Hash值并进行分发，即对应同一数据行的binlog数据，会始终按序路由给同一个binlog数据流，适用于希望将数据充分打散且不要求日志数据按库或按表保持有序的场景，该策略要求数据表必须含有主键，无主键表的数据会被直接...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据...

CREATE CQ

每当流表中有数据插入，如果符合预设的查询条件，则可以将该数据存储下来，作为实时计算的数据来源。本文介绍如何通过DML语句创建持续查询。语法 CREATE CQ cq_name INSERT INTO[catalog_name.][db_name.]table_name[column_list]select_...

SELECT

流引擎兼容Apache Flink SQL的SELECT语句。Apache Flink V1.17.1 SELECT语句详情如下表所示。...Top-N 去重从数据流中去除重复的行数据。Deduplication 说明如果您需要查看其它版本Queries语句，请注意切换到对应版本。

访问外部数据源

背景信息 Databricks数据洞察为了满足您在计算任务里访问您在阿里云上已有的数据，支持通过添加外部数据源的方式，打通集群到您自己VPC下的网络环境。绑定数据源绑定数据源的本质是打通不同VPC之间的网络，即将数据源集群所在VPC与目标...

配置离线数据集成节点

离线数据集成节点赋予任务流进行数据传输的能力，帮助您实现数据源之间的数据同步。本文介绍配置离线数据集成节点的方法。应用场景离线集成节点主要用于数据迁移、数据传输等场景。功能特性不限制来源表和目标表数据库类型。支持字段映射...

集成与开发概览

离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的，进而对在线数据库、数据仓库的数据进行加工处理并同步至目的端。流式ETL。更多信息，请参见流式ETL。通过可视...

用户管理

作为集群安全的一部分，数据流服务Confluent提供了用户管理功能。您可以在用户管理页面完成新增用户、修改密码、删除用户等操作。本文介绍用户管理的具体操作步骤。查看用户列表首先登录流数据服务Confluent管控页，点击集群管理>进入...

我是安全管理员

离线集成离线集成是一种低代码的数据开发工具，可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。数据可视化数据可视化功能可让您更容易通过数据去洞察业务，辅助进行业务决策。比如分析趋势、增长对比...

创建并管理数据源

若您想在DataWorks操作您的数据库或数据仓库（例如，MaxCompute项目数据），需先在DataWorks的数据源管理页面，将数据库或数据仓库创建为DataWorks的数据源，并将该数据源绑定至DataWorks相应的功能模块使用。例如，同步MaxCompute数据前，...

数据源管理常见问题

您可以在DataV控制台单击我的数据>数据源管理，选择+添加数据，进入添加数据对话框，选择 CSV文件类型，输入自定义数据源名称并上传一个本地电脑中的CSV文件。上传完成后，您可以在画布编辑器中添加组件，在右侧数据面板中的设置...

数据源管理常见问题

您可以在DataV控制台单击我的数据>数据源管理，选择+添加数据，进入添加数据对话框，选择 CSV文件类型，输入自定义数据源名称并上传一个本地电脑中的CSV文件。上传完成后，您可以在画布编辑器中添加组件，在右侧数据面板中的设置...

数据流是干嘛的

新品推荐