流数据可以干啥-流数据可以干啥文档介绍内容-阿里云

轨迹服务

时空数据的接入与实时计算 Lindorm Ganos时空数据类型同时也是Lindorm流引擎的原生数据类型，因此您也可以直接使用Lindorm流引擎的SQL语法处理实时计算任务。Lindorm Ganos时空引擎提供高性能的时空实时计算能力，支持在Lindorm流引擎中...

SQL限流（rds_ccl）

背景 SQL限流是一种重要的数据库管理技术，可以通过限制并发SQL数，从而避免过高的数据库负载，保证数据库的稳定性和可靠性，提高数据库的性能和效率，从而更好地支持业务需求。应用场景 SQL限流的应用场景不仅限于高并发访问，还包括以下...

SQL限流（rds_ccl）

背景 SQL限流是一种重要的数据库管理技术，可以通过限制并发SQL数，从而避免过高的数据库负载，保证数据库的稳定性和可靠性，提高数据库的性能和效率，从而更好地支持业务需求。应用场景 SQL限流的应用场景不仅限于高并发访问，还包括以下...

CREATE STREAM

数据流表的物理数据存储在流存储的某个指定的Topic上，具体的存储格式可以在With语句中指定。语法 CREATE STREAM(IF NOT EXISTS)table_name('(' tableElement(',' tableElement)*')')(WITH tableProperties)tableElement:columnDefinition;...

基本概念

元数据元数据是数据的描述数据，可以为数据说明其属性（名称、大小、数据类型等），或结构（字段、类型、长度等），或其相关数据（位于何处、拥有者、产出任务、访问权限等）。DataWorks中元数据主要指库、表相关的信息，元数据管理对应的...

调度DLA Presto任务

您可以在数据管理DMS中创建和调度DLA任务流实现数仓开发，任务流只需定义一次，即可周期性地自动被调度执行，大大减少人工操作成本。同时执行DLA任务流时产生的中间结果可以被复用，例如用于其他数据分析任务，从而最大化利用DLA的资源。...

如何对JSON类型进行高效分析

半结构化数据可以通过标签、标记、元数据等方式进行描述和组织，但其结构与组织方式也可以随着数据内容的变化而动态调整。半结构化数据通常存在于Web页面、XML、JSON、NoSQL数据库等场景中，其灵活性和易扩展性使其成为大数据时代中不可或...

开通数据订阅

操作步骤数据订阅功能需要在控制台完成两次开通操作，分别购买流数据节点和LTS节点。购买流数据节点说明如果您的实例已开通流引擎，则不涉及该步骤。登录 Lindorm管理控制台。在页面左上角，选择实例所属的地域。在实例列表页，单击...

导入概述

此处的有效数据不包括由于类型转换错误等数据质量问题而被过滤的数据，数据质量问题可以参见数据导入常见问题。MySQL和HTTP协议 StarRocks提供MySQL协议和HTTP协议两种访问协议接口来提交作业。Broker Load Broker导入，即通过部署的...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

导入概述

您可以根据不同的数据来源选择不同的导入方式：离线数据导入：如果数据源是Hive或HDFS，推荐使用 Broker Load。如果数据表很多导入比较麻烦可以使用Hive外表，性能会比Broker load导入效果差，但是可以避免数据搬迁。实时数据导入：日志...

性能优化与诊断简介

在RDS MySQL日常运维中，您可以通过数据库自治服务DAS（Database Autonomy Service）来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务，实现数据库自感知、自修复、自优化、自运维和自安全，...

快速入门

接入流数据 连接Lindorm流引擎，并将示例数据写入Kafka Topic中。本示例将通过开源Kafka脚本工具连接Lindorm流引擎。连接Lindorm流引擎，并创建名为logVehicle的Kafka Topic。具体操作，请参见通过开源Kafka脚本工具连接Lindorm流引擎。...

Kafka兼容说明

流引擎的流表兼容Kafka协议，支持通过开源Kafka客户端写入数据，也支持通过Kafka生态工具将MySQL、日志等数据投递至流引擎。本文介绍通过开源Kafka客户端将数据写入流表的操作步骤。操作步骤获取流引擎连接地址。具体操作，请参见查看...

MySQL整库离线同步到OSS

并发数大，同步任务速率高，但相对也会消耗更多的资源组槽位，并发数小，同步速率相对较低，相对消耗的资源组槽位也较少离线任务是否开启限流您可以通过限流控制同步速率，以保护读取端数据库，避免抽取速度过大，给源库造成太大的压力，...

EMR旧版数据开发迁移公告

迁移流程通过使用EMR Workflow，您可以轻松将在EMR旧版数据开发中的工作流和任务导出为兼容Apache Dolphinscheduler的工作流描述JSON文件，通过EMR Workflow的导入功能，您可以快速导入工作流和任务，实现快速的迁移，从而节省大量的迁移...

创建同步任务

限流：您可以通过限流控制同步速率，以保护读取端数据库，避免抽取速度过大，给源库造成太大的压力。限速最小配置为1MB/S。不限流：在不限流的情况下，任务将在所配置的并发数的限制基础上，提供现有硬件环境下最大的传输性能。说明流量...

运维中心

管理工作流记录信息的方式如下：工作流记录在工作流记录页面，您可以查看工作流实例的相关信息，同时可以对工作流实例进行停止、暂停和恢复操作。功能描述详情单击目标工作流实例所在行的详情，可以查看工作流实例的详细信息，包括...

通过向导模式配置离线同步任务

数据集成提供向导式的开发引导，您无需编写任何代码，通过在界面勾选数据来源与去向，并结合DataWorks调度参数，实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置离线同步任务的常规配置，各...

常见问题

您也可以通过函数计算来执行工作流，从而处理来自不同事件源的数据。云工作流使用什么语言编写流程？云工作流提供了流程定义语言（Flow Definition Language，简称FDL）让您像编写程序代码一样实现业务逻辑。更多信息，请参见基本介绍。...

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

使用ETL分析实时订单

实时计算场景：对业务侧产生的流数据实时清洗处理，形成特征值、标签支持在线业务计算模型（画像、风控、推荐等）或实时大屏等流计算场景。案例背景本案例将为您演示如何使用流式ETL功能，将实时交易数据（订单号、客户ID、产品/商品编码...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

创建DataHub项目

阿里云流数据处理平台DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish），订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。前提条件您已经完成了创建RDS MySQL数据库表。操作...

产品架构

LindormStream内部包含流存储、流计算两大组件，通过两者的一体化部署和深度融合，支持流数据的高性能实时处理。其中，流存储负责消息日志数据的写入和订阅，兼容开源Kafka API，并且数据持久化存储在底层LDFS中，具备高吞吐、低成本、弹性...

产品优势

让您可以在同一DAG图中，构建异构计算引擎形成混编任务流（数据同步+SQL+MR+MaxCompute Spark+实时计算+ML），无需分别维护各技术栈，助您高效组合混编任务流。人效提升快一键开通即可完成开箱即用的数仓技术架构搭建，告别繁重的自研、...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

查看并管理已生成实例

已生成实例是对周期任务发起立即运行补数据操作或待生成实例生成的可运行实例。您可以对已生成实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已生成实例。已生成实例入口请参见运维中心入口，...

查看并管理已生成实例

已生成实例是对周期任务发起立即运行补数据操作或待生成实例生成的可运行实例。您可以对已生成实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已生成实例。已生成实例入口请参见运维中心入口，...

查看并管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例入口在Dataphin首页，单击顶部...

查看并管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例入口在Dataphin首页，单击顶部...

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

通过Kafka写入数据

您可以将原始数据存储在Kafka Topic，并通过Flink SQL在流引擎中创建实时计算任务，对原始数据进行高效计算和处理。本文介绍如何使用Flink SQL提交流引擎计算任务将Kafka Topic中的数据导入至Lindorm宽表。前提条件已开通Lindorm流引擎。...

CREATE CQ

每当流表中有数据插入，如果符合预设的查询条件，则可以将该数据存储下来，作为实时计算的数据来源。本文介绍如何通过DML语句创建持续查询。语法 CREATE CQ cq_name INSERT INTO[catalog_name.][db_name.]table_name[column_list]select_...

基本概念

任务节点类型如下：数据集成数据加工状态检查通用节点实例若干个节点实例组成任务流实例，节点之间的依赖关系是基于当时运行的任务流版本。对于任务流的恢复操作，有且只有运行失败的节点实例会按照依赖关系再次运行。对于重跑 ...

审批中心概述

自定义审批策略后，后续进行表权限申请与审批、数据服务权限申请与审批、数据集成任务保存时，流程如表字段权限申请与审批流程、数据服务权限申请与审批流、数据集成任务审批流程、扩展程序审批流程所示。表字段权限申请与审批流程在 ...

基础流场

本文介绍图层栅格数据选择的流符号为基础流场时的参数配置。前提条件已登录DataV-Atlas管理控制台。已进入项目编辑页面。样式基础可见缩放等级：级别表示地图的缩放层级，地图的缩放层级在设置范围内数据点将显示，范围外将隐藏。范围为...

EMR数据开发（旧版）停止全面支持公告

迁移流程您可以轻松地将EMR数据开发（旧版）中的工作流和任务导出，并通过EMR Workflow的导入功能，实现工作流和任务的快速迁移。阿里云EMR团队会在整个迁移过程中做好支持和保障工作，以确保快速平滑迁移。步骤具体描述参与方预计耗时...

RunCycleDagNodes

调用RunCycleDagNodes创建补数据工作流。补数据相关内容，详情请参见补数据。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选...

我是普通用户

测试数据构建测试数据结构可以在频繁的数据准备过程中确保数据安全、保障数据离散型、提高生产效率。数仓开发数仓开发以数据库为主要计算引擎，融合数据库生态中多种工具和服务（如DTS、DLA等），让用户可以轻松拥有数据仓库进行开发和...

流数据可以干啥

新品推荐