大数据最早是由-大数据最早是由文档介绍内容-阿里云

通过数据同步功能同步SLS至湖仓版（推荐）

取值说明：最早位点（begin_cursor）：自动从SLS数据中最开始的时间点消费数据。最近位点（end_cursor）：自动从SLS数据中最近的时间点获取数据。自定义点位：您可以选择任意一个时间点，系统则会从SLS中第一条大于等于该时间点的数据开始...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、...

管理数仓规划待发布对象

数据源对象信息：包括数据源名称、数据源类型、发布状态/完成时间、负责人、数据源格式、变更类型、环境变更（从上一次导入后，当前目标环境是否有过变更）、同名同类型（当前环境中是否包含与来源环境同名同类型的数据源，且仅包含新增...

管理数仓规划待发布对象

数据源对象信息：包括数据源名称、数据源类型、发布状态/完成时间、负责人、数据源格式、变更类型、环境变更（从上一次导入后，当前目标环境是否有过变更）、同名同类型（当前环境中是否包含与来源环境同名同类型的数据源，且仅包含新增...

导入概述

该机制可以保证Label对应的数据最多被导入一次，即At-Most-Once语义。原子性 StarRocks中所有导入方式都提供原子性保证，即同一个导入作业内的所有有效数据要么全部生效，要么全部不生效，不会出现仅导入部分数据的情况。此处的有效数据不...

概述

使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储...

内存型

云原生内存数据库Tair 内存型（简称内存型）适合并发量大、读写热点多、高性能场景，内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式创建实例主要优势类别说明兼容性 100%兼容原生Redis，无需修改业务代码，提供 ...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

基本概念

本文将向您介绍云数据库SelectDB版产品中涉及的一些基本名词概念，以便于您更好地理解云数据库SelectDB版产品。地域（Region）购买云数据库SelectDB版的资源所处地理位置。您需要在购买云数据库SelectDB版资源时指定地域，资源创建...

基本概念

栅格数据（Raster Data）是将地理空间分割成有规律的网格，每一个网格称为一个单元（像元或像素），并在各单元上赋予相应的属性值来表示实体的一种数据形式。栅格数据通常有两种类型的栅格数据：专题数据和影像数据。专题数据：每个栅格像...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

文档修订记录

创建数仓分层配置及使用数仓分层检查器 2023.3.16 新增功能数据建模 DataWorks智能数据建模联合具备丰富行业建模经验的数据架构师，总结阿里云百万用户最全面的业务场景，结合阿里巴巴技术创新能力，提供零售电子商务、金融、制造等多个...

2023年

授权实践 2023-09-14 新增（邀测）MaxCompute Notebook使用说明新说明 MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块，为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

执行补数据并查看补数据实例（新版）

为避免补数据实例占用过多的资源而影响周期实例运行，平台对补数据实例制定以下规则：如果补数据选择业务日期为昨天（T-1），即补当天数据时，补数据任务优先级由任务所在基线优先级决定。如果补数据选择业务日期为历史业务日期（T-2）时，...

实时同步常见问题

写端延迟大目标数据库性能、负载等问题当数据库负载较高时，单一的调整同步任务并发并不能解决问题，您需要联系数据库管理员寻求相关帮助。读写端延迟大使用公网同步，网络问题导致同步任务延迟。公网同步无法保障实时同步时效性，建议...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

实时消费Kafka数据

当您需要将Kafka数据写入云原生数据仓库AnalyticDB PostgreSQL版，且不希望使用其他数据集成工具时，可以通过实时数据消费功能直接消费Kafka数据，减少实时处理组件依赖，提升写入吞吐。Apache Kafka是一个容错、低延迟、分布式的发布-...

专业术语

早于duration的数据将自动从数据库中删除。相关术语：retention policy。field TSDB For InfluxDB®数据结构中记录元数据和实际数据的key-value对。field是TSDB For InfluxDB®数据结构中必须要有的一部分，并且不会被建索引。如果将field ...

SQL处理优化

为了方便用户操作Transactional Table 2.0，MaxCompute计算引擎对SQL全套的数据查询DQL语法和数据操作DML语法进行了支持，并且SQL引擎内核模块包括Compiler、Optimizer、Runtime等都做了专门适配开发以支持相关功能和优化。本文为您介绍...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

通过数据同步功能同步Kafka至湖仓版（推荐）

取值说明：最早位点（begin_cursor）：自动从Kafka数据中最开始的时间点消费数据。最近位点（end_cursor）：自动从Kafka数据中最近的时间点消费数据。自定义点位：您可以选择任意一个时间点，系统则会从Kafka中第一条大于等于该时间点的...

添加TableStore数据源

start 本次范围读取的起始主键和结束主键，起始主键和结束主键需要是有效的主键或者是由InfMin和InfMax类型组成的虚拟点，虚拟点的列数必须与主键相同。其中InfMin表示无限小，任何类型的值都比它大；InfMax表示无限大，任何类型的值都比它...

添加TableStore数据源

start 本次范围读取的起始主键和结束主键，起始主键和结束主键需要是有效的主键或者是由InfMin和InfMax类型组成的虚拟点，虚拟点的列数必须与主键相同。其中InfMin表示无限小，任何类型的值都比它大；InfMax表示无限大，任何类型的值都比它...

执行补数据并查看补数据实例（旧版）

为避免补数据实例占用过多的资源而影响周期实例运行，平台对补数据实例制定以下规则：如果补数据选择业务日期为昨天（T-1），即补当天数据时，补数据任务优先级由任务所在基线优先级决定。如果补数据选择业务日期为历史业务日期（T-2）时，...

空间管理

数据库自治服务DAS 为 RDS SQL Server 提供空间管理功能，可以分层监控与分析，从实例深入到数据库，再从数据库深入到表，帮助用户发现和定位数据库空间相关问题。空间管理提供您查看实例基本信息、空间总览、空间数据图表信息、空间变化...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

空间管理

自治服务的空间管理功能提供分层的监控与分析，从实例深入到数据库，再从数据库深入到表，帮助用户发现和定位数据库空间相关问题。空间管理提供您查看实例基本信息、空间总览、空间数据图表信息、空间变化趋势等等，帮助您从各个维度了解...

数据传输服务概述

数据传输服务是MaxCompute数据进出的最重要通道，其中包括适用于批量操作的普通Tunnel和适用于流式写入的Stream Tunnel，同时在所有Region提供免费限量使用的数据传输服务共享资源组，也提供数据传输服务（包年包月）独享资源组，供您采购...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

离线同步数据质量排查

如果写出数据和目标存储已有数据发生数据约束（主键冲突、唯一键约束、外键约束等），数据库则使用来源数据update更新目标表已有数据行，在目标表存在多个数据约束的情况下，数据替换可能会失败并产生脏数据如果写出数据和目标存储已有...

如何支持超大事务

在本场景下，单分片的事务修改的数据量最多不应超过1 GB，8分片的事务修改的数据量最多不应超过4 GB。如果想支持更大的事务，比如在一个事务中修改更多的数据，请把数据表划分到更多的分片上。场景三在该场景下，执行SQL语句数量较多，每...

MongoDB 4.0

升级数据库大版本数据迁移变更实例配置按时间点将备份数据恢复至新建实例恢复云数据库MongoDB单个或多个数据库升级数据库大版本：升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低峰期执行并确保应用...

斑马柱状图

图表样式斑马柱状图是柱状图的一种，与基本柱图相比，斑马柱状图中的柱子是由不连续的可配置的线条组成，能够更加智能美观地展示多维的数据差异，但在可视化应用中占的空间较大。样式面板搜索配置：单击样式面板右上角的搜索配置项图标...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

功能更新动态（2022年之前）

2021年08月功能名称功能描述发布时间发布地域相关文档产品计费：策略优化及数据处理单元规格拓展同步任务和集成任务对应的数据处理单元由1:1修改为3:1，且前200个集成任务免费，进一步降低数据上云成本。同时，手动任务、汇总逻辑表...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

离线同步常见问题

读取Loghub同步某字段有数据但是同步过来为空读取Loghub同步少数据读取Loghub字段映射时读到的字段不符合预期读取kafka配置了endDateTime来指定所要同步的数据的截止范围，但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...

大数据最早是由

新品推荐