107个大数据文档-107个大数据文档文档介绍内容-阿里云

什么是DataWorks

产品架构 DataWorks十多年沉淀数百项核心能力，通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力，帮助企业治理内部不断上涨的“数据悬河”，释放企业的数据生产力。...

窗口函数

窗口函数基于查询结果的行数据进行计算。窗口函数运行在 HAVING 子句之后，ORDER BY 子句之前。触发一个窗口函数需要特殊的关键字 OVER 子句来指定窗口。一个窗口包含三个组成部分：分区规范，用于将输入行分裂到不同的分区中。这个过程和 ...

新功能发布记录

2022-02-11 华东1（杭州）、华东2（上海）、华南1（深圳）、华北2（北京）数据库文件存储DBFS产品详情页表 2.2020年06月功能名称功能概述发布时间支持地域相关文档数据库文件存储标准版公测发布数据库文件存储（DBFS）是一款针对...

功能特性

Datahub数据总线功能集功能功能描述参考文档数据接入 API接入使用REST API方式，将数据写入Datahub API参考 SDK接入使用SDK将数据传入Datahub Java SDK C++ SDK Go SDK Python SDK 插件接入使用插件将数据传入Datahub LogStash插件...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

功能特性

数据库管理功能集功能功能描述参考文档实例管理创建与释放实例支持通过Lindorm管理控制台创建和释放Lindorm实例。创建实例释放实例管理存储空间管理存储空间是数据库管理的一部分，涉及到如何规划、分配、配置、监控、维护和扩展...

查看数据开发操作记录

数据脱敏与泄露数据溯源如果您文件比较重要，为防止文件泄露，您可以通过数据保护伞功能的脱敏配置，对重要数据进行脱敏规则设置，并可依据数据水印功能对泄露的数据进行溯源。详情请参考文档数据脱敏管理。MaxCompute表数据恢复 ...

数据湖元数据管理

Databricks 数据洞察DBR 7.3,Spark 3.0.1,Scala 2.12及之后版本，在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库，您无需额外购买独立的元数据库，就可以实现多个引擎计算，...

Redis数据同步方案概览

借助数据传输服务DTS（Data Transmission Service），云数据库Redis版为您提供了丰富数据同步方案，可适用于同步上云、数据异地多活、数据容灾、数据分析等多种业务场景。DTS介绍 DTS 是阿里云提供的实时数据流服务，集数据迁移、订阅、...

AddDatabase

由客户端生成该参数值，要保证在不同请求间唯一，大小写敏感、不超过64个ASCII字符。返回数据名称类型示例值描述 Code String 200 响应码。Data String test_data 返回的数据。ErrorMsg String SYSTEM_ERR 报错信息。RequestId String ...

RetryDatabase

ClientToken String 否 ETnLKlblzczshOTUbOCzxxxx 不同请求间唯一，大小写敏感、不超过64个ASCII字符。返回数据名称类型示例值描述 Code String 200 响应码。Data String SUCCESS 返回结果。ErrorMsg String Error 异常信息。RequestId...

AddDatabaseList

由客户端生成该参数值，要保证在不同请求间唯一，大小写敏感、不超过64个ASCII字符。返回数据名称类型示例值描述 Code String 200 响应码。Data String SUCCESS 返回数据。ErrorMsg String Error 报错信息。RequestId String ABCD-1234...

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具，主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

CreateDatabaseAccessPoint

由客户端生成该参数值，要保证在不同请求间唯一，大小写敏感、不超过64个ASCII字符。返回数据名称类型示例值描述 Code String 200 响应码。Data String test_data 返回的数据。ErrorMsg String SYSTEM_ERR 报错信息。RequestId String ...

常见术语

DLA元数据元数据：支持库（Schema，是表的集合）、表（Table，是同构行记录的集合）、列（Column，描述一行数据的某个属性）、视图（View，将某个查询的结果抽象成一张表）等，每个库（Schema）只能对应一种数据源，元数据是Presto引擎、...

联合查询多个MySQL实例

前提条件通过DLA联合查询两个MySQL实例数据前，您需要通过以下操作在两个MySQL实例中准备好测试数据注意 DLA和两个MySQL所属地域必须相同，否则无法进行本文档操作。由于DLA将通过MySQL的VPC连接MySQL数据库，建议您创建MySQL实例时，...

功能发布记录 2022年之前

一键实时同步至Elasticsearch 2020-09 功能名称功能描述发布时间发布地域相关文档 DataWorks数据集成新增实时同步功能。提供的实时数据同步功能，可以将源端数据库中部分或全部表的数据变化实时同步至目标数据库中，实现目标库实时保持...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

2019年

本文介绍云数据库MongoDB在2019年发布的产品功能和对应的文档动态。2019年12月功能名称功能描述发布时间发布地域相关文档新增可用区新增上海金融云可用区G。2019-12-09 全部无 2019年11月功能名称功能描述发布时间发布地域 ...

应用场景

使用阿里云对象存储OSS作为云上存储，DDI集群提供灵活的计算资源，OSS上的数据可以被多个DDI集群共享，减少数据冗余。同时，DataInsight Notebook支持多用户同时协同工作，您可以在Notebook中完成作业编辑、提交和结果查看。实时数仓利用...

教程概述

本文为您介绍当需要通过DataV展示海量数据的分析结果时，如何使用DataWorks的数据服务开发数据API，...参考文档一分钟零代码生成API，DataWorks数据服务上手指南。DataWorks数据服务帮助文档。MaxCompute Lightning帮助文档。DataV帮助文档。

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

什么是文档智能

本文介绍阿里云文档智能（Document Mind）的产品概述、业务价值、产品架构及核心能力，并将通义智文作为文档智能与大模型结合的新品进行发布。通义智文新品发布通义智文 https://tongyi.aliyun.com/zhiwen ，是一款基于通义大模型的AI阅读...

读写Elasticsearch数据

云原生数据湖分析DLA（Data Lake Analytics）中支持接入Elasticsearch，通过标准SQL语句读取Elasticsearch中的数据，从而实现Elasticsearch中的数据与其他数据源的数据联合查询等业务需求。本文档主要介绍了DLA读写Elasticsearch数据的操作...

新功能发布记录

一键建仓 02月功能名称变更类型功能描述相关文档数据分析新增支持从RDS MySQL一键创建AnalyticDB MySQL 3.0数据仓库，您可以在数据仓库中进行报表开发、周期任务调度、数据可视化等操作。一键建仓数据归档新增支持定时将RDS ...

什么是云原生数据湖分析

AnalyticDB for MySQL 相关使用文档，请参见云原生数据仓库AnalyticDB MySQL版产品简介。云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供...

Serverless Spark概述

DLA Spark基于云原生架构，提供面向数据湖场景的数据分析和计算功能。开通DLA服务后，您只需简单的配置，就可以提交Spark作业，无需关心Spark集群部署。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓...

数据湖管理FAQ

“Lakehouse”是基于数据湖的数仓，一种新的大数据范式，最根本出发点就是为了解决单纯Data Lake应用下的各种问题，例如不支持UPSERT，不支持多版本，不支持增量ETL，小文件太多，格式不是分析型的，元信息不统一，Schema没有约束，缺乏...

JindoFS实战演示

数据迁移文档链接视频链接视频发布时间描述高效迁移HDFS海量文件到OSS 高效迁移HDFS海量文件到OSS 2021-05-11 通过Hadoop DistCp将HDFS海量文件同步到OSS存在很多问题，例如文件数量太大造成内存溢出、同步效率慢、无法保证数据一致性...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

支持的数据库

数据同步数据同步功能帮助您实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、查询与报表分流、云BI及实时数据仓库等多种业务场景。同步支持的数据库、版本和同步类型以及配置文档，请参见...

数据库分组

若您需要在SQL变更或结构设计中快速载入多个数据库，可以创建一个数据库分组，将多个数据库环境、引擎类型相同的数据库绑定成为一个分组。本文介绍如何创建数据库分组。背景信息当您的业务部署在多个地域，且存在多个数据库时，您每次做...

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

背景信息以及准备工作

您还可以在DLA中创建云数据库 MongoDB版（MongoDB）的数据库连接（映射数据库），通过MySQL客户端或者MySQL命令行工具连接DLA中的映射数据库，使用标准SQL语句读写MongoDB数据。或者对存储在阿里云对象存储服务（Object Storage Service...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

Serverless Presto概述

Presto开发的初衷就是为了解决使用Hive来进行在线分析速度太慢的问题，因此它采用全内存流水线化的执行引擎，相较于其它引擎会把中间数据落盘的执行方式，Presto在执行速度上有很大的优势，特别适合用来做Adhoc查询、BI分析、轻量级ETL等...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

2022年

可以保证每个session都有一部分专属缓存空间，不会将其他session的缓存数据淘汰掉。建议将参数值设为false的场景：希望批量写入数据的数据全部都在缓存，读取这部分数据时基本都可在缓存命中，减少读盘次数。建议与 polar_enable_strat_...

案例二：搭建文档检索系统

概念文档检索系统是一种用于快速准确地检索和获取文档信息的技术。它基于文档的内容和结构，通过计算机自然语言处理和信息检索的技术，将文档转化为可检索的形式，并根据用户的查询需求来匹配和排序相关的文档。文档检索系统的应用场景...

107个大数据文档

新品推荐