大数据与大数据-大数据与大数据文档介绍内容-阿里云

数据传输与迁移概述

类型典型场景 OSS数据与MaxCompute数据上传 LOAD命令。外部表，湖仓一体。Hologres数据写入MaxCompute MaxCompute直读Hologres数据。OTS/RDS（MySQL）/HBase/Lindorm/Hudi/HDFS/Hive等其它数据源写入MaxCompute 无。实时数据写入（数据...

引擎与数据权限管控概述

引擎与数据权限控制 DataWorks空间成员获取不同引擎资源权限的方式不同，各引擎权限的详细说明如下表所示：引擎类型权限说明相关参考 MaxCompute引擎预设角色 DataWorks空间级角色与MaxCompute引擎Role存在映射关系，使得授予空间预设...

应用场景

1.2 收益系统解耦对外，大数据系统与业务系统解耦，对内，大数据系统各组件之间解耦。实时通道通过数据总线，业务数据能够实时汇入大数据系统，缩短数据分析周期。2.实时数据清洗和分析 2.1 接入多种异构数据，实时清洗并归一化通过...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据量

存储数据量存放存储介质的实际数据大小，与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小：数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（内置存储）。

什么是备份数据量

与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小在单次全量备份情况下，数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（OSS）。综上所述，您可通过调整...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

轮播页面

数据映射当您需要自定义图表字段配置时，可以在数据映射模块设置不同的字段映射内容，将这些字段映射到组件对应的字段上。无需修改数据源中的字段，就可以实现数据的实时匹配。也可以单击图标对字段分别样式配置。过滤器打开过滤器，...

OSS数据安全防护最佳实践

应用场景敏感数据识别云端OSS中存储了大量的数据与文件，但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则，或根据其行业特点自定义规则，对其存储在OSS中的数据进行整体扫描、分类、...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。...

整库迁移与批量上云

DataWorks支持您在数据集成主站新建整库离线同步方案，快速将来源数据源内所有表上传至目标数据源，帮助您节省大量初始化数据上云的批量任务创建时间。支持的数据源当前DataWorks支持各类数据源的数据整库迁移至MaxCompute、OSS、...

对接使用CDH与CDP

以下简称 CDH）与CDP（Cloudera Data Platform，以下简称CDP）集群对接的能力，在保留CDH集群或CDP集群作为存储和计算引擎的前提下，您可以使用DataWorks的任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和治理功能...

数据开发与运维中心：数据加工

DataWorks的数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

配置资源组与网络连通

在数据同步任务配置前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性，您可以根据数据库所在网络环境，选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中...

运行及排错

测试运行单击当前页面左上角的图标，选择全部产品>数据开发与运维>运维中心（工作流），进入运维中心页面。在左侧导航栏，单击周期任务运维>周期任务。在弹出的页面中，找到目标节点，在操作列中单击测试。在冒烟测试对话框中，...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

作业优先级管理与成本优化

本文为您介绍MaxCompute作业优先级管理与成本优化。作业优先级 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障...由于大数据的动态性和不断变化的性质，成本优化应该持续进行，成本优化流程请参见成本优化概述。

TestNetworkConnection

调用TestNetworkConnection接口，测试目标数据源与所使用资源组的网络连通性。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

RDS SQL Server空间不足问题

您可以在控制台的自治服务>空间管理页面，查看更详细的空间使用情况，包括数据与日志的空间使用对比、空间使用的历史变化趋势、Top数据库和Top表的空间分配明细等。更多信息，请参见空间管理。说明实例不能是RDS SQL Server 2008 R2云...

系统配置

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据治理>数据保护伞，单击立即体验，进入数据保护伞。说明若...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

混合存储型（已停售）

在保证常用数据访问性能不下降的基础上，混合存储型能够大幅度降低用户成本，实现性能与成本的平衡，同时使单个Redis实例的数据量不再受内存大小的限制。内存数据：内存中存放了热数据的Key和Value，同时为快速确认要操作的Key是否存在，...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据查询与分析管控

背景信息数据查询与分析管控支持对数据源查询和查询结果可执行的展示、复制、下载、分享等操作进行权限管控，具体如下：数据源查询权限管控用于对数据源的查询权限进行管控。DataWorks的数据源分为绑定引擎时默认创建的引擎数据源，及在...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与DM（达梦）的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1024

PostgreSQL数据源

由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统，对外可以...

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与AnalyticDB for PostgreSQL的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1,024

计费项与计费方式概述

数据传输独享资源费用（包年包月）MaxCompute为所有用户提供免费的公共数据传输服务资源组，您也可以购买独享数据传输服务资源组，以独享数据传输服务，可使用更多数据传输并发数，保障资源的独享性的同时提高了输出传输的稳定性。数据...

恢复MongoDB数据库

本文介绍如何通过数据库备份DBS 恢复已完成备份的MongoDB数据库，可用于误操作后恢复以及分析历史数据等场景。前提条件已完成数据库备份。相关操作，请参见 MongoDB逻辑备份、从备库备份MongoDB数据库。操作步骤登录 DBS控制台。单击...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

大数据与大数据

新品推荐