大数据与-大数据与文档介绍内容-阿里云

引擎与数据权限管控概述

引擎与数据权限控制 DataWorks空间成员获取不同引擎资源权限的方式不同，各引擎权限的详细说明如下表所示：引擎类型权限说明相关参考 MaxCompute引擎预设角色 DataWorks空间级角色与MaxCompute引擎Role存在映射关系，使得授予空间预设...

应用场景

1.2 收益系统解耦对外，大数据系统与业务系统解耦，对内，大数据系统各组件之间解耦。实时通道通过数据总线，业务数据能够实时汇入大数据系统，缩短数据分析周期。2.实时数据清洗和分析 2.1 接入多种异构数据，实时清洗并归一化通过...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。...数据展现与分享：数据提取成功后，可以通过报表、地理信息系统等多种展现方式，展示与分享大数据分析、处理后的成果。

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

概述

（推荐）DataStudio DataWorks的DataStudio（数据开发）模块为您提供了界面化、智能高效的大数据开发与测试服务，您可以在绑定Hologres实例后，通过使用Hologres节点进行Hologres数据开发，包括SQL管理、MaxCompute数据同步等功能。...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据量

存储数据量存放存储介质的实际数据大小，与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小：数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（内置存储）。

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

什么是备份数据量

本文介绍数据库备份DBS 中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份...当您的存储数据量较大时，推荐您购买 DBS存储包（包年包月）抵扣备份存储费用。相比按量付费，DBS存储包更加优惠。

OSS数据安全防护最佳实践

核心能力数据分类分级、敏感数据识别云端OSS中存储了大量的数据与文件，但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则，或根据其行业特点自定义规则，对其存储在OSS中的数据进行整体...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

对接使用CDH与CDP

以下简称 CDH）与CDP（Cloudera Data Platform，以下简称CDP）集群对接的能力，在保留CDH集群或CDP集群作为存储和计算引擎的前提下，您可以使用DataWorks的任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和治理功能...

数据开发与运维中心：数据加工

DataWorks的数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。...

配置资源组与网络连通

在数据同步任务配置前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性，您可以根据数据库所在网络环境，选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中...

运行及排错

测试运行单击当前页面左上角的图标，选择全部产品>数据开发与运维>运维中心（工作流），进入运维中心页面。在左侧导航栏，单击周期任务运维>周期任务。在弹出的页面中，找到目标节点，在操作列中单击测试。在冒烟测试对话框中，...

TestNetworkConnection

调用TestNetworkConnection接口，测试目标数据源与所使用资源组的网络连通性。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选...

系统配置

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据治理>数据保护伞，单击立即体验，进入数据保护伞。说明若...

作业优先级管理与成本优化

本文为您介绍MaxCompute作业优先级管理与成本优化。作业优先级 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障...由于大数据的动态性和不断变化的性质，成本优化应该持续进行，成本优化流程请参见成本优化概述。

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

RDS SQL Server空间不足问题

您可以在控制台的自治服务>空间管理页面，查看更详细的空间使用情况，包括数据与日志的空间使用对比、空间使用的历史变化趋势、Top数据库和Top表的空间分配明细等。更多信息，请参见空间管理。说明实例不能是RDS SQL Server 2008 R2云...

混合存储型（已停售）

在保证常用数据访问性能不下降的基础上，混合存储型能够大幅度降低用户成本，实现性能与成本的平衡，同时使单个Redis实例的数据量不再受内存大小的限制。内存数据：内存中存放了热数据的Key和Value，同时为快速确认要操作的Key是否存在，...

数据查询与分析管控

背景信息数据查询与分析管控支持对数据源查询和查询结果可执行的展示、复制、下载、分享等操作进行权限管控，具体如下：数据源查询权限管控用于对数据源的查询权限进行管控。DataWorks的数据源分为绑定引擎时默认创建的引擎数据源，及在...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与DM（达梦）的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1024

整库迁移与批量上云

DataWorks支持您在数据集成主站新建整库离线同步方案，快速将来源数据源内所有表上传至目标数据源，帮助您节省大量初始化数据上云的批量任务创建时间。支持的数据源当前DataWorks支持各类数据源的数据整库迁移至MaxCompute、OSS、...

PostgreSQL数据源

由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统，对外可以...

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与AnalyticDB for PostgreSQL的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1,024

计费项与计费方式概述

数据传输独享资源费用（包年包月）MaxCompute为所有用户提供免费的公共数据传输服务资源组，您也可以购买独享数据传输服务资源组，以独享数据传输服务，可使用更多数据传输并发数，保障资源的独享性的同时提高了输出传输的稳定性。数据...

数据指标概述

DataWorks的数据建模提供数据指标功能，为您提供统一的指标体系建立能力。指标体系指标是衡量业务特征的统计数值，用于体现企业某一业务活动的业务状况。指标通常分为原子指标和派生指标，与指标相关的参数还包括修饰词和时间周期。派生...

安全设置与其他

DataWorks支持丰富的数据开发配置，您可以在安全设置与其他页面控制是否脱敏展示返回结果中的敏感信息；是否安全隔离代码与日志；是否进行代码强制评审，把控开发任务的代码质量；是否强制执行冒烟测试，保障任务的正确性；批量删除无用的...

通过函数计算节点实现GitHub实时数据分析与结果发送

步骤四：配置案例在 DataWorks控制台左侧导航栏选择 大数据体验>ETL工作流模板，单击 Github十大热门编程语言模板，单击载入模板，配置模板参数。参数说明模板名称显示当前模板名称，即“Github十大热门编程语言”。工作空间选择 ...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化、半结构化数据，又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体，以及管理湖...

确定需求

您在构建数据仓库之前，首先需要确定构建数据仓库的目标与需求，并进行全面的业务调研。您需要了解真实的业务需求，以及确定数据仓库要解决的问题。业务调研充分的业务调研和需求分析是数据仓库建设的基石，直接决定数据仓库能否建设成功...

大数据安全治理的难点

大数据体系的特点与安全治理难点由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点，想要回答好上述问题，存在诸多难点。存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）...

与标准SQL的主要区别及解决方法

如果希望执行大数据量的排序任务，甚至是全表排序任务，可以增大N值。解决方案请参见 MaxCompute查询得到的数据是根据什么排序的？UNION ALL 参与UNION ALL运算的所有表必须列数一致，否则会报错。参与UNION ALL运算的所有列的数据类型、列...

Hive兼容数据类型版本

本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义项目空间选择数据类型版本为Hive兼容数据类型版本时，项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps2=true;打开...

多租户和资源划分

在Tag和副本分布都设置完毕后，可以开启数据修复与均衡逻辑来触发数据的重分布。ADMIN SET FRONTEND CONFIG("disable_balance"="false");ADMIN SET FRONTEND CONFIG("disable_tablet_scheduler"="false");该过程根据涉及到的数据量会持续...

大数据与

新品推荐