大数据的利与弊英文-大数据的利与弊英文文档介绍内容-阿里云

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后，从您存储在OSS的海量数据中快速发现和定位敏感数据，对敏感数据分类分级并统一展示，同时追踪敏感数据的使用情况，并根据预先定义的安全策略，对数据进行保护和审计，以便您随时了解OSS数据资产的安全状态。...

恢复MongoDB数据库

本文介绍如何通过数据库备份DBS 恢复已完成备份的MongoDB数据库，可用于误操作后恢复以及分析历史数据等场景。前提条件已完成数据库备份。相关操作，请参见 MongoDB逻辑备份、从备库备份MongoDB数据库。操作步骤登录 DBS控制台。单击...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

DescribeDataAssets-查询数据资产敏感信息

取值：1：未识别到敏感数据，无风险 2：1 级敏感数据风险 3：2 级敏感数据风险 4：3 级敏感数据风险 5：4 级敏感数据风险 6：5 级敏感数据风险 7：6 级敏感数据风险 8：7 级敏感数据风险 9：8 级敏感数据风险 10：9 级敏感数据风险 11：10 ...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

离线同步常见问题

读取Loghub同步某字段有数据但是同步过来为空读取Loghub同步少数据读取Loghub字段映射时读到的字段不符合预期读取kafka配置了endDateTime来指定所要同步的数据的截止范围，但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

DataWorks V3.0

交互式分析：交互式分析（Interactive Analytics）是一种全面兼容PostgreSQL协议，并与大数据生态无缝打通的实时交互式分析产品。交互式分析支持对万亿级数据进行高并发、低延时、多维分析透视和业务探索，可以让您快速对接现有的BI工具。...

冷热分层

Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作。通过结合Delta Lake和上下游组件，您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中，通常会...

创建概念模型：维度

维度是您观察业务状况的视角，您可在维度建模中规划并创建维度，后续创建维度表时进行关联，关联后即可通过不同维度分析呈现不同视角的业务数据状况。如果您希望在维度表中直接关联使用已有维度，则可参考本文创建。本文为您介绍如何创建并...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

主备方案介绍

A：存储的是数据D1和数据D2中时间戳更大的数据，数据在LTS同步过程中不会改变数据原有的时间戳，一般情况下存储的是数据D2，但是由于主备实例不同可能存在时间戳毫秒级的时间差异造成数据D2的时间戳比数据D1的时间戳小，在这种情况下存储的...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

上传数据

DataWorks支持将本地的CSV文件或部分文本文件数据直接上传至MaxCompute表中，本文为您介绍操作步骤详情。前提条件已准备好用于接收本地数据的MaxCompute表。您可以选择已创建的MaxCompute表，或者直接新创建一个MaxCompute表，建表操作可...

资产质量概述

资产质量基于Dataphin平台，为数据的开发及使用提供全套的数据质量解决方案。数据质量的功能包括质量规则配置、质量监控、调度配置、智能报警、校验治理等。前提条件已购买资产质量增值服务，详情请参见开通Dataphin。背景信息面对各行...

资产质量概述

资产质量基于Dataphin平台，为数据的开发及使用提供全套的数据质量解决方案。数据质量的功能包括质量规则配置、质量监控、调度配置、智能报警、校验治理等。前提条件已购买资产质量增值服务并且当前租户已开通资产质量模块。背景信息面对...

产品架构

其基于数据自动分区+分区多副本+LSM的架构思想，具备全局二级索引、多维检索、动态列、TTL等查询处理能力，支持单表百万亿行规模、高并发、毫秒级响应、跨机房强一致容灾，高效满足业务大规模数据的在线存储与查询需求。面向海量半结构化、...

BigQuery数据源

BigQuery数据源为您提供读取BigQuery的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的BigQuery数据同步能力支持情况。支持的版本及地域 BigQuery使用的SDK版本是 google-cloud-bigquery 2.29.0，...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

2023年

Sugar BI连接MaxCompute 2023年9月更新记录时间特性类别描述产品文档 2023-09-27 新增TPC-DS性能测试新说明 MaxCompute适用于TB、PB和EB等各个数量级的数据查询场景，并在业界具有较大的性能优势，本文基于MaxCompute提供的公开数据...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

数据标准

数据标准落标说明数据标准落标的意义在于从源头进行数据的标准化生产，加速数据的融合与统一的效率，节省大量数据应用和处理的成本。完成以下操作实现数据标准落标：您可以在字段编辑器页面，编辑中文名，输入拼音首字母即可快速检索出...

业务分类

如您所在的集团或公司业务复杂且较为庞大时，可创建业务分类，对数据进行业务区分，便于对业务数据进行更加方便的管理。本文为您介绍如何创建业务分类并关联数据域及管理数据集市。新建业务分类进入智能数据建模页面。登录 DataWorks控制...

PostgreSQL数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大的提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 512 PostgreSQL ...

度量单位

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据建模，在下拉框中选择对应工作空间后单击进入数据建模。进入度量单位。在智能数据建模页面的顶部菜单栏，单击数据标准，进入数据标准页面。在数据...

入门实践

本文以实现构建数据标准来设计数据模型，并通过规范化的流程，下发模型至计算引擎为例，为您介绍DataWorks数据建模的流程。前提条件如果您使用的是阿里云主账号，请下载建模工具。如果您使用的是RAM用户，请完成授权并下载建模工具。详情...

系统配置

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据治理>数据保护伞，单击立即体验，进入数据保护伞。说明若...

关系图

DataWorks智能数据建模的关系图，帮助您快速构建数据仓库模型架构图，直观展示数据仓库中维度、维度表、明细表、汇总表、应用表等各模型之间的关系。一个关系图承载一个数据仓库模型，一个账号支持创建多个关系图。本文为您介绍关系图的...

大数据的利与弊 英文

新品推荐

大数据的利与弊英文