对大数据的提问-对大数据的提问文档介绍内容-阿里云

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

DML无锁变更概览

DML无锁数据变更可以将单个SQL拆分成多个批次执行，能更好地满足业务方对大量数据变更的需求，例如历史数据清理、全表更新字段等，保证执行效率，减小对数据库性能、数据库空间等的影响。背景信息当业务累积了大量数据时，需要定期清除表...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

表设计规范

当部分数据的生命周期与其它数据不同时，您可以通过细粒度分区实现对部分数据的管理。分区字段定义依据按优先级高低排序如下：分区列的选择应充分考虑时间因素，尽量避免更新存量分区。如果有多个事实表（不包括维度表）进行JOIN，应将...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式（SDK...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

数据质量保障原则

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。例如，从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要...

备份与恢复方案概览

为满足各类场景下对备份与恢复的需求，云数据库MongoDB提供了丰富的方案供您选择。任务实施方案支持的实例类型适用场景备份数据库自动备份MongoDB数据单节点实例。副本集实例。分片集群实例。手动备份MongoDB数据单节点实例。副本集...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

LogHub（SLS）实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或单击手工构造数据按钮自定义输入数据，再单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点对输入数据处理异常，或产生脏数据时，也会反馈出异常信息，能够...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

Oracle同步至Tablestore

本实践以Oracle作为来源数据源，以Tablestore作为去向数据源，因此您需要在DataWorks的工作空间的数据源管理页面新增Oracle数据源和Tablestore数据源，两个数据源支持的数据同步能力请参见 Oracle数据源、Tablestore数据源。已购买独享...

Kafka单表实时入湖OSS（HUDI）

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

Kafka实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

离线同步任务调优

在数据库性能限制的情况下，同步速度并非越快越好，考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成支持了限速选项，您可根据业务合理配置该值。详情请参见：限制同步速度。数据同步速度的影响因素数据同步速度受来源与...

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高...在一些需要应用大量数据对用户行为进行分析的场景中，可以通过整合多种数据来源，存储用户行为数据，构建用户画像，实时存储在Cassandra中，提供大数据风控、推荐等服务。

离线同步并发和限流之间的关系

同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，影响数据源的稳定性。同步速率（不限流）是指按照用户配置的任务期望...

发现并处理大Key和热Key

对过期数据进行定期清理堆积大量过期数据会造成大Key的产生，例如在HASH数据类型中以增量的形式不断写入大量数据而忽略了数据的时效性。可以通过定时任务的方式对失效数据进行清理。说明在清理HASH数据时，建议通过 HSCAN 命令配合 HDEL ...

TPC-H

本次测试的挑战主要有：30 TB大数据集：本次选用30 TB数据集，最大表1800亿行，对数据的导入、存储、计算性能都是巨大的挑战。复杂关联分析：多表Join、相关查询、数据多维过滤和高精度数值计算等，不仅对优化器是挑战（如何解相关、选择最...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

RDS SQL Server空间不足问题

整理索引碎片索引碎片率较高会导致实际占用的数据存储空间过大，因此对索引执行碎片整理可以降低数据空间大小。您可以在控制台的自治服务>性能优化页面，单击索引使用率页签，可以查看各表的索引碎片率统计结果，并且自治服务会提供...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

对大数据的提问

新品推荐