对大数据调查的总结-对大数据调查的总结文档介绍内容-阿里云

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

DML无锁变更概览

DML无锁数据变更可以将单个SQL拆分成多个批次执行，能更好地满足业务方对大量数据变更的需求，例如历史数据清理、全表更新字段等，保证执行效率，减小对数据库性能、数据库空间等的影响。背景信息当业务累积了大量数据时，需要定期清除表...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式（SDK...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

表设计规范

当部分数据的生命周期与其它数据不同时，您可以通过细粒度分区实现对部分数据的管理。分区字段定义依据按优先级高低排序如下：分区列的选择应充分考虑时间因素，尽量避免更新存量分区。如果有多个事实表（不包括维度表）进行JOIN，应将...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

备份与恢复方案概览

为满足各类场景下对备份与恢复的需求，云数据库MongoDB提供了丰富的方案供您选择。任务实施方案支持的实例类型适用场景备份数据库自动备份MongoDB数据单节点实例。副本集实例。分片集群实例。手动备份MongoDB数据单节点实例。副本集...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

数据质量保障原则

不同行业有不同的评估数据质量的标准。对于MaxCompute，数据质量可以从完整性、准确性、一致性和及时性共四个角度进行评估。完整性完整性是指数据的记录和信息是否完整，是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段...

深度解析PolarDB数据库并行查询技术

总结数据库是应用系统的核心，而优化器是数据库的核心，优化器的好坏几乎可以决定一个数据库产品的成败。开发一个全新的优化器，对任何团队都是一个巨大的挑战，技术的复杂度暂且不提，单单想做到产品的足够稳定就是一个非常难以克服的...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

Kafka实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

Oracle同步至Tablestore

本实践以Oracle作为来源数据源，以Tablestore作为去向数据源，因此您需要在DataWorks的工作空间的数据源管理页面新增Oracle数据源和Tablestore数据源，两个数据源支持的数据同步能力请参见 Oracle数据源、Tablestore数据源。已购买独享...

Kafka单表实时入湖OSS（HUDI）

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

离线同步任务调优

在数据库性能限制的情况下，同步速度并非越快越好，考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成支持了限速选项，您可根据业务合理配置该值。详情请参见：限制同步速度。数据同步速度的影响因素数据同步速度受来源与...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

离线同步并发和限流之间的关系

同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，影响数据源的稳定性。同步速率（不限流）是指按照用户配置的任务期望...

发现并处理大Key和热Key

在使用云原生内存数据库Tair 的过程中，如果未能及时发现并处理Big keys（下文称为“大Key”）与Hotkeys（下文称为“热Key”），可能会导致服务性能下降、用户体验变差，甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

TPC-H

本次测试的挑战主要有：30 TB大数据集：本次选用30 TB数据集，最大表1800亿行，对数据的导入、存储、计算性能都是巨大的挑战。复杂关联分析：多表Join、相关查询、数据多维过滤和高精度数值计算等，不仅对优化器是挑战（如何解相关、选择最...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

对大数据调查的总结

新品推荐