你此前对大数据有哪些关注-你此前对大数据有哪些关注文档介绍内容-阿里云

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

DML无锁变更概览

DML无锁数据变更可以将单个SQL拆分成多个批次执行，能更好地满足业务方对大量数据变更的需求，例如历史数据清理、全表更新字段等，保证执行效率，减小对数据库性能、数据库空间等的影响。背景信息当业务累积了大量数据时，需要定期清除表...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式（SDK...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

常见问题

推荐您阅读从开源到云原生，你不得不知的大数据实战。MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute仅支持通过DataWorks的数据质量功能配置数据监控规则。无法监控外部数据源的字段变化。MaxCompute的项目发挥...

数据治理中心概述

数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理成果，帮助您高效达成治理目标。同时，提供...

离线同步常见问题

离线同步会根据切分键（splitPk）来对进行数据分片，数据同步根据此配置启动并发任务进行数据同步，提高数据同步的效能。（具体插件是否需要配置切分键，请参考具体插件文档）。解决方案1：若配置前置或后置语句，建议使用添加了索引的字段...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

应用场景

系统运维和业务实时监控通过对大规模应用集群和机房设备的监控，实时关注设备运行状态、资源利用率和业务趋势，实现数据化运营和自动化开发运维。通过日志或者其他方式对原始指标数据进行采集和实时计算，最后将实时计算的结果数据存储到 ...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

数据质量概述

功能介绍数据质量支持对常见大数据存储（MaxCompute、E-MapReduce Hive、Hologres等）进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度，配置质量监控规则。并可以将质量监控规则与调度节点进行关联，当任务...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

离线同步并发和限流之间的关系

同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，影响数据源的稳定性。同步速率（不限流）是指按照用户配置的任务期望...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

DMS支持的数据库

本文介绍数据管理DMS支持录入的云数据库、他云/自建的数据库类型。支持的云数据库关系型数据库 RDS MySQL RDS SQL Server RDS PostgreSQL RDS MariaDB PolarDB MySQL版 PolarDB PostgreSQL版 PolarDB PostgreSQL版（兼容Oracle）PolarDB...

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

备份对数据库的影响

数据库备份DBS 对数据库执行备份时会造成一定影响，建议选择业务低峰期执行备份任务。备份原理与影响类目逻辑备份物理备份全量备份原理对每张表数据进行切分，然后在数据库上执行SQL语句，多线程并行读取数据。在数据库所在服务器上...

空间数据（邀测中）

入库任务支持将Shapefile、GeoJSON和CSV文件类矢量数据添加到系统默认的空间数据库或者指定的PostGIS、Ganos数据库，方便对空间数据库进行空间检索、数据质检、血缘记录，打通数据计算引擎链路，使得空间数据被用于数仓建设、标签管理等...

功能简介

入库任务支持将Shapefile、GeoJSON和CSV文件类矢量数据添加到系统默认的空间数据库或者指定的PostGIS、Ganos数据库，方便对空间数据库进行空间检索、数据质检、血缘记录，打通数据计算引擎链路，使得空间数据被用于数仓建设、标签管理等...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

逻辑备份、物理备份与快照

数据库备份DBS 支持逻辑备份与物理备份，详细说明如下：区别项逻辑备份物理备份全量备份对每张表数据进行切分，然后在数据库上运行SQL语句，多线程并行读取数据。在数据库所在服务器上安装DBS备份网关，然后通过备份网关将数据库文件...

如何选择备份方式

数据库备份DBS 支持逻辑备份和物理备份两种备份方式，为数据库提供连续数据保护、低成本的备份服务，您可以在评估业务后选择最符合您需求的备份方式。逻辑备份与物理备份的区别参照项逻辑备份物理备份概念数据库对象级备份，备份内容...

使用场景

包含但不限于如下场景：数据迁移与同步使用DMS任务编排配置和管理数据迁移或数据同步任务，将数据从一个数据源迁移到另一个数据源，或实现同数据源、不同数据源之间的数据实时同步。数据清洗与加工 DMS任务编排可以用于数据清洗和加工任务...

业务分类

如您所在的集团或公司业务复杂且较为庞大时，可创建业务分类，对数据进行业务区分，便于对业务数据进行更加方便的管理。本文为您介绍如何创建业务分类并关联数据域及管理数据集市。新建业务分类进入智能数据建模页面。登录 DataWorks控制...

补数据任务概述

Dataphin补数据任务可以对历史数据进行补数，将数据写入至对应时间分区。代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整...

补数据任务概述

Dataphin补数据任务可以对历史数据进行补数，将数据写入至对应时间分区。代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 GreenPlum 支持支持 TDengine 不...

管理用户账号和数据库

管理员用户权限管理员用户具有对所有数据库的完全访问权限。账号权限列表账号类型授权类型操作对象权限普通账号读写数据库 SHOW DATABASES USE(DATABASE)数据操作 SELECT INSERT DELETE(FROM)CARDINALITY SHOW TAG KEY(EXACT)...

你此前对大数据有哪些关注

新品推荐