大数据的优化-大数据的优化文档介绍内容-阿里云

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

准备数据

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。确认当前节点的配置无误后，单击左上...

小文件优化及作业诊断常见问题

本文为您介绍小文件优化以及作业诊断时的常见问题。问题类别常见问题小文件优化 MaxCompute什么情况下会产生小文件？如何解决小文件问题？作业诊断执行并发插入操作报错，如何处理？运行作业时，报错ODPS-0130121，如何解决？创建的...

时序引擎版本说明

优化创建连续查询（Continuous Query，简称CQ）时，interval 参数需要反引号的问题。3.4.8 2022年02月07日功能优化修复HASH策略的BUG问题。3.4.7 2022年01月26日新特性 TSQL写入语句限制至少一个Field列。TSQL支持创建或者删除预降采样...

文档修订记录

数据服务概述 2023.7.31 更新功能数据治理中心数据治理中心目前支持处理MaxCompute和E-MapReduce的检查项事件、治理项问题。处理治理项问题处理检查项事件 2023.7.25 更新功能管理控制台新版管理控制台更新上线。管理控制台功能概览 ...

版本发布记录

Schema向导功能用户Schema向导功能，以及建表向导的研发与优化，极大的提升了数据湖构建和数据探索发现的效率。界面化库表操作支持界面化的删除表，删除库功能操作。补齐分区写入功能补齐了 INSERT OVERWRITE SELECT 的ETL、目标分区...

名词解释

COMPACTION 〇〇 Compaction（数据压缩）是一种数据管理技术，用于优化和减小数据库文件的大小，从而提高数据库性能。不同的存储引擎实现中存在不同的Compaction策略。INDEX 〇 ✖️ Index（索引）是一种数据结构，用于加快数据库中数据的...

优化器（Analyze）

MaxCompute的优化器是基于代价的优化器，需要基于数据的一些特征（即元数据），例如行数、字符串平均长度，准确估算代价。本文为您介绍MaxCompute收集元数据的方法，为优化查询性能提供帮助。背景信息如果获取不到准确的元数据，优化器会...

PolarDB MySQL版8.0.1版本发布日志

8.0.1.1.37 类别说明发布时间新增功能和性能优化 优化大Blob场景下，只读节点（RO）读取Redo日志的速率。调用内置存储过程时，支持使用大写的存储过程名称进行调用。2023-09-21 问题修复修复在调用部分内置存储过程时，在入参中添加反...

查询优化（Query Optimizer)

优化器的功能是否强大是决定数据库性能是否高效稳定的核心因素，尤其在具有混合负载的场景下（包括一定复杂分析查询），优化器对于大数据量复杂查询的执行效率至关重要。本章节将介绍 PolarDB MySQL版查询优化器组件在多个方面的功能，...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

SmartData 2.6.0-2.7.2版本简介

SmartData的2.6.0-2.7.2版本，包含多个重大特性的发布以及大幅的性能优化。例如，Namespace服务后端存储支持Tablestore（OTS）以及Raft、Namespace服务支持HA、读写性能优化、块存储模式和缓存模式使用方式优化等。元数据服务后端存储方案...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

什么是数据库自治服务DAS

数据库是所有企业业务的基座，企业内的研发、测试、运营和运维人员每天都需要对数据库进行操作或者查询，但是使用数据库的人员对数据库的了解程度参差不齐，所以数据库的稳定性不断受到如下问题的挑战。视频简介数据库运维和管理的挑战 ...

优化器

AnalyticDB PostgreSQL版针对HTAP场景进行了不同的优化，极大地提升了数据库性能。MagicSet下推 MagicSet下推是适用于OLAP的一个高效的优化器改写规则，其利用MagicSet提供的filtering能力，降低在大表上聚合的代价，并降低同聚合结果join...

应用场景

强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新：采用了delete-and-insert的实时更新策略，且在读取时无需进行主键合并，相较于采用了merge-on-read（unique）的合并策略，性能提升了3~15倍。湖仓分析场景解决方案 ...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

2023年

MongoDB（无分片键）同步至MongoDB（分片集群架构）MongoDB（无分片键）迁移至MongoDB（分片集群架构）优化数据订阅任务支持跨账号访问数据源。订阅方案概览 2023年08月类型重点内容相关文档新增新增支持将 PolarDB-X 2.0 同步或迁移...

2019年

支持的数据库 优化数据订阅的在线查询功能，提升数据订阅的使用体验。此功能已下线升级全量数据迁移功能，优化任务断点重启逻辑，实现接近无损的断点重启。无 2019年5月支持新版数据订阅功能。数据订阅（新版）支持迁移/同步/订阅MySQL 8...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

成本优化概述

本文介绍了成本优化的流程。MaxCompute的成本优化是一个持续不断的过程。由于大数据的动态性和不断...详情请参见计算成本优化、存储成本优化、数据上传下载成本优化。及时查看账单，对账单中的异常点进行分析和优化。详情请参见成本追踪。

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

大数据的优化

新品推荐