大数据的统计基础-大数据的统计基础文档介绍内容-阿里云

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

统计信息

手动收集统计信息收集全表统计信息 ANALYZE TABLE 命令会扫描全表来收集统计信息，对于数据量大的表，全表收集统计信息需消耗更多的时间，建议在业务低峰期执行或采样收集统计信息。语法 ANALYZE TABLE[schema_name.]table_name[UPDATE...

探查数据集

在列表上方的统计数据部分，查看每个字段的唯一值个数。单击或，查看高价值数据和统计数据。可选，单击复选框，选择不同的字段。可选，单击，选择当前字段的排序方式。可选，单击，在当前字段中筛选出需要探查的具体数据。可以选择多...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

进入数据质量概览（新版）

说明暂不支持流式数据的统计。资产质量重点关注您可在该区域右侧选择查看规则和表粒度统计需要重点关注的资产质量概况。类别指标描述表已配置规则表数当前工作空间下，截止到当日（您在概览页面右上角指定的日期）已配置质量...

全景视角

背景信息为提高不同使用场景下的数据治理效率和质量，DataWorks为您提供以下视角：数据管理视角：在数据资产管理、数据安全加固、数据权限管理等数据管理场景下，建议您使用数据管理视角，关注查看数据管理过程中，表的统计数据、安全权限...

日志报表

1小时（相对）大批量修改SQL的列表，包括：最早执行时间最近执行时间 PolarDB-X 实例ID 数据库表格执行次数平均更新行数平均时长（秒）SQL 修改数据统计时间日志报表页面的所有图表都是基于不同时间段（默认为过去1小时内的）的数据...

事件中心

在事件中心页，单击事件和建议页签，查看选定时间范围内各类事件的统计数据和趋势图。说明选择时间范围时，查询结束时间需晚于查询开始时间，且查询开始时间和查询结束时间的间隔不能超过7天。在异常事件页签，查看异常事件的统计...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

公共汇总粒度事实层（DWS）

区分统计周期：在表的命名上要能说明数据的统计周期，如_1d 表示最近1天，td 表示截至当天，nd 表示最近N天。公共汇总事实表规范公共汇总事实表命名规范：dws_{业务板块缩写/pub}_{数据域缩写}_{数据粒度缩写}[_{自定义表命名标签缩写}]_{...

公共汇总粒度事实层（DWS）

区分统计周期：在表的命名上要能说明数据的统计周期，例如_1d表示最近1天，td表示截至当天，nd表示最近N天。公共汇总事实表规范公共汇总事实表命名规范：dws_{业务板块缩写/pub}_{数据域缩写}_{数据粒度缩写}[_{自定义表命名标签缩写}]_{...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

配置OpenGauss输出组件

同步其他数据源的数据至OpenGauss数据源的场景中，完成源数据源的信息配置后，需要配置OpenGauss输出组件写入数据的目标数据源。本文为您介绍如何配置OpenGauss输出组件。前提条件已创建OpenGauss数据源，如何创建，请参见创建OpenGauss...

配置OpenGauss输出组件

同步其他数据源的数据至OpenGauss数据源的场景中，完成源数据源的信息配置后，需要配置OpenGauss输出组件写入数据的目标数据源。本文为您介绍如何配置OpenGauss输出组件。前提条件已创建OpenGauss数据源，如何创建，请参见创建OpenGauss...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中，完成源数据源的信息配置后，需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件已创建TiDB数据源，如何创建，请参见创建TiDB数据源。进行TiDB输出组件...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中，完成源数据源的信息配置后，需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件已创建TiDB数据源，如何创建，请参见创建TiDB数据源。进行TiDB输出组件...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

新建统计周期

统计周期即统计数据的时间范围，例如最近7天、最近30天等。本文为您介绍如何新建统计周期。前提条件仅支持智能研发版。若需使用，请升级当前版本。升级版本，请参见升级。完成计算引擎类型设置，详情请参见设置Dataphin实例的计算引擎...

新建统计周期

统计周期即统计数据的时间范围，例如最近7天、最近30天等。本文为您介绍如何新建统计周期。前提条件仅支持智能研发版。若需使用，当前租户还需开通智能研发模块。完成计算引擎类型设置，详情请参见设置计算引擎为Hadoop 设置Dataphin...

DescribeSqlLogStatistic-查询DAS企业版数据统计信息

调用DescribeSqlLogStatistic接口，查询DAS企业版的数据统计信息。接口说明使用该接口需满足以下前提条件：使用阿里云或 DAS 的 SDK 时，建议使用最新版本。在使用 SDK 调用 DAS 服务时，需要将地域指定为 cn-shanghai。调试您可以在Open...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

请求分析

数据库自治服务DAS（Database Autonomy Service）提供请求分析功能，包括查看全局慢日志和SQL全量请求分析。前提条件数据库实例需要满足以下条件：全局慢日志功能，目前仅支持如下数据库实例：RDS MySQL MyBase MySQL PolarDB MySQL版 ...

迁移 OceanBase 数据库 MySQL 租户的数据至 MySQL ...

如果选择全量校验，建议您在全量校验开始前，收集 OceanBase 数据库 MySQL 租户的统计信息，并使用 ANALYZE 语句收集 MySQL 数据库的统计信息。如果您选择了增量同步，且 DML 同步选项中未选择所有的 DML，则数据传输不支持本场景下的全...

OceanBase 数据库之间的数据迁移

背景信息您可以在数据传输控制台创建从 OceanBase 数据库迁移数据至 OceanBase 数据库同类型租户的数据迁移项目，通过结构迁移、全量迁移和增量同步，无缝迁移源端数据库中的存量业务数据和增量数据至目标端数据库。前提条件数据传输已...

迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL ...

本文为您介绍如何使用数据传输迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户。重要如果数据迁移项目长期处于非活跃状态（项目状态为失败、已暂停或已完成），受增量日志保留时长等影响，项目可能无法恢复。数据传输将主动释放...

DataWorks V3.0

发布版本：DataWorks V3.0 发布时间：2019年12月18日发布范围：全球所有已开通DataWorks的地域发布内容：DataWorks V2.0仅支持MaxCompute计算引擎，DataWorks V3.0全新升级了多引擎架构，在MaxCompute的基础上，新增开源大数据引擎E-...

云数据库 RDS MySQL 版收集表的统计信息

概述本文介绍云数据库 RDS MySQL 版如何收集表的统计信息。详细信息阿里云提醒您：如果您对实例或数据有修改、变更等风险操作，务必注意实例的容灾、容错能力，确保数据安全。如果您对实例（包括但不限于ECS、RDS）等进行配置与数据修改...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

大数据的统计基础

新品推荐