大数据与大数据-大数据与大数据文档介绍内容-阿里云

数据指标概述

DataWorks的数据建模提供数据指标功能，为您提供统一的指标体系建立能力。指标体系指标是衡量业务特征的统计数值，用于体现企业某一业务活动的业务状况。指标通常分为原子指标和派生指标，与指标相关的参数还包括修饰词和时间周期。派生...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

冷热分层

冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至整个生命周期都不会被访问。冷热数据的区分方式如下：按照数据的创建时间：通常，数据写入初期，用户的关注度较高且访问频繁，...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

主备方案介绍

A：存储的是数据D1和数据D2中时间戳更大的数据，数据在LTS同步过程中不会改变数据原有的时间戳，一般情况下存储的是数据D2，但是由于主备实例不同可能存在时间戳毫秒级的时间差异造成数据D2的时间戳比数据D1的时间戳小，在这种情况下存储的...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

数据变更最佳实践

数据更新频率低、基于主键更新，可通过 REPLACE INTO 或者 UPDATE 单条更新数据。数据更新频率低、基于任意条件的更新，可通过 UPDATE 更新数据。删除数据、分区、表 AnalyticDB MySQL版有多种删除数据的方式，建议如下：数据删除频率低、...

我是普通用户

数据方案数据变更对数据进行变更，以满足上线数据初始化、历史数据清理、问题修复、测试等诉求。数据导入通过数据导入功能可以批量将数据导入至数据库。数据导出进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪由于...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

限制说明

数据可靠性云数据库 Memcache 版的数据存储在内存中，服务并不保证缓存数据不会丢失，有强一致性要求的数据不适合存储。数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

安全设置与其他

DataWorks支持丰富的数据开发配置，您可以在安全设置与其他页面控制是否脱敏展示返回结果中的敏感信息；是否安全隔离代码与日志；是否进行代码强制评审，把控开发任务的代码质量；是否强制执行冒烟测试，保障任务的正确性；批量删除无用的...

通过函数计算节点实现GitHub实时数据分析与结果发送

阿里云原生大数据计算MaxCompute 阿里云对象存储OSS 阿里云函数计算FC MaxCompute配置数据源类型显示当前数据源类型，即MaxCompute。数据源名称选择步骤二中创建的MaxCompute数据源。OSS配置数据源类型显示当前数据源类型，即OSS。...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

确定需求

您在构建数据仓库之前，首先需要确定构建数据仓库的目标与需求，并进行全面的业务调研。您需要了解真实的业务需求，以及确定数据仓库要解决的问题。业务调研充分的业务调研和需求分析是数据仓库建设的基石，直接决定数据仓库能否建设成功...

大数据安全治理的难点

大数据体系的特点与安全治理难点由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点，想要回答好上述问题，存在诸多难点。存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）...

与标准SQL的主要区别及解决方法

如果希望执行大数据量的排序任务，甚至是全表排序任务，可以增大N值。解决方案请参见 MaxCompute查询得到的数据是根据什么排序的？UNION ALL 参与UNION ALL运算的所有表必须列数一致，否则会报错。参与UNION ALL运算的所有列的数据类型、列...

轨迹层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

轨迹层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。单击 ...

网易有数BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入网易有数BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用网易有数BI连接MaxCompute项目，并进行可视化数据分析。背景信息网易有数BI是新一代敏捷数据可视化分析平台，是包含...

Hive兼容数据类型版本

本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义项目空间选择数据类型版本为Hive兼容数据类型版本时，项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps2=true;打开...

数据清理

背景信息 ODC 支持在源数据库中的数据归档到目标数据库后，删除源数据库中的数据，以提高数据库查询性能，降低在线存储成本。本文档旨在介绍如何通过提交数据清理工单实现归档数据。原理介绍前提条件清理的表中必须包含主键。注意事项 ...

多租户和资源划分

在Tag和副本分布都设置完毕后，可以开启数据修复与均衡逻辑来触发数据的重分布。ADMIN SET FRONTEND CONFIG("disable_balance"="false");ADMIN SET FRONTEND CONFIG("disable_tablet_scheduler"="false");该过程根据涉及到的数据量会持续...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

一键MaxCompute Merge任务节点问题排查方案

MergeInto：执行增量log表数据与Base表全量数据的合并，输出新的全量（分区）数据。任务运行离线任务节点由DataWorks调度系统在每日凌晨调度运行，在DataWorks 运维中心>周期任务可以看到节点的调度依赖情况：MergeInto任务依赖...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化、半结构化数据，又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体，以及管理湖...

资源观测

资源观测提供某段时间内，数据传输服务资源组（包括共享资源组和独享资源组）与计算资源组内各类CPU、内存、并发数等资源的使用情况，您可通过观测各指标的曲线图，优化和调整作业的执行计划及资源配置，提高作业的效率和性能。开通地域 ...

升级数据库大版本

升级数据库大版本所用时间与数据库的数据量有关，请根据业务情况提前安排升级时间。升级数据库大版本后不支持降级数据库大版本。升级数据库大版本后，低版本的备份数据不能恢复至云数据库MongoDB实例。您可以下载备份文件，将低版本的备份...

SQL Server数据源

由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 SQL Server在数据存储划分中属于RDBMS系统，对外可以...

Memcache（OCS）数据源

Memcache（原名OCS）数据源为您提供其它数据...否 0，0永久有效 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据同步系统与MySQL的网络交互次数，并提升整体吞吐量。如果该值设置过大，会导致数据同步运行进程OOM异常。否 1,024

Oracle数据源

由于主备数据同步存在一定的时间差，在网络延迟等特定情况下，会导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 Oracle在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询...

Vertica数据源

Vertica是一款基于列存储的MPP架构的数据库，Vertica...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据同步系统与Vertica的网络交互次数，并提升整体吞吐量。如果该值设置过大，会导致数据同步运行进程OOM异常。否 1,024

MongoDB 4.0

升级数据库大版本所用时间与数据库的数据量有关，请根据业务情况提前安排升级时间。升级数据库大版本后不支持降级数据库大版本。升级数据库大版本后，低版本的备份数据不能恢复至云数据库MongoDB实例。您可以下载备份文件，将低版本的备份...

大数据与大数据

新品推荐