大数据的五个大特点-大数据的五个大特点文档介绍内容-阿里云

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

数据组织优化

另外，对于超过一定时间跨度的文件也不会进行合并，因为将时间跨度太大的数据合并在一起可能导致在进行Time travel或者增量查询时读取大量不属于此次查询时间范围的历史数据，进而造成不必要的读放大问题。由于数据是按照 BucketIndex 来...

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言，其语法类似于标准SQL，但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

API概览

由于自签名细节非常复杂，需花费 5个工作日左右。因此建议加入我们的服务钉钉群（11370001915），在专家指导下进行签名对接。在使用API前，您需要准备好身份账号及访问密钥（AccessKey），才能有效通过客户端工具（SDK、CLI等）访问API。...

数据服务系统配置

指定redis实例：将缓存数据存储到指定的Redis，适用于大量API开启缓存，缓存数据量较大的场景。如需添加Redis实例，请参见创建Redis数据源。重要请勿删除作为API缓存数据的Redis实例，否则缓存数据存储将失败且API开启的缓存将失效。单击...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据归档至专属存储

本文为您介绍如何将数据归档至专属存储中（存储在 DMS）、将专属存储的数据转存至OSS，以及删除归档至专属存储的数据等操作。前提条件源数据库类型为：MySQL：RDS MySQL、PolarDB MySQL版、AnalyticDB MySQL 3.0。说明 MySQL数据库账号...

Oracle同步至Tablestore

本实践以Oracle作为来源数据源，以Tablestore作为去向数据源，因此您需要在DataWorks的工作空间的数据源管理页面新增Oracle数据源和Tablestore数据源，两个数据源支持的数据同步能力请参见 Oracle数据源、Tablestore数据源。已购买独享...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

Hash Clustering

然后每个Instance对数据量小的一路建Hash表，数据量大的顺序读取Join。Sort Merge Join 如果Join的表数据更大一些，Shuffle Hash Join方法也用不了，因为内存已经不足以容纳建立一个Hash Table。这时的实现方法是：先按照Join Key做Hash ...

常见问题

索引同步的延时时间=数据同步延迟+commit时间没有堆积情况下,同步延时主要为框架开销，毫秒级别（如果有积压情况下，延时会变长，需要增加节点来增加同步能力）默认commit时间为15秒，对于写很少的客户可以设置为1秒、3秒、5秒，对于写入...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

管理数据看板

进入恢复模式重要当您编写的过滤器有问题（例如死循环导致的看板卡顿）、数据源配置有问题（例如返回的数据量过大导致的看板卡顿）或自定义组件有逻辑问题等其他原因导致数据看板无法编辑时，使用恢复模式进入，可以删除掉带来问题的内容...

功能特性

OSS数据源一键入湖通过DLA控制台配置数据源（RDS数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，同时在数据仓库和DLA中创建与数据源表相同的表...

索引优化

在大部分传统的TP型数据库中，索引可以极大的提高数据的访问效率。但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

使用流程

操作流程概览如下：开通云原生数据湖分析服务可选：创建虚拟集群：CU版适用于查询频率高、查询数据量较大的场景，同时也能够给您使用DLA的费用预算带来一定的确定性。推荐您使用CU版本来进行数据分析与计算。说明如果您使用系统默认的...

常见问题

以下为您介绍实时同步数据至 AnalyticDB for MySQL 3.0操作失败的常见问题和解决方案。PolarDB数据源网络联通性测试失败怎么办？MySQL数据源网络联通性测试失败怎么办？实时任务，运行报错：...

应用场景

双机热备保障高可用云数据库Redis版提供双机热备的方式，可以极大的提高服务可用性。集群版解决性能瓶颈云数据库Redis版提供集群版实例，破除Redis单线程机制的性能瓶颈，可以有效的应对视频直播类流量突起，有效地支撑高性能的需求。...

数据治理中心概述

数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理成果，帮助您高效达成治理目标。同时，提供...

表

表是MaxCompute的数据存储单元。它在逻辑上是由行和列组成的二维结构，每行代表一条记录，每列表示相同数据类型的一个字段。MaxCompute的表类似于传统关系型数据库中的表，可以存储结构化数据，并且使用SQL进行查询和分析。MaxCompute中...

数据资产等级定义

通常，划分为5个性质的等级：毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。局部性质：数据直接或间接用于某些业务线的运营、...

数据接口配置说明

本文介绍区块内部的数据接口的配置的方法，帮助您理解区块的数据接口功能。在区块编辑器内，您可以单击区块编辑器右上角的图标，在数据接口设置页签中支持如下数据接口配置操作。切换模式在对话框上方可以切换数据接口模式，可选视图...

数据接口配置说明

本文介绍区块内部的数据接口的配置的方法，帮助您理解区块的数据接口功能。在区块编辑器内，您可以单击区块编辑器右上角的图标，在数据接口设置页签中支持如下数据接口配置操作。切换模式在对话框上方可以切换数据接口模式，可选视图...

必读：简单模式和标准模式的区别

绑定后不同工作空间模式下，DataWorks模块对应操作的数据源如下表所示：DataWorks模块标准模式简单模式数据开发操作开发环境数据源（实例，项目、数据库）操作生产环境数据源（实例，项目、数据库）运维中心开发环境运维中心：操作...

BI分析模式数据面板功能介绍

使用BI分析模式配置组件数据是一个全新的数据配置功能，需要与您准备的数据集内容相结合，您可以使用BI分析模式，为组件自由分配所需数据集的字段内容，合理配置图表数据映射和其他数据筛选等功能。本文介绍BI分析模式下组件数据配置面板...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本，包括1.0数据类型、2.0数据类型以及Hive兼容数据类型，您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

公开数据集概述

国家统计数据集 national_data TPC性能数据 TPC-DS TPC-DS是一个面向决策支持的基准，它对决策支持系统的几个普遍适用的方面进行建模，包括查询和数据维护等，使大数据系统等新兴技术能够执行基准测试。TPC-DS 10GB性能测试集 TPC-DS 100GB...

发现并处理Redis的大Key和热Key

大Key和热Key的定义名词解释大Key 通常以Key的大小和Key中成员的数量来综合判定，例如：Key本身的数据量过大：一个String类型的Key，它的值为5 MB。Key中的成员数过多：一个ZSET类型的Key，它的成员数量为10,000个。Key中成员的数据量过...

BigQuery数据源

BigQuery数据源为您提供读取BigQuery的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的BigQuery数据同步能力支持情况。支持的版本及地域 BigQuery使用的SDK版本是 google-cloud-bigquery 2.29.0，...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

近实时增量导入

如上图所示：数据导入工具内部会集成MaxCompute数据通道服务Tunnel提供的SDK Client，支持分钟级高并发写入数据到Tunnel Server，由它把数据并发写入到每个Bucket的数据文件中。写入并发度可通过表属性 write.bucket.num 来配置，因此写入...

管理健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>StarRocks。在顶部菜单栏处，...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

01新建模型目录

具有数据量大，查询计算较慢的特点。DWS：全称Data Warehouse Summary，汇总数据层，存储以事实表为基础，以维度为单位的统计度量。DIM：全称Dimension，公共维度层，是在存储层的基础上清洗脏数据、筛选有价值数据，并且对明细数据层的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

通过DTS实现数据库的垂直拆分

当RDS实例负载过大时，可以将该实例的一个数据库或表垂直拆分至另外一个单独的实例中。本文介绍如何通过双写方案和简易拆分方案实现垂直拆分。背景信息假设一个RDS实例上有数据库A和B，随着业务增长实例瓶颈也日趋可见，如想要减轻该实例...

数据库分组

若您需要在SQL变更或结构设计中快速载入多个数据库，可以创建一个数据库分组，将多个数据库环境、引擎类型相同的数据库绑定成为一个分组。本文介绍如何创建数据库分组。背景信息当您的业务部署在多个地域，且存在多个数据库时，您每次做...

大数据的五个大特点

新品推荐