大数据的主要体系-大数据的主要体系文档介绍内容-阿里云

数据服务入门

DataWorks数据服务的主要目标是为个人、团队和企业构建统一的数据服务总线，帮助用户统一管理面向内外部的API服务。例如，您可以将查询数据表功能快速的生成对应的API，或将已有的API注册至数据服务平台进行统一发布和管理。本文以MySQL...

外部表概述

背景信息 MaxCompute SQL作为分布式数据处理的主要入口，可实现EB级别离线数据的快速处理和存储。随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、...，帮助用户构建和持续优化的大数据体系架构...

IoT数据自动化同步至云端解决方案

物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...

功能简介

数据资产管理体系主要包括以下几个方面的内容。数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。...

运营

数据资产管理体系主要包括以下几个方面的内容。数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。...

功能简介

数据资产管理体系主要包括以下几个方面的内容。数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。...

TPC-H

本次测试的挑战主要有：30 TB大数据集：本次选用30 TB数据集，最大表1800亿行，对数据的导入、存储、计算性能都是巨大的挑战。复杂关联分析：多表Join、相关查询、数据多维过滤和高精度数值计算等，不仅对优化器是挑战（如何解相关、选择最...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

离线同步数据质量排查

如果写出数据和目标存储已有数据发生数据约束（主键冲突、唯一键约束、外键约束等），数据库则使用来源数据update更新目标表已有数据行，在目标表存在多个数据约束的情况下，数据替换可能会失败并产生脏数据如果写出数据和目标存储已有...

计费逻辑说明

DataWorks计费体系由软件费用与资源费用两部分组成，计费体系中各计费项的计费模式分为包年包月与按量付费两种计费形式。本文为您介绍DataWorks的计费要点和各功能模块的软件费用详情。注意事项不同规格、不同云环境（例如，公共...

数据中心

主要功能包括数据表引入、本地数据导入。数据表支持用户从已注册的计算资源类型中添加数据表。支持基于已添加的数据查看表信息、表内展示的字段。支持将已添加的源表数据进行删除。本地数据支持用户通过上传本地文件方式将数据集导入至...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。本文主要...

数据存储

时序数据存储时序数据库对时序数据的写入、聚合以及检索都做了特定优化，AnalyticDB采集到的时序数据主要存在时序数据库中。目前每个AnalyticDB实例有一个独立的时序数据库进行服务，只保存当前AnalyticDB实例的时序数据。日志数据存储 ...

数据建模新能力解读

以下为您系列讲解阿里云智能数据建模新能力解读。课程视频列表课程简介 ...主要产品：DataWorks 课程时长：4分钟课程内容：数据建模的主要能力解读。主要产品：DataWorks 课程时长：22分钟相关文档：数仓规划与业务分类逆向建模数据标准

数据建模新能力解读

以下为您系列讲解阿里云智能数据建模新能力解读。...主要产品：DataWorks 课程时长：4分钟课程内容：数据建模的主要能力解读。主要产品：DataWorks 课程时长：22分钟相关文档：数仓规划与业务分类逆向建模：物理表反向建模数据标准

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

数据采集

业务相关的时序数据主要包括：QPS、查询RT、QueueTime、PlanningTime查询失败率等查询相关的时序指标，以及TPS、索引build任务个数、写入RT等数据写入相关时序指标。计算节点的主要时序指标包括CPU使用率等相关信息。存储节点相关的时序...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

冷数据归档

随着冷数据体量的不断变大，存储成本也会水涨船高。所以降低冷数据存储成本，提升热数据读取性能，对于使用时序引擎的企业用户具有现实意义。在Lindorm时序引擎中，随着时间的不断推移，数据呈现出很明显的冷温热分层。其相应的概念如下：...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

创建MySQL数据源

常用于网站、应用程序和商业产品，是一种常见的主要关系数据存储系统。更多详情请参见 MySQL官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的...

数据质量风险监控

数据质量风险监控主要针对数据的准确性、一致性和完整性。本教程使用DataWorks数据质量（DQC）功能，完成数仓各层次的数据质量监控。前提条件首先您需要完成教程搭建互联网在线运营分析平台，并保证您的DataWorks工作空间创建区域为华东2...

数据质量风险监控

数据质量风险监控主要针对数据的准确性、一致性和完整性。本教程使用DataWorks数据质量（DQC）功能，完成数仓各层次的数据质量监控。前提条件首先您需要完成教程搭建互联网在线运营分析平台，并保证您的DataWorks工作空间创建区域为华东2...

创建MySQL数据源

常用于网站、应用程序和商业产品，是一种常见的主要关系数据存储系统。更多详情请参见 MySQL官网。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据...

确认表血缘

任务配置上下游节点依赖前，您需先确认当前节点的表血缘关系（例如，表数据间的血缘关系、表产出的分区数据），基于血缘关系配置节点的调度依赖。本文为您介绍如何确认表血缘，以及未基于表血缘配置节点依赖的影响。背景信息确认表血缘，...

点热力层（v3.x版本）

过滤器打开过滤器，选择已创建的数据过滤器或新建数据过滤器，并配置数据过滤器脚本，实现数据的筛选功能。详情请参见管理数据过滤器。数据响应结果实时展示了组件所使用的数据。当组件数据源发生变化时，数据响应结果会对应展示最新的...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

DB2数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据同步系统和服务器端的网络交互次数，能够较大的提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1024 Writer脚本...

大数据的主要体系

新品推荐