数据挖掘和大数据的关系-数据挖掘和大数据的关系文档介绍内容-阿里云

空间数据管理概览

空间数据管理页面内提供了我的主页、我的项目、我的数据和空间档案四大功能模块，用户可以在这里创建项目，上传数据和添加模型等。本文为您介绍空间数据管理页面的结构与功能，帮助您快速使用空间构建平台。进入空间构建平台空间构建平台...

什么是DataWorks

产品架构 DataWorks十多年沉淀数百项核心能力，通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力，帮助企业治理内部不断上涨的“数据悬河”，释放企业的数据生产力。...

产品功能

数据和实例安全 TSDB 提供以下方案保证您的数据和实例的安全：提供 VPC 的实例访问方式，充分保证实例访问的安全性。提供网络白名单功能：您可以通过设置允许访问实例的机器名单，进一步保证实例和数据的访问安全。如果一台机器在 VPC 内部...

备份集查询功能概览

DBS备份数据查询功能，可以在不恢复备份数据的情况下，直接查询云存储中备份集的数据。背景信息传统的备份数据查询有两种方式：将备份数据文件导入至数据库，再通过数据库操作对数据进行查询，但是这种方式耗费时间长，且可能会导致数据...

升级数据库大版本

支持升级的数据库大版本以及如何升级数据库大版本，请参见支持升级的数据库大版本和升级数据库大版本。在新实例上验证变更后的客户端，测试是否存在兼容性问题。如果出现兼容性问题，请根据报错信息再次检查并变更客户端代码，直到没有...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、...，帮助用户构建和持续优化的大数据体系架构...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

导入数据至维表

创建完成维表后，您可以在维表中直接写入数据，也可以导入电子表格、本地CSV文件和Excel文件的数据至维表，为后续数据分析做准备。前提条件已创建完成一个维表，详情请参见创建维表。操作步骤在维表页面，单击全部维表下相应的文件...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

点热力层（v3.x版本）

数据项配置说明数据源组件的数据源中通过代码编辑或可视化编辑展示了组件所包含的数据字段。也可以修改数据类型，灵活配置组件数据。数据映射当您需要自定义图表字段配置时，可以在数据映射模块设置不同的字段映射内容，将这些...

DM（达梦）数据源

支持的字段类型 DM Reader和DM Writer支持大部分通用的关系数据库数据类型，例如数字、字符等。但也存在部分类型没有支持的情况，请注意检查您的数据类型，根据具体的数据库进行选择。DM Reader针对DM类型的转换列表，如下所示。类型分类 ...

数据科学计算概述

Scikit-Learn：用于数据分析和数据挖掘任务的算法。为满足用户基于MaxCompute进行大规模数据处理、分析、挖掘及模型训练的需求，MaxCompute提供了一套Python开发生态，让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及...

映射关系概述

有效映射关系是基于配置的落标映射规则、手动添加或在研发过程中指定关联生成的数据标准和资产对象之间的映射关系，可用于描述资产对象应该遵循某个数据标准，或数据标准被某个资产对象关联遵循。无效映射关系可以批量上传，也可以将某个已...

映射关系概述

有效映射关系是基于配置的落标映射规则、手动添加或在研发过程中指定关联生成的数据标准和资产对象之间的映射关系，可用于描述资产对象应该遵循某个数据标准，或数据标准被某个资产对象关联遵循。无效映射关系可以批量上传，也可以将某个已...

数据标准概述

映射关系资产对象和数据标准之间的映射关系列表，包括已确认的映射关系和被指定为无效映射的关系。支持按资产粒度汇总查看或按映射关系全量平铺查看2种模式。其中，支持针对已映射关系配置质量监控规则。落标评估明细为您展示全局所有...

数据标准概述

映射关系资产对象和数据标准之间的映射关系列表，包括已确认的映射关系和被指定为无效映射的关系。支持按资产粒度汇总查看或按映射关系全量平铺查看2种模式。其中，支持针对已映射关系配置质量监控规则。落标评估明细为您展示全局所有...

冷热分层

通过结合Delta Lake和上下游组件，您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据...

数据源中心

EMR Workflow的数据源中心支持配置数据源，以满足不同的数据存储和访问需求。本文为您介绍如何创建、编辑和删除数据源。使用限制数据源所在的集群和运行工作流时选择的集群需要在同一VPC下。创建数据源进入数据源中心页面。使用阿里云...

整体架构

技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批处理的混合负载。AnalyticDB MySQL 数仓版（3.0）主要用来处理高性能在线分析场景的数据。随着数据...

我的资产

通过我的资产清晰掌握可使用、可管理、已授权的数据表和数据服务API数据资产相关信息。通过不同的权限来源，用户可获取数据表、API等类型数据资产的使用权限。我的资产以用户的视角展示自有权限或申请授权成功的数据表、数据服务API数据...

敏感数据访问及导出情况

数据访问页面为您展示基于配置规则识别出的敏感数据的访问量、访问趋势、导出量和导出明细等，帮助您掌控每一次访问敏感数据的情况。该页面E-MapReduce计算...包括查询时间段内的数据导出的总量、每天导出的数据量和数据导出总量的前五名。

划分数据域

数据域是联系较为紧密的数据主题的集合，是业务对象高度概括的概念层次归类，目的是便于数据的管理和应用。划分数据域通常，您需要阅读各源系统的设计文档、数据字典和数据模型设计文档，研究逆向导出的物理数据模型。进而，可以进行跨源...

入仓解决方案

入仓解决方案可添加和运行多个实时同步任务、实时迁移任务，实现全量或近实时增量迁移和集成数据，用于满足项目空间内业务场景的数据迁移和集成需求。根据所需的同步效率、同步数据量需求，创建入仓解决方案同步线上库数据。入仓解决方案...

新建 ADB 数据源

OceanBase 数据库 MySQL 租户至 ADB 的数据类型映射规则请参见数据类型映射表格。操作步骤登录 OceanBase 管理控制台。在左侧导航栏，单击数据传输>数据源管理。在数据源列表页面，单击右上角的新建数据源。在新建数据源对话框中，...

数据洞察

DataWorks数据洞察是指通过深度数据分析和解读来获取深刻的数据理解和发现，它支持数据探索和可视化。您可以通过数据洞察了解数据分布，创建数据卡片，并组合成数据报告。此外，数据洞察结果能够通过长图形式的报告进一步分享。该功能利用...

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

数据订阅操作指导

数据订阅功能可以帮助您获取数据库的实时增量数据，适用于缓存更新策略、业务异步解耦、异构数据源的数据实时同步和复杂ETL的数据实时同步等多种业务场景。本文介绍数据订阅功能的具体使用流程，帮助您快速掌握创建、监控、管理数据订阅...

整体架构

其中：数据接入支持各数据源全量和近实时增量导入功能：MaxCompute联合相关产品定制开发多种数据接入工具，例如MaxCompute定制开发的 Flink Connector，DataWorks的数据集成等，用来支持高效的近实时增量数据导入。这些工具会对接...

敏感数据保护

Dataphin的数据分类，支持多级的数据分类层级管理，同时支持内置识别特征和识别方式，便于后续自动进行敏感数据识别。Dataphin的数据分级可以在后续的数据脱敏保护、权限申请、权限下载等环节使用，支持按照不同的数据分级使用不同的管控...

敏感数据保护

Dataphin的数据分类，支持多级的数据分类层级管理，同时支持内置识别特征和识别方式，便于后续自动进行敏感数据识别。Dataphin的数据分级可以在后续的数据脱敏保护、权限申请、权限下载等环节使用，支持按照不同的数据分级使用不同的管控...

数据服务概述

数据服务优势统一接口标准：提供统一的数据接口标准和服务元信息，规范接口开发，减少下游应用对接工作量，提升数据接入效率低。数据安全与合规保障：减少明细、敏感数据在应用侧的存储和暴露。使用统一平台数据安全管控策略，通过API申请...

新建 PostgreSQL 数据源

重要数据传输不支持 Serverless 模式实例和只读实例。操作步骤登录 OceanBase 管理控制台。在左侧导航栏，单击数据传输>数据源管理。在数据源列表页面，单击右上角的新建数据源。在新建数据源对话框中，选择数据源类型为 ...

Catalog概述

外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks 2.3及以上版本支持Catalog功能，方便您轻松访问并查询存储在各类外部源的数据。当前StarRocks提供Internal Catalog和External ...

资源组操作及网络连通

同步ECS自建的数据库的数据时，如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个地域（Region）下，进行数据同步时如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个阿里云账号下，进行数据同步时如何...

新建 MySQL 数据源

建议您为迁移或同步项目创建单独的数据库用户。密码数据库用户的密码。Database Name MySQL 数据库的名称。说明如果您配置了 Database Name，当数据源作为源端时，数据迁移项目仅支持选择指定 Database Name 下的迁移对象。备注数据源的...

新建 Oracle 数据源

建议您为迁移或同步项目创建单独的数据库用户。密码数据库用户的密码。Schema Name Oracle 数据库的 Schema 名称。说明如果您配置了 Schema Name，当数据源作为源端时，数据迁移或数据同步项目仅支持选择指定 Schema Name 下的迁移或同步...

数据源概述

DataWorks的数据源用于连接不同的数据存储服务。在配置数据集成同步任务之前，您需要首先定义好同步任务的源端和目的端数据源信息，以便在配置同步任务时，能够通过选择数据源名称来确定数据的读取和写入数据库。本文将介绍配置数据源时您...

Catalog概述

外部数据：保存在外部数据源（例如，Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks 2.3及以上版本支持Catalog功能，方便您轻松访问并查询存储在各类外部源的数据。当前StarRocks提供Internal Catalog和External ...

数据挖掘和大数据的关系

新品推荐