大数据数据挖掘算法-大数据数据挖掘算法文档介绍内容-阿里云

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

我是管理员

敏感数据管理在敏感数据管理中，可以对表中的敏感数据进行添加算法、调整安全级别等操作。数据水印可以嵌入水印或将文件的水印提取出来，在数据的散布或分发过程中追溯源头。开启安全访问代理使用标准的MySQL、HTTPS协议，直接连接安全...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

功能发布记录（2023年）

数据开发：支持创建StarRocks任务并周期性调度。数据分析：支持查询并分析StarRocks数据。数据服务：支持将StarRocks数据表封装为API。数据地图：支持纳管StarRocks元数据并进行搜索展示。2023.12.15 所有地域所有DataWorks用户 StarRocks...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

什么是备份数据量

与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小在单次全量备份情况下，数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（OSS）。综上所述，您可通过调整...

存储加密

工作空间创建成功后，在DataWorks提供的 大数据优质数据源推荐列表中，单击MaxCompute后的立即绑定。在弹出的数据开发（DataStudio）数据源页面，单击新建数据源，选择 MaxCompte，根据界面指引创建数据源。详情请参见通过新建...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

DataWorks On CDP/CDH使用说明

数据质量概述三、数据分析帮助您实现在线SQL分析、业务洞察、编辑和分享数据；并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。详情请参见数据分析概述。四、数据治理 CDP/CDH集群注册完成后，DataWorks将自动...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

高压缩引擎（X-Engine）介绍

挑战和诉求：历史数据归档历史数据归档的挑战大部分业务数据的读写特征，都是最新产生的数据会被更频繁地读取或更新，而更久之前的数据（如1年前的聊天记录或订单信息）很少被访问。随着业务发展，数据库系统中会积累大量访问频率很低...

新建ArgoDB数据源

在新建数据源对话框的 大数据存储区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

友盟数据分析

U-DOP数据开放平台不仅仅为您提供了U-App的统计明细数据，同时包含了多主题的分析模板和可订阅的数据包，通过任务引导式教您深度挖掘数据中的业务信息。您可以通过阿里云数据湖分析DLA的数据订阅功能对原始明细log数据进行查询和分析。开通...

风险识别管理（新版）

风险识别管理提供了多维度的关联分析及算法，智能化的分析技术帮助您通过风险识别规则，主动发现风险操作并预警，使用可视化方式进行一站式审计。DataWorks内置了多种场景的风险识别规则，您可以直接使用，也可以根据业务场景自定义规则。...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

创建TDH Inceptor数据源

在新建数据源对话框的 大数据存储区域，选择 TDH Inceptor。如果您最近使用过TDH Inceptor，也可以在最近使用区域选择TDH Inceptor。同时，您也可以在搜索框中，输入TDH Inceptor的关键词，快速筛选。在新建TDH Inceptor数据源 ...

新建Paimon数据源

在新建数据源对话框的 大数据存储区域，选择 Paimon。如果您最近使用过Paimon，也可以在最近使用区域选择Paimon。同时，您也可以在搜索框中，输入Paimon的关键词，快速筛选。在新建Paimon数据源对话框中，配置数据源的基本信息。...

内存型

云原生内存数据库Tair 内存型（简称内存型）适合并发量大、读写热点多、高性能场景，内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式创建实例主要优势类别说明兼容性 100%兼容原生Redis，无需修改业务代码，提供 ...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

（邀测）MaxCompute Notebook使用说明

内置丰富函数库 MaxCompute Notebook内置pandas、numpy、pyplot、pyecharts、matplotlib等大量数据分析、挖掘及可视化扩展库，无需花费大量时间准备开发环境，满足您日常数据挖掘及可视化分析需求。安全保障 MaxCompute Notebook采用Bearer...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

功能特性

Hudi存储数据导入与导出功能集功能功能描述参考文档 大数据数据源 Maxcompute数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将MaxCompute数据导入至数仓版或湖仓版集群，也支持通过外表将AnalyticDB for MySQL数仓版...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

无感集成（Zero-ETL）

方案概述在大数据时代，企业面临着大量分散在不同的系统和平台上的业务数据，为了有效地管理和利用这些数据，企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取（Extract）、转换清洗（Transform）、...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

RDS术语

SSL Secure Sockets Layer，SSL是Netscape公司所提出的安全保密协议，在浏览器和Web服务器之间构造安全通道来进行数据传输，采用RC4、MD5、RSA等加密算法实现安全通讯。国际互联网工程任务组（IETF）对SSL 3.0进行了标准化，标准化后更名为...

配置同步任务

数据库类型数据源关系型数据库 MySQL、Oracle、Microsoft SQL Server、PostgreSQL、AnalyticDB for PostgreSQL 开源大数据数仓存储 Hive、TDH Inceptor 说明 HBase作为数据源或者目标数据源，支持的版本为HBase V1.1.x、HBase V0.94.x。...

RDS术语

A AliPG 阿里云支持一系列兼容PostgreSQL的云数据库服务产品，这些云数据库服务采用统一的数据库内核（简称AliPG），AliPG兼容PostgreSQL开源数据库，于2015年正式商用，支持PostgreSQL主流大版本，已稳定运行多年，支撑了大量阿里巴巴集团...

轨迹层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

大数据 数据挖掘算法

新品推荐

大数据数据挖掘算法