Dataphin支持的数据

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源,各模块支持对接的数据源类型说明如下:如果您需要在Dataphin中连接某数据源,则需要先在数据源管理中创建该数据源。...

新建Doris数据

在新建数据源对话框的 大数据存储 区域,选择Doris。如果您最近使用过Doris,也可以在最近使用区域选择Doris。同时,您也可以在搜索框中,输入Doris的关键词,快速筛选。在 新建Doris数据源 对话框中,配置连接数据源参数。配置数据源的...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句,来查询和分析存储在MaxCompute中的大数据,详情请参见 SQL查询。您可以通过编写SQL语句,对有查询权限的数据源进行快速的数据查询与分析操作,详情请参见 功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...

创建Hologres数据

在 新建数据源 对话框的 大数据存储 区域,选择 Hologres。如果您最近使用过Hologres,也可以在 最近使用 区域选择Hologres。同时,您也可以在搜索框中,输入Hologres的关键词,快速筛选。在 新建Hologres数据源 对话框中,配置连接数据源...

功能发布记录(2023年)

2023.4.18 所有地域 所有DataWorks用户 SQL查询 大数据公共数据集上线 基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域 所有DataWorks用户 SQL...

数据源管理概述

功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...

数据源管理概述

功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...

数据重排

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版(兼容Oracle)背景信息 功能测试或者性能测试时,往往需要准备测试数据,通常有以下几种方法:手工编写:效率低,不适用于大数据量场景。维护生成测试数据脚本:成...

创建Kudu数据

在 新建数据源 对话框的 大数据存储 区域,选择 Kudu。如果您最近使用过Kudu,也可以在 最近使用 区域选择Kudu。同时,您也可以在搜索框中,输入Kudu的关键词,快速筛选。在 新建Kudu数据源 对话框中,配置连接数据源参数。配置数据源的...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力,您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源,实现将其他数据源的数据同步至Hive或HBase数据源,或将Hive或HBase数据...

创建HBase数据

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您...

MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

新建ArgoDB数据

在 新建数据源 对话框的 大数据存储 区域,选择 ArgoDB。如果您最近使用过ArgoDB,也可以在 最近使用 区域选择ArgoDB。同时,您也可以在搜索框中,输入ArgoDB的关键词,快速筛选。在 新建ArgoDB数据源 对话框中,配置数据源的基本信息。...

数据质量概述

功能介绍 数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务...

识别任务说明

文件或表扫描限制 为了避免数据源中文件或表过影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据...

DataWorks On MaxCompute使用说明

DataWorks基于 云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理,保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

风险识别管理(新版)

规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10000时命中该规则。周一至周五:22:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询相似...

创建Hologres数据

在 新建数据源 对话框的 大数据存储 区域,选择 Hologres。如果您最近使用过Hologres,也可以在 最近使用 区域选择Hologres。同时,您也可以在搜索框中,输入Hologres的关键词,快速筛选。在 新建Hologres数据源 对话框中,配置连接数据源...

创建TDH Inceptor数据

在 新建数据源 对话框的 大数据存储 区域,选择 TDH Inceptor。如果您最近使用过TDH Inceptor,也可以在 最近使用 区域选择TDH Inceptor。同时,您也可以在搜索框中,输入TDH Inceptor的关键词,快速筛选。在 新建TDH Inceptor数据源 ...

功能发布记录(2024年)

所有DataWorks用户 数据治理中心概述 数据治理中心新增物化视图功能 当您在面对大数据计算任务频繁且存在大量相似子查询场景时,DataWorks支持自动化治理,智能推荐物化视图,为您提供了一种智能化、自动化的解决方案。当您启用此功能时,...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源(例如MySQL数据库)的数据,也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上,您可以直接在DataWorks上配置MaxCompute数据源并读写...

常见问题

数据水印的基础上,数据安全中心通过系统内置的异常事件检测,对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警,覆盖传统数据库的基础上,还支持对象存储OSS、大数据平台MaxCompute以及...

什么是备份数据

本文介绍数据库备份DBS中备份数据量的概念。名词解释 备份数据量,是指通过DBS备份链路的数据量。常见概念 在数据库备份DBS业务场景下,含有常见以下几个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念 说明 数据库...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

SQL查询

工作空间已配置数据源:DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源,若要操作非引擎数据源,请确保已创建数据源,详情请参见 创建并管理数据源。已拥有某数据源在数据分析模块的查询权限:...

轨迹层

数据分级:根据数据中的 value 字段值大小划分(自然分割)成2~7个数据大小级别,解决 value 值相差太导致的渲染问题。轨迹粗细(从细到粗):单击右侧的 或 图标,添加或删除一个类型。单击 或 图标配置多个轨迹粗细类型的排列样式。...

散点层

数据分级:根据数据中的value字段值大小划分(自然分割)成2~7个数据大小级别,解决value值相差太导致的渲染问题。散点贴图:散点层贴图样式,可黏贴贴图URL链接获取。散点大小(从小到):单击右侧的 或 图标,添加或删除一个散点大小...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接,通过交互式分析Hologres连接DataWorks数据服务开发并生成API,快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

散点层

数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...

数据归档常见问题

归档为CSV格式的数据数据量可能会比归档为ORC格式的数据数据量更。为什么归档后的冷数据及文件在主账号下面的OSS上看不到?PolarDB 的冷数据存储在系统默认的OSS上,不在客户的OSS里,所以客户无法看到。目前只支持在PolarDB控制台上...

在EMR集群运行TPC-DS Benchmark

TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具,并不适合大数据场景,所以本文教程中使用的工具和集群信息如下:Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具,是由Hortonworks公司开发,支持使用Hive和Spark运行...

同步时源库为Db2 for LUW的注意事项及限制

说明 如为增量同步任务,DTS要求源数据库的数据日志保存24小时以上,如为全量同步和增量同步任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量同步完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

数据治理中心概述

量化评估:健康分 健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据,使用数据处理及机器学习等技术,对各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合...

PostgreSQL数据

否 无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据集成和服务器端的网络交互次数,能够较地提升数据抽取性能。说明 fetchSize 值过(>2048)可能造成数据同步进程OOM。否 512 PostgreSQL ...

MaxCompute数据

数据集成使用MaxCompute引擎同步数据通道进行数据上传和下载(同步数据通道SLA详情请参见 数据传输服务(上传)场景与工具),请根据MaxCompute引擎同步数据通道SLA评估数据同步业务技术选型。一键实时同步至MaxCompute,按实例模式同步时...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据传输服务 云数据库 Redis 版 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用