主流的大数据运算模式-主流的大数据运算模式文档介绍内容-阿里云

RestAPI（HTTP形式）数据源

RestAPI数据源为您提供读取和写入RestAPI双向通道的功能，本文为您介绍DataWorks的RestAPI数据同步的能力支持情况。使用限制目前该数据源仅支持独享数据集成资源组。目前不支持设置超时参数，当前DataWorks内置的请求超时时间是60s,如果...

SQL基本语法

使用LIKE运算符：LIKE运算符用于模糊匹配，可以根据指定的模式来过滤数据。LIKE运算符通常与通配符结合使用，通配符表示任意字符，在PostgreSQL中，主要有以下两种通配符：百分号（%）：表示任意长度的字符序列，可以匹配0个或多个字符。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

数据建模新能力解读

主要产品：DataWorks 课程时长：5分钟课程内容：当前主流的数据建模方法论。主要产品：DataWorks 课程时长：4分钟课程内容：数据建模的主要能力解读。主要产品：DataWorks 课程时长：22分钟相关文档：数仓规划与业务分类逆向建模数据...

数据建模新能力解读

主要产品：DataWorks 课程时长：5分钟课程内容：当前主流的数据建模方法论。主要产品：DataWorks 课程时长：4分钟课程内容：数据建模的主要能力解读。主要产品：DataWorks 课程时长：22分钟相关文档：数仓规划与业务分类逆向建模数据...

构建数据仓库

方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：MaxCompute+Flink+DataWorks。场景说明用户数据来源丰富，包括来自云端...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

JindoFS介绍和使用

HDFS有Java onheap限制，而Block模式没有Java onheap和内存限制，可以支持更大的数据规模。Block模式轻运维，不用担心坏盘或坏节点，数据1备份放置在OSS上，支持上下线节点。支持对冷数据做透明压缩和归档，使用多种手段进行成本优化，对接...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...

创建数据板块

模式描述 Dev-Prod模式生成相互隔离的Dev和Prod数据板块，更强保障Prod数据板块中的数据安全。如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。创建Dev-Prod模式数据板块，请参见创建Dev-...

创建数据板块

模式描述 Dev-Prod模式生成相互隔离的Dev和Prod数据板块，更强保障Prod数据板块中的数据安全。如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。创建Dev-Prod模式数据板块，请参见创建Dev-...

接入其他自建或其他云厂商数据库实例

本文介绍如何在数据库自治服务DAS上接入除阿里云外的其他自建数据库，包括用户本地机房数据库、其他云厂商的数据库和其他云厂商虚拟机上的自建数据库。前提条件 DAS目前支持接入的自建数据库引擎：MySQL MongoDB PostgreSQL Redis 说明 ...

接入阿里云ECS自建数据库实例

本文介绍如何在数据库自治服务DAS中接入阿里云ECS自建数据库。前提条件 DAS目前支持接入的ECS自建数据库引擎有：MySQL PostgreSQL MongoDB Redis 说明目前DAS仅支持接入6.0及以下版本的自建Redis。部署数据库实例的ECS与DAS属于同一个阿里...

流程管控

背景信息 DataWorks的工作空间分为标准模式和简单模式，不同模式工作空间下任务的开发流程存在一定差异，两种模式的数据开发流程示意如下。标准模式工作空间开发流程简单模式工作空间开发流程如上图所示，在通用流程的关键节点，例如，...

SQL窗口介绍

数据管理DMS的SQL窗口可以非常便捷地执行各类SQL语句，同时支持以可视化的方式对目标数据库进行增、删、改、查等操作，适用于数据查询、数据开发等场景。前提条件已具备目标库或表的查询权限。申请权限，请参见权限管理。SQL窗口界面介绍...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能，本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。支持的版本支持阿里云ClickHouse的20.8、21.8内核版本。您需要确认驱动和您的ClickHouse服务之间的兼容能力，...

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言，其语法类似于标准SQL，但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

阿里云流播放器

数据面板（默认模式）说明组件数据面板默认是默认模式，您可以单击切换数据面板右上角的分析模式，即可在弹窗对话框内，确认将组件转为分析模式并创建分析器，并单击确认变更，使用DataV数据集提供的分析模式功能后，当前组件会转换成...

轮播页面

数据面板（默认模式）说明组件数据面板默认是默认模式，您可以单击切换数据面板右上角的分析模式，即可在弹窗对话框内，确认将组件转为分析模式并创建分析器，并单击确认变更，使用DataV数据集提供的分析模式功能后，当前组件会转换成...

安全设置

安全设置是您可以对数据安全及访问进行精细化控制、对Spark Jar任务的开关及鉴权模式的设置，来保障数据的安全性。本文为您介绍如何设置严格权限模式和Spark Jar任务。严格权限模式背景信息 Dataphin管理中心支持项目安全模式设置功能，在...

安全设置

安全设置是您可以对数据安全及访问进行精细化控制、对Spark Jar任务的开关及鉴权模式的设置，来保障数据的安全性。本文为您介绍如何设置严格权限模式和Spark Jar任务。严格权限模式背景信息 Dataphin管理中心支持项目安全模式设置功能，在...

Tair扩展数据结构概览

云数据库 Redis 版与开源Redis相同，支持String、List、Hash、Set、Sorted Set、Stream等数据类型，能够满足大部分场景下的开发需求，但无法直接满足一些复杂场景的业务需求，需要通过开发大量代码、使用Lua脚本等复杂的方式实现。...

Tair命令概览

Cpc 无 TairCpc是基于CPC（Compressed Probability Counting）压缩算法开发的数据结构，支持仅占用很小的内存空间对采样数据进行高性能计算，支持滚动窗口和滑动窗口，可以更好地支持流式运算，支持大数据分析中常用的聚合算子，如：...

什么是云数据库Cassandra

理由三：大数据存储的利器、方便搭配X-Pack Spark Spark是目前主流默认的大数据处理引擎，Cassandra是目前主流的BigData NoSQL数据库。Cassandra+Spark可以处理风控、推荐、物联网等很多数据驱动的业务。阿里云数据库团队也提供了X-Pack ...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

内存型

云原生内存数据库Tair 内存型（简称内存型）适合并发量大、读写热点多、高性能场景，内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式创建实例主要优势类别说明兼容性 100%兼容原生Redis，无需修改业务代码，提供 ...

计费逻辑说明

资源费用明细：数据服务API调用数据质量数据质量可对任务产出的表数据进行数据质量监控，DataWorks将根据数据质量规则实例数量计费。资源费用明细：数据质量 OpenAPI DataWorks提供OpenAPI，您可基于OpenAPI实现业务定制化开发，...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

概述

说明关于AUTO模式数据库与DRDS模式数据库的介绍，请参见 AUTO模式数据库与DRDS模式数据库。原理在 PolarDB-X 中，如果创建表时通过 AUTO_INCREMENT 指定了自增列，为了保证自增列的全局唯一性，则自动为该表创建并关联一个Sequence对象，...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

周期任务补数据

周期任务补数据功能用于对周期任务在指定的历史业务日期内进行数据回刷。周期任务开发完成并提交发布后，任务会按照调度配置定时运行，如果您希望在指定时间段运行周期任务或回刷历史一段时间区间的数据，可以使用补数据功能。节点使用的...

周期任务补数据

周期任务补数据功能用于对周期任务在指定的历史业务日期内进行数据回刷。周期任务开发完成并提交发布后，任务会按照调度配置定时运行，如果您希望在指定时间段运行周期任务或回刷历史一段时间区间的数据，可以使用补数据功能。节点使用的...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

进入组件分析模式

DataV组件分析模式提供与原有组件的数据和样式配置不同的创作模式，采用以数据为核心、自动化样式配置、探索式构建视图的流程设计。通过优化数据视图绑定操作，方便您使用基于数据生成的模型创作可视化应用。本文介绍三种使组件进入BI分析...

准备数据

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。确认当前节点的配置无误后，单击左上...

数据开发概述

数据开发包括编码研发和规范建模。编码研发用于构建计算任务，例如创建SQL代码任务、Shell任务、Python任务、MR任务和Spark任务；规范建模用于构建逻辑化的数据模型。前提条件若需进行实时开发，需已购买实时研发增值服务。详情请参见 ...

PolarDB-X 1.0升级至PolarDB-X 2.0

SELECT default_character_set_name FROM information_schema.SCHEMATA WHERE schema_name='.' 如果目标数据库为AUTO模式，需在目标实例中创建DRDS模式数据库作为目标中继数据库，且目标中继数据库的字符集与源数据库的字符集保持一致，并...

2.0数据类型版本

本文为您介绍MaxCompute 2.0数据类型版本的定义、使用场景、支持的数据类型以及与其它数据类型版本的差异。定义项目空间选择数据类型版本为2.0数据类型版本时，项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps...

BigQuery数据源

BigQuery数据源为您提供读取BigQuery的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的BigQuery数据同步能力支持情况。支持的版本及地域 BigQuery使用的SDK版本是 google-cloud-bigquery 2.29.0，...

主流的大数据运算模式

新品推荐