大数据理论基础-大数据理论基础文档介绍内容-阿里云

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询 大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版（兼容Oracle）背景信息功能测试或者性能测试时，往往需要准备测试数据，通常有以下几种方法：手工编写：效率低，不适用于大数据量场景。维护生成测试数据脚本：成...

配置OpenGauss输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。copy 用于表与文件之间的相互复制。并且在遇到冲突时会根据冲突解决策略进行冲突时报错或冲突时覆盖。输入字段根据上游的输入组件的输出字段，为您展示输入字段...

配置OpenGauss输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。copy 用于表与文件之间的相互复制。并且在遇到冲突时会根据冲突解决策略进行冲突时报错或冲突时覆盖。输入字段根据上游的输入组件的输出字段，为您展示输入字段...

配置TiDB输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。解析方案非必填项，可选择输出数据前后的语句准备。是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

配置TiDB输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。解析方案非必填项，可选择输出数据前后的语句准备。是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

新建ArgoDB数据源

在新建数据源对话框的 大数据存储区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

概述

将数据模型设计管控、引标落标等能力融入DataWorks规范化开发流程，助力用户实现数据资产价值化输出，在数据全生命周期上夯实数据基础，为客户的数据价值化提供有力支撑。使用流程使用阿里云DataWorks的数据建模（DATABLAU）时，您需要：...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

创建TDH Inceptor数据源

在新建数据源对话框的 大数据存储区域，选择 TDH Inceptor。如果您最近使用过TDH Inceptor，也可以在最近使用区域选择TDH Inceptor。同时，您也可以在搜索框中，输入TDH Inceptor的关键词，快速筛选。在新建TDH Inceptor数据源 ...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

配置MaxCompute输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。（可选参数）分区如果选择了分区表，则需要选择数据表的分区。默认的分区为 ds=${bizdate}。输入字段根据上游组件的输出，为您展示输入字段。输出字段输出字段区域...

配置MaxCompute输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。（可选参数）分区如果选择了分区表，则需要选择数据表的分区。默认的分区为 ds=${bizdate}。输入字段根据上游组件的输出，为您展示输入字段。输出字段输出字段区域...

配置AnalyticDB for MySQL 3.0输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。解析方案非必填项。数据输出前和输出完成的特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表Target_A，执行写入到目标表Target_A，当前...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

数据治理

参数 reg_mobile_phone user_regip 敏感字段类型 retail_e_commerce_2_手机 retail_e_commerce_2_ip 所属分类 基础数据 基础数据 所属分级敏感敏感描述信息-识别规则命中条件满足以下任一条件即命中规则满足以下任一条件即命中规则 ...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

大数据 理论基础

新品推荐

大数据理论基础