大数据科学的理论基础-大数据科学的理论基础文档介绍内容-阿里云

配置AnalyticDB for MySQL 3.0输出组件

同步其他数据源的数据至AnalyticDB for MySQL 3.0数据源的场景中，完成源数据源的信息配置后，需要配置AnalyticDB for MySQL 3.0输出组件的目标数据源。本文为您介绍如何配置AnalyticDB for MySQL 3.0输出组件。前提条件已创建AnalyticDB ...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

配置MySQL输出组件

加载策略包括：追加数据（insert into)：即在目标表的已有的数据基础上追加数据，且不修改历史数据；当主键/约束冲突时，会提示脏数据错误。主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入...

新建ArgoDB数据源

通过创新建ArgoDB数据源能够实现Dataphin读取ArgoDB的业务数据或向ArgoDB写入数据。本文为您介绍如何新建ArgoDB数据源。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin...

配置MaxCompute输出组件

同步其他数据源的数据至MaxCompute数据源的场景中，完成源数据源的信息配置后，需要配置MaxCompute输出组件写入数据到目标数据源。本文为您介绍如何配置MaxCompute输出组件。操作步骤请参见离线管道组件开发入口，进入离线单条管道脚本的...

配置MaxCompute输出组件

同步其他数据源的数据至MaxCompute数据源的场景中，完成源数据源的信息配置后，需要配置MaxCompute输出组件写入数据到目标数据源。本文为您介绍如何配置MaxCompute输出组件。操作步骤请参见离线管道组件开发入口，进入离线单条管道脚本的...

创建TDH Inceptor数据源

通过创建TDH Inceptor数据源能够实现Dataphin读取TDH Inceptor的业务数据或向TDH Inceptor写入数据。本文为您介绍如何创建TDH Inceptor数据源。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

识别任务说明

扫描速度不同类型数据库的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为1000列/分钟。...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

数据模型架构规范

它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM：Common Data Model，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

准备数据

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。确认当前节点的配置无误后，单击左上...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

DataWorks V3.0

发布版本：DataWorks V3.0 发布时间：2019年12月18日发布范围：全球所有已开通DataWorks的地域发布内容：DataWorks V2.0仅支持MaxCompute计算引擎，DataWorks V3.0全新升级了多引擎架构，在MaxCompute的基础上，新增开源大数据引擎E-...

01新建模型目录

对话框，输入目录的名称和标识，操作完成后，单击确认，按照下面表格中数据依次新建一级、二级目录，目录配置如下：一级目录一级目录code 目录描述二级目录二级目录code STG stg 客户数据源数据层-ODS ods 原始数据层 基础数据 ...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

购买指引-全托管

基础研发版（离线&实时）：支持离线研发和实时研发场景，可创建生产、开发隔离的双环境项目，适用于数据量较丰富、权限管控较严、有一定大数据开发能力的企业用户。敏捷研发版（离线）：支持离线研发场景，可创建生产开发一体化的基础项目...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

计费逻辑说明

资源费用明细：数据服务API调用数据质量数据质量可对任务产出的表数据进行数据质量监控，DataWorks将根据数据质量规则实例数量计费。资源费用明细：数据质量 OpenAPI DataWorks提供OpenAPI，您可基于OpenAPI实现业务定制化开发，...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录数据资源平台控制台。在页面左上角，单击 ...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录企业数据智能平台。在页面左上角，单击图标...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

功能更新动态（2023年）

创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成新增Apache Doris数据源的离线集成。整库迁移任务支持...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

导入数据建模基础信息

通过导入数据建模基础信息，可以为逻辑表批量快速添加新属性。本文介绍如何批量导入数据建模基础信息。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。...

导入数据建模基础信息

通过导入数据建模基础信息，可以为逻辑表批量快速添加新属性。本文介绍如何批量导入数据建模基础信息。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

数据源资产详情

本文为您介绍如何查看数据源的资产详情。数据源详情请参见搜索数据，进入目标数据源的详情页面。编号描述 ① 概要信息为您展示数据源的名称、描述。...③ 资产信息为您展示数据源的基础信息、使用信息和变更信息。

数据源资产详情

本文为您介绍如何查看数据源的资产详情。数据源详情请参见搜索数据，进入目标数据源的详情页面。编号描述 ① 概要信息为您展示数据源的名称、描述。...③ 资产信息为您展示数据源的基础信息、使用信息和变更信息。

大数据科学的理论基础

新品推荐