大数据怎么做-大数据怎么做文档介绍内容-阿里云

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎...

什么是MaxCompute

MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

什么是数据资源平台

基于标签数据的群体分析、专家业务模型构建、全流程任务监控告警、数据服务化、数据资产管理等核心能力，提供标准化程度高、易用性强的一站式大数据管理平台。依托数据资源平台，可设计高质量的标准化数据模型，减少重复开发工作，用户可...

什么是数据管理DMS

AnalyticDB MySQL版：云原生数据仓库AnalyticDB MySQL版是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。AnalyticDB MySQL版支持高吞吐的数据实时增删改、低延时地实时分析复杂ETL（Extract Transform Load），兼容上下游生态...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

新建Doris数据源

在新建数据源对话框的 大数据存储区域，选择Doris。如果您最近使用过Doris，也可以在最近使用区域选择Doris。同时，您也可以在搜索框中，输入Doris的关键词，快速筛选。在新建Doris数据源对话框中，配置连接数据源参数。配置数据源的...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

新建Doris数据源

在新建数据源对话框的 大数据存储区域，选择Doris。如果您最近使用过Doris，也可以在最近使用区域选择Doris。同时，您也可以在搜索框中，输入Doris的关键词，快速筛选。在新建Doris数据源对话框中，配置连接数据源参数。配置数据源的...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

版本发布记录

接入DataWorks任务调度接入DataWorks任务调度，使得用户能够可视化轻松定制数据湖分析的数据处理流程，实现云上大数据WorkFlow。接入函数计算接入函数计算，使得用户能够基于这两款Serverless化云产品，构建云原生Serverless工作流。接入...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询 大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

配置MaxCompute输出

大数据计算服务MaxCompute（原名ODPS）为您提供完善的数据导入方案，能够快速解决海量数据的计算问题。前提条件配置MaxCompute输出节点前，您需要先配置好相应的输入或转换数据源，详情请参见实时同步能力说明。背景信息写入数据不支持...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版（兼容Oracle）背景信息功能测试或者性能测试时，往往需要准备测试数据，通常有以下几种方法：手工编写：效率低，不适用于大数据量场景。维护生成测试数据脚本：成...

开发管控：管理者

启用该功能后，当在DataWorks中运行代码后返回的数据命中了脱敏规则，DataWorks会对显示的数据做脱敏处理。说明 DataWorks内置了数据脱敏规则，您也可以通过数据保护伞自定义脱敏规则。仅空间管理员或安全管理员角色的用户，以及拥有 ...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

创建Kudu数据源

在新建数据源对话框的 大数据存储区域，选择 Kudu。如果您最近使用过Kudu，也可以在最近使用区域选择Kudu。同时，您也可以在搜索框中，输入Kudu的关键词，快速筛选。在新建Kudu数据源对话框中，配置连接数据源参数。配置数据源的...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

数据质量概述

功能介绍数据质量支持对常见大数据存储（MaxCompute、E-MapReduce Hive、Hologres等）进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度，配置质量监控规则。并可以将质量监控规则与调度节点进行关联，当任务...

新建ArgoDB数据源

在新建数据源对话框的 大数据存储区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

大数据怎么做

新品推荐