如何发展好大数据?-如何发展好大数据?文档介绍内容-阿里云

DataWorks On EMR使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

版本发布记录

深度集成的生态接入融合分析和数据回流能力目前支持如下数据源的接入融合分析和数据回流能力，包括对象存储OSS上7种以上结构化、半结构化、以及多种压缩格式的数据文件，表格存储，AnalyticDB，云数据库版或自建数据库（MySQL、...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询 大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版（兼容Oracle）背景信息功能测试或者性能测试时，往往需要准备测试数据，通常有以下几种方法：手工编写：效率低，不适用于大数据量场景。维护生成测试数据脚本：成...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

新建数据源

数据同步前，需要准备好数据源作为数据源端或目标端。您可以通过新建数据源，供数据同步时使用。本文介绍如何新建数据源。背景信息数据同步支持关系型数据库、文件、消息队列等类型数据源的配置。操作步骤登录数据资源平台控制台。在...

新建数据源

数据同步前，需要准备好数据源作为数据源端或目标端。您可以通过新建数据源，供数据同步时使用。本文介绍如何新建数据源。背景信息数据同步支持关系型数据库、文件、消息队列等类型数据源的配置。操作步骤登录企业数据智能平台。在页面...

新建ArgoDB数据源

在新建数据源对话框的 大数据存储区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

新建 ADB 数据源

配置好数据源是创建数据迁移或数据同步项目的前提。本文为您介绍如何在数据传输中新建云原生数据仓库 AnalyticDB MySQL 版（简称 ADB）数据源。背景信息 ADB 的基本介绍请参见基础数据类型。ADB 的建表、分区表和分布表的详情请参见 ...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

创建TDH Inceptor数据源

在新建数据源对话框的 大数据存储区域，选择 TDH Inceptor。如果您最近使用过TDH Inceptor，也可以在最近使用区域选择TDH Inceptor。同时，您也可以在搜索框中，输入TDH Inceptor的关键词，快速筛选。在新建TDH Inceptor数据源 ...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

新建Paimon数据源

在新建数据源对话框的 大数据存储区域，选择 Paimon。如果您最近使用过Paimon，也可以在最近使用区域选择Paimon。同时，您也可以在搜索框中，输入Paimon的关键词，快速筛选。在新建Paimon数据源对话框中，配置数据源的基本信息。...

导入数据字典

为了创建完整的字段标准，需要先完善数据字典的管理，创建好数据字典后，可以用来规范数据标准字段的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量。通过导入数据字典可以实现批量创建数据字典。本文介绍...

导入数据字典

为了创建完整的字段标准，需要先完善数据字典的管理，创建好数据字典后，可以用来规范数据标准字段的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量。通过导入数据字典可以实现批量创建数据字典。本文介绍...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

如何发展好大数据?

新品推荐