大数据时-大数据时文档介绍内容-阿里云

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

线热力层（v2.x版本）

当地理边界geojson数据接口请求失败时地理边界geojson数据接口请求失败时（请求失败的情况可能是：网络问题或接口报错等）返回并经过过滤器处理后抛出的事件，同时抛出处理后的JSON格式的数据。具体数据示例请参见画布编辑器中组件右侧...

双11雷达图

当预设最大值大于数据的最大 value 值时，预设最大值越大，雷达区域占比越少。颜色雷达图的渐变颜色，单击右侧的或图标，添加或删除一个颜色区域。单击或图标配置多个颜色系列的排列样式。单击图标，即可复制当前选中颜色系列配置...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

概述

如果使用自建开源大数据生态体系，例如Hive、Spark等，需要专门的大数据工程师来操作和运维，且操作流程也不像使用MySQL一样简单，成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

创建数据脱敏场景

在数据分析通过 SQL查询功能查询数据时，查询的敏感数据会按照配置的脱敏规则进行脱敏。说明 EMR引擎暂不支持使用数据开发展示脱敏，Hologres引擎暂不支持使用数据开发/数据地图展示脱敏。数据分析展示脱敏在数据分析通过 SQL Notes ...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

透明数据加密概述

RDS PostgreSQL支持透明数据加密（Transparent Data Encryption，简称TDE），对数据文件进行实时加密和解密，保护用户数据...数据库启动时会从KMS获取KEK，从而解密DEK，解密后的DEK存放在内存中，用于写入数据或读取数据时进行加密或解密。

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

配置Hologres输出组件

加载策略向目标数据源（Hologres数据源）写入数据时，数据写入表中的策略。加载策略包括覆盖和忽略，适用场景说明如下：覆盖：写入的数据中有主键时新数据覆盖旧数据，无主键时追加数据。忽略：写入的数据中有主键时忽略新数据，无主键时...

资源组操作及网络连通

同步ECS自建的数据库的数据时，如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个地域（Region）下，进行数据同步时如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个阿里云账号下，进行数据同步时如何...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

概述

例如，企业使用第三方服务管理其商业数据时，需要应对商业秘密被服务商获取的潜在威胁；再如，个人识别数据（PII）、基因等隐私数据在被第三方管理过程中，要满足全程加密的合规要求。多源数据融合：该场景主要针对多源数据的联合分析，...

配置Hologres输出组件

加载策略向目标数据源（Hologres数据源）写入数据时，数据写入表中的策略。加载策略包括覆盖和忽略，适用场景说明如下：覆盖：写入的数据中有主键时新数据覆盖旧数据，无主键时追加数据。忽略：写入的数据中有主键时忽略新数据，无主键时...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

Catalog概述

使用External Catalog查询数据时，StarRocks会用到外部数据源的两个组件：元数据服务：用于将元数据暴露出来供StarRocks的FE进行查询规划。存储系统：用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成...

Catalog概述

使用External Catalog查询数据时，StarRocks会用到外部数据源的两个组件：元数据服务：用于将元数据暴露出来供StarRocks的FE进行查询规划。存储系统：用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成...

敏感数据保护

主要包括以下场景：敏感数据查询脱敏当使用即席分析、代码任务、数据预览等功能，查看被保护的敏感数据时，敏感数据会按照已经配置的脱敏策略进行脱敏展示，从而保证敏感数据不泄露。生产环境敏感数据写入开发环境脱敏当因为测试需要等...

敏感数据保护

主要包括以下场景：敏感数据查询脱敏当使用即席分析、代码任务、数据预览等功能，查看被保护的敏感数据时，敏感数据会按照已经配置的脱敏策略进行脱敏展示，从而保证敏感数据不泄露。生产环境敏感数据写入开发环境脱敏当因为测试需要等...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

Oracle同步至Tablestore

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

配置Hive输出组件

加载策略向目标数据源（Hive数据源）写入数据时，数据写入表中的策略。加载策略包括覆盖数据和追加数据，适用场景说明如下：覆盖数据：写入的数据中有主键时新数据覆盖旧数据，无主键时追加数据。追加数据：写入的数据中有主键时忽略新...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

LogHub（SLS）实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或单击手工构造数据按钮自定义输入数据，再单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点对输入数据处理异常，或产生脏数据时，也会反馈出异常信息，能够...

什么是数据资源平台

基于标签数据的群体分析、专家业务模型构建、全流程任务监控告警、数据服务化、数据资产管理等核心能力，提供标准化程度高、易用性强的一站式大数据管理平台。依托数据资源平台，可设计高质量的标准化数据模型，减少重复开发工作，用户可...

什么是数据管理DMS

AnalyticDB MySQL版：云原生数据仓库AnalyticDB MySQL版是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。AnalyticDB MySQL版支持高吞吐的数据实时增删改、低延时地实时分析复杂ETL（Extract Transform Load），兼容上下游生态...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

新建Doris数据源

在新建数据源对话框的 大数据存储区域，选择Doris。如果您最近使用过Doris，也可以在最近使用区域选择Doris。同时，您也可以在搜索框中，输入Doris的关键词，快速筛选。在新建Doris数据源对话框中，配置连接数据源参数。配置数据源的...

大数据时

新品推荐