大数据是指数据规模巨大-大数据是指数据规模巨大文档介绍内容-阿里云

发展历程

2017年 TPC的benchmark适配MaxCompute，进行了全球首次基于公共云的BigBench大数据基准测试，数据规模拓展到100 TB，成为首个突破7000分的引擎，性能达到7830 QPM。获得中国国际软件博览会金奖。中国电子学会科技进步特等奖（被业界誉为...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

支持的数据库类型与功能

云数据库RDS PostgreSQL版、云原生数据库PolarDB PostgreSQL版、云数据库专属集群MyBase PostgreSQL版、其他来源PostgreSQL MariaDB：云数据库RDS MariaDB版、其他来源MariaDB OceanBase：云数据库OceanBase MySQL模式、云数据库OceanBase ...

补数据任务概述

手动运行：是指手动触发补数据任务的运行，一般用于临时的数据补全或验证补数据效果。对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据，减少重复配置的繁琐性。更多信息，...

补数据任务概述

手动运行：是指手动触发补数据任务的运行，一般用于临时的数据补全或验证补数据效果。对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据，减少重复配置的繁琐性。更多信息，...

PyODPS概述

PyODPS提供了 to_pandas 接口，可以直接将MaxCompute数据转化成Pandas DataFrame数据结构，但这个接口只应该被用于获取小规模数据做本地开发调试使用，而不是用来大规模处理数据，因为使用这个接口会触发下载行为，将位于MaxCompute中的...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

什么是备份数据量

名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库磁盘空间数据库磁盘空间由数据库的数据文件...

Transaction Table2.0概述

现状分析当前典型的数据处理业务场景中，对于时效性要求低的大规模数据全量批处理的单一场景，直接使用MaxCompute足以很好的满足业务需求，对于时效性要求很高的秒级实时数据处理或者流处理，则需要使用实时系统或流系统来满足需求。...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

什么是云原生内存数据库Tair

云原生内存数据库Tair 是阿里云国产自研的云原生内存数据库。在完全兼容Redis的基础上，提供了丰富的数据模型和企业级能力来帮助客户构建实时在线场景。同时，Tair与新型存储介质——持久内存的高效结合，相比内存型，成本降低30%以上，并...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

产品优势

数据安全中心DSC（Data Security Center）可扫描和识别海量数据，帮您实时获取数据的安全状态。本文介绍数据安全中心的产品优势。合规性使用数据安全中心产品，可以帮助企业满足等保2.0对“云计算环境下安全审计”及“个人信息保护”的...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

项目启动成功后，PolarDB-X 1.0 数据库至 OceanBase 数据库 MySQL 租户的数据迁移项目会自动删除，数据传输会保存 PolarDB-X 1.0 数据库下挂载的数据库至 OceanBase 数据库 MySQL 租户的数据迁移项目，并自动创建相应的数据源。您可以在弹...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

概述

大屏是针对大屏幕的特殊数据展示画布，支持灵活自定义的样式配置。应用场景安全自助式数据分析基于DMS安全管控底座，确保可视化所用的数据均经过授权访问。一次配置即可实现可视组件高级过滤、高级控制、联动、钻取、分享等操作，帮助...

数据分析整体趋势

市场趋势 数据规模高速增长（全球2010-2025年复合增长达到27%，中国则大于30%）带来了强劲的数据分析需求。据Gartner统计，到2025年实时数据占比达30%，其中非结构数据占比达80%，同时数据存储云上规模达45%，而云上数据库规模可达75%。从...

DataWorks On CDP/CDH使用说明

数据质量概述三、数据分析帮助您实现在线SQL分析、业务洞察、编辑和分享数据；并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。详情请参见数据分析概述。四、数据治理 CDP/CDH集群注册完成后，DataWorks将自动...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

表设计最佳实践

因为天气信息的数据量巨大，在对天气日志表按照地域进行分区后，可以按照时间（例如，天）进行二级分区。此种分区方式可避免发生因某一个地点或某一个时间的天气变化而造成其他无关数据变化。建议采集终端上使用DataHub进行数据汇聚，然后...

DataWorks On Hologres使用说明

数据质量概述三、数据分析帮助您实现在线SQL分析、业务洞察、编辑和分享数据；并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。详情请参见数据分析概述。四、数据治理 Hologres数据源绑定完成后，DataWorks将自动...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

通过向导模式配置离线同步任务

数据集成提供向导式的开发引导，您无需编写任何代码，通过在界面勾选数据来源与去向，并结合DataWorks调度参数，实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置离线同步任务的常规配置，各...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

数据脱敏

数据安全中心（Data Security Center，简称DSC）支持静态脱敏和动态脱敏，可以脱敏数据库中的敏感数据。本文介绍如何使用静态脱敏和动态脱敏。脱敏方式静态脱敏：通过新增脱敏任务，使用脱敏算法对敏感数据进行遮盖、加密或替换，并将脱敏...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

大数据是指数据规模巨大

新品推荐