大数据信息系统-大数据信息系统文档介绍内容-阿里云

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

生态集成

云原生数据仓库AnalyticDB PostgreSQL版具备完善和开放的生态系统，支持无缝对接业界以及阿里云生态的数据管理工具，BI报表可视化工具，ETL工具，数据迁移工具，同时可以与业界流行的流式处理系统，日志类系统，大数据类系统，传统数仓及...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

数据服务

背景信息数据服务提供了数据中台建设过程中的数据服务化能力，面向数据开发者提供覆盖各个加工阶段统一体验的、便捷的数据查询转服务、服务管理、服务运维能力；面向数据资产管理者提供服务的统计分析、服务用量统计分析，实现数据中台...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

概览

数据库审计系统的概览页面分为三部分，页面最上方展示存储空间以及近两周的数据总量，中间部分为态势分析，最下方为资产信息。概览信息数据库审计系统的概览页面向您展示以下信息：存储空间：审计日志、会话日志、模板日志、保护资产...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

数据脱敏

背景信息数据库审计系统提供10条内置的数据脱敏规则，并默认启用所有内置规则。您执行审计日志查询操作时，在展示查询结果前，数据库审计系统会自动匹配已开启的所有数据脱敏规则，匹配命中的数据以*（星号）掩码展示。新增、启用、禁用、...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

点热力层（v3.x版本）

数据项配置说明数据源组件的数据源中通过代码编辑或可视化编辑展示了组件所包含的数据字段。也可以修改数据类型，灵活配置组件数据。数据映射当您需要自定义图表字段配置时，可以在数据映射模块设置不同的字段映射内容，将这些...

什么是DataWorks

从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手，不断提升数据应用效率，助力产业数字化升级。产品架构 DataWorks十多年...

互联网、电商行业离线大数据分析

DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商网站数据看板。全国、全球业务的态势分析。互联网、金融行业的风险数据监控。方案介绍实现互联网、电商行业离线大数据分析的...

TPC-H

大吞吐并发读写：30 TB数据集下至少10并发查询流（Query Stream），同时启动数据更新流（Refresh Stream）进行多轮大批量数据增删操作，挑战系统并发能力及ACID能力。分布式事务验证：全面测试数据库系统事务能力，涵盖Atomic、Consistency...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

发展历程

深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的委员会委员，是中国担任此国际性能标准化测试组织委员的唯一企业。...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，...创建并保存完成后的数据集会自动排列显示在数据集管理页面中，每一个保存的数据集后面都会自动显示数据集内的数据信息数量。

API概览

GetDbfs 查询单个数据库文件系统调用GetDbfs查询数据库文件系统详细信息。ListDbfsAttachableEcsInstances 查询可挂载的ECS实例调用ListDbfsAttachableEcsInstances查询数据库文件系统可挂载的ECS实例列表。ListDbfsAttachedEcsInstances...

概述

业务挑战大部分阿里云用户会将阿里云关系型数据库RDS、PolarDB for MySQL、MongoDB或者云服务器ECS自建数据库作为业务系统数据库，随着业务数据的增长，业务数据库存储的数据也越来越多。但RDS、PolarDB for MySQL、MongoDB或者ECS自建...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

地图数据格式

GCJ-02是由中国国家测绘局（G表示国家Guojia，C表示测绘Cehui，J表示局Ju）制订的地理信息系统的坐标系统。它是一种对经纬度数据的加密算法，即加入随机的偏差。中国大陆出版的各种地图系统（包括电子形式），必须至少采用GCJ-02对地理位置...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

查看数据集

在数据预览页签，查看数据集的表数据信息。单击列名称后的图标，可对数据集列值进行排序或者筛选。在元数据页签，查看数据集表字段信息。当需要查看最新的数据时，在临时查询SQL编辑框菜单栏，输入查询脚本，单击图标，查看当前的表...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

地图数据格式

GCJ-02是由中国国家测绘局（G表示国家Guojia，C表示测绘Cehui，J表示局Ju）制订的地理信息系统的坐标系统。它是一种对经纬度数据的加密算法，即加入随机的偏差。中国内地出版的各种地图系统（包括电子形式），必须至少采用GCJ-02对地理位置...

IoT数据自动化同步至云端解决方案

物联网、大数据和云计算作为当前第三次信息化浪潮的代表技术，将在未来形成广泛的影响。物联网专注于物物相连，大数据专注于数据的价值化，云计算则为大数据和物联网提供计算资源等服务支持。大数据是物联网体系的重要组成部分。物联网的...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

应用场景

背景 HBase的设计之初是为了满足互联网的大数据场景，几乎所有非强事务的结构化、半结构化的存储需求都可以使用HBase来满足。ApsaraDB for HBase是NoSQL（Not only SQL），也支持SQL及二级索引。大数据场景云数据库HBase支持海量全量数据...

工作组成员管理

数据变更：可访问工作组内云计算资源的元数据信息和数据信息，同时可对表内容进行变更。添加完成后，单击确定。编辑成员角色登录数据资源平台控制台。在页面右上角，单击图标，选择系统设置。在左侧导航栏，单击工作组管理。在工作...

数据集成支持的数据源

不同集成类型适用场景集成类型适用场景离线集成适用于数据上云、云上数据迁移到本地业务系统等场景。例如，将本地数据库MySQL的数据迁移至阿里云数据库RDS中。整库迁移适用于将本地数据中心或在ECS上自建的数据库，同步数据至离线数仓...

工作组成员管理

数据变更：可访问工作组内云计算资源的元数据信息和数据信息，同时可对表内容进行变更。添加完成后，单击确定。编辑成员角色登录企业数据智能平台。在页面右上角，单击图标，选择系统设置。在左侧导航栏，单击工作组管理。在工作组...

大数据 信息系统

新品推荐

大数据信息系统