大数据系统软件-大数据系统软件文档介绍内容-阿里云

应用场景

1.2 收益系统解耦对外，大数据系统与业务系统解耦，对内，大数据系统各组件之间解耦。实时通道通过数据总线，业务数据能够实时汇入大数据系统，缩短数据分析周期。2.实时数据清洗和分析 2.1 接入多种异构数据，实时清洗并归一化通过...

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

产品简介

大数据搬站迁云方案咨询为客户提供原大数据系统上云迁移方案咨询服务，包括云上大数据搬站架构规划、设计迁云方案服务。大数据专家高阶培训提供针对大数据建设、管理、治理相关的高阶能力培训，涵盖离线/实时数仓体系建设管理、数仓建模...

IoT数据自动化同步至云端解决方案

下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行读取，详情请参见 OSS Reader。选择数据去向进行写入，本文以 MaxCompute...

功能概览

1.4 生态融合系出飞天，与阿里云大数据系统深度整合，无缝对接MaxCompute、实时计算、交互式分析等产品，打通整个大数据体系。2.产品功能 2.1 数据接入提供多种SDK、API和Flume、Logstash等第三方插件，让您高效便捷的把数据接入到数据...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

Napatech案例

云原生多模数据库 Lindorm 助力Napatech大幅提升存储、索引性能。生态合作伙伴介绍 Napatech公司（OSE：NAPA.OL）是一家提供FPGA解决方案的丹麦公司，成立于2003年。公司总部位于丹麦，销售和支持的...集成第三方大数据系统，助力业务分析。

生态集成

云原生数据仓库AnalyticDB PostgreSQL版具备完善和开放的生态系统，支持无缝对接业界以及阿里云生态的数据管理工具，BI报表可视化工具，ETL工具，数据迁移工具，同时可以与业界流行的流式处理系统，日志类系统，大数据类系统，传统数仓及...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

简介

当历史数据量较大时，可通过冷数据自动转储功能，将数据存放到OSS中，减少70%以上的成本。百亿量级的轨迹查询（比如查询某段时间、某空间范围内经过的轨迹）只需亚秒级。与spark平台无缝衔接，可以提供类似轨迹相似度、OD分析等强大功能。...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测，故障发现以及业务趋势分析。...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

保险行业解决方案与案例

技术方案为保障多个业务系统实现平滑迁移，有效控制实施风险，该保险公司数据中心、研发中心与阿里云 PolarDB PostgreSQL版（兼容Oracle）团队共同制定了详实的迁移规划，针对核心系统制定了“主备库”的方案，利用DTS迁移工具实现数据...

基本概念

冷热分离 Lindorm宽表引擎实现了数据的冷热分离能力，系统会自动根据用户设置的冷热分界线自动将表中的冷、热数据分类归档到冷、热存储中。更多信息，请参见冷热分离介绍。LTS LTS（Lindorm Tunnel Service）是面向Lindorm业务场景特点...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

Kafka单表实时入湖OSS（HUDI）

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

LogHub（SLS）实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或单击手工构造数据按钮自定义输入数据，再单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点对输入数据处理异常，或产生脏数据时，也会反馈出异常信息，能够...

Kafka实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

点热力层（v3.x版本）

如果系统反应延迟，您可以单击右侧的图标，查看数据响应结果，也可以单击右侧的图标，获取组件的最新数据。您也可以单击查看示例，查看当前组件的响应结果示例。禁止加载态勾选复选框，在组件更新和预览数据看板时，将看不到组件初始化...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

DB2数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据同步系统和服务器端的网络交互次数，能够较大的提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1024 Writer脚本...

Oracle数据源

Oracle数据源为您提供读取和写入Oracle双向通道的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的Oracle数据同步能力支持情况。支持的版本离线读写版本离线读（Oracle Reader）离线写（Oracle ...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

文档修订记录

2023年5月更新记录时间特性类别描述产品文档 2023.5.22 新增功能管理控制当在DataWorks控制台进行引擎相关操作时（如新增引擎实例、编辑已有引擎），界面会提示您需先完成授权相关操作，您根据界面提示完成授权操作后，系统会自动为...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

质量评估

质量评估通过用户自定义质量检查计划，根据用户设置的数据质量规则执行面向不同计算资源的质量检查任务，通过数据质量监控报告展现系统整体数据质量概览及多维度细分数据的质量情况。质量评估通过完整性、准确性、一致性、唯一性、时效性、...

应用场景

数据标准：管理数据标准和构建数据模型，将数据标准贯彻到数据质量分析、保障及检查的全过程中，将散乱的多源异构数据加工成标准、干净的数据资产，确保数据的完整性、一致性、准确性和可用性。数据建模：通过数据建模模块提供的各种数据...

功能简介

质量评估报告支持根据系统数据质量监测运行结果以天的维度自动生成系统整体质量监控报告。支持根据数据唯一性、准确性、规范性、一致性、时效性和完整性进行多维度评估分析。物理表监控明细支持以物理表为维度，查看物理表在数据开发-...

功能简介

质量评估报告支持根据系统数据质量监测运行结果以天的维度自动生成系统整体质量监控报告。支持根据数据唯一性、准确性、规范性、一致性、时效性和完整性进行多维度评估分析。物理表监控明细支持以物理表为维度，查看物理表在数据开发-...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

大数据系统软件

新品推荐