大数据主要技术指标-大数据主要技术指标文档介绍内容-阿里云

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

整体架构

技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批处理的混合负载。AnalyticDB MySQL 数仓版（3.0）主要用来处理高性能在线分析场景的数据。随着数据...

报警设置

当云原生内存数据库Tair 性能指标（CPU、内存使用率等）异常或实例触发高可用切换时，云监控平台会向您发送警告信息。背景信息云监控（CloudMonitor）是针对阿里云资源和互联网应用提供监控的服务，为您提供开箱即用的企业级开放型一站式...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

数据集成支持的数据源

实时集成适用于将来源端数据源中整库或全部表的数据变化实时集成至目标端数据源中，实现来源端数据源与目标端数据源实时地保持数据同步。离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持 ...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

管理报警

ResourceManager yarn_resourcemanager_jvm_MemHeapUsedM/yarn_resourcemanager_jvm_MemHeapMaxM 每分钟检查一次指标数据是否满足平均值>95%，持续2个周期，或者没有指标产生，满足条件则触发告警。NodeManager yarn_cluster_...

概述

数据内容安全管理安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能，在处理业务流程的过程中，能够快速及时识别存在安全隐患的数据，保障了数据内容的安全可靠，详情请参见数据保护伞。安全诊断的最佳实践 ...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

导出指标

通过导出指标功能，搭配导入功能，您可以快速实现工作组间的指标数据迁移。本文介绍如何导出指标。前提条件已完成指标导入或新建，具体操作，请参见新建指标或者导入指标。操作步骤登录数据资源平台控制台。在页面左上角，单击图标...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

功能特性

管理运维事件 Serverless Serverless实例管理支持对Serverless实例进行暂停实例、查看指标数据、修改DU上下限等操作。管理Serverless实例专属集群 DU管理支持查看专属集群DU的创建和使用信息，修改专属集群任务的DU数以调整该任务的规格...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

导出指标

通过导出指标功能，搭配导入功能，您可以快速实现工作组间的指标数据迁移。本文介绍如何导出指标。前提条件已完成指标导入或新建，具体操作，请参见新建指标或者导入指标。操作步骤登录企业数据智能平台。在页面左上角，单击图标，...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

产品架构

当前信息化技术发展面临的一个主要矛盾是"日益多样的业务需求带来的多种类型数据与数据存储技术架构日趋复杂成本快速上升之间的矛盾。伴随5G、IoT、智能网联车等新一代信息技术的逐步普及应用，这个矛盾会越来越突出。为了解决这个问题，...

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

DescribeDataSharePerformance-查看数据共享的性能指标

查看数据共享的性能指标。接口说明目前仅 Serverless 实例支持数据共享功能。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

功能简介

指标管理：支持指标类型数据元的定义和管理，可通过选择指标属性的方式，快速新建指标数据元，供逻辑表设计时进行使用。指标属性管理：支持指标定义的相关属性管理，包含时间修饰、业务修饰、度量属性，帮助快速新建指标数据元。数据字典...

配置指标资产目录

指为指标资产指定所属目录，为后续的资产公开做准备，一个资产可同时在多个目录中展示。本文介绍如何给指标资产进行编目。前提条件已在数据标准模块中设计模型标准。已创建资产目录，具体操作，请参见资产分类管理。背景信息将数据标准...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

功能简介

指标管理：支持指标类型数据元的定义和管理，可通过选择指标属性的方式，快速新建指标数据元，供逻辑表设计时进行使用。指标属性管理：支持指标定义的相关属性管理，包含时间修饰、业务修饰、度量属性，帮助快速新建指标数据元。数据字典...

配置指标资产目录

指为指标资产指定所属目录，为后续的资产公开做准备，一个资产可同时在多个目录中展示。本文介绍如何给指标资产进行编目。前提条件已在数据标准模块中设计模型标准。已创建资产目录，具体操作，请参见资产分类管理。背景信息将数据标准...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

OpenAPI列表

QueryHomoAtomicIndexById 获取同源原子指标数据信息，同源指来源于同一个逻辑表的原子指标，一个原子指标可配置三个不同时效的计算逻辑，因此可来源于三个不同时效的逻辑表。逻辑表 GetLogicalModelSubTree 获取逻辑表对象的导航树结构。...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

大数据主要技术指标

新品推荐