阿里云大数据平台-阿里云大数据平台文档介绍内容-阿里云

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

数据分析：即时快速分析

功能概述数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景适合更多非专业数据开发人员，如数据分析、产品、运营等工作...

需求阶段

说明如果企业具备需求相关管理平台，建议通过平台+数据库形式规范化存储不断迭代的每个需求版本。评审需求变更原则上需求评审需由数据产品经理发起评审会议来完成，但如果需求迭代内容不多，评审方式可视情况而定选择邮件或现场会议方式...

确认表血缘

确认表血缘同空间下确认上游表血缘节点周期写入某张表某个分区的数据，大部分场景都是采用调度参数来动态实现，您可参考调度参数，了解调度参数的替换原理。若您需要依赖同工作空间某节点，则可检查其调度参数的配置情况。开发环境确认...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

数据安全治理的常见思路

数据量有多大？数据类型有哪些？数据负责部门、负责人是谁？进行数据分级分类，产出《数据分级分类清单》。例如：根据企业的服务场景，确认业务分类。根据业务重要性，确认数据敏感级别。阶段二：评估风险分别进行如下三项评估：合规风险...

平台安全诊断

DataWorks的平台安全诊断，为您提供了当前DataWorks工作空间与绑定的引擎在数据传输、存储、运算等过程中，与身份认证、访问权限控制、开发模式等功能相关的安全能力，以及诊断相关安全问题的最佳实践，帮助您及时发现平台的安全隐患，在...

功能发布记录（2024年）

您在数据开发和数据分析中执行SQL语句查询数据时，若该数据被识别为敏感数据，平台将会按照脱敏规则进行遮盖、加密等模式的脱敏展示，加强企业数据安全管控。2024.1.25 所有地域所有DataWorks用户数据脱敏能力概述数据保护伞概述数据...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

概述

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

流程管控

任务运行前校验示例任务提交前校验示例任务发布前校验示例您可以通过DataWorks的开放平台、数据治理等功能模块，实现在关键节点对数据开发流程的管控校验。涉及的功能模块运行前校验提交前校验发布前校验流程管控能力引导介绍数据...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

概述

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

开放平台：能力全面开放

DataWorks开放平台是DataWorks对外提供数据和能力的开放通道。DataWorks开放平台提供开放API（OpenAPI）、开放事件（OpenEvent）、扩展程序（Extensions）的能力，可以帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

概述

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

数据集成概述

数据集成是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。使用限制数据同步：支持且仅支持结构化（例如RDS、DRDS等）、半结构化、无结构化（OSS、TXT等，要求具体同步...

数据服务：低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台，旨在为企业提供全面的数据共享能力，帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述作为数据仓库与上层应用系统间的...

层次调用规范

在完成数据仓库的分层后，您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...

配置敏感数据分类分级

数据分类分级支持您按照数据的价值、内容敏感程度、影响和分发范围对数据进行敏感级别和类型的划分，不同敏感级别的数据其管控原则和数据开发要求存在差异，划分分类分级后，后续可通过分类分级管控不同程度的敏感数据。本文为您介绍如何...

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路，针对资产梳理、技术体系建设和运营体系建设，提供了一系列数据安全产品能力，您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

整库迁移与批量上云

DataWorks支持您在数据集成主站新建整库离线同步方案，快速将来源数据源内所有表上传至目标数据源，帮助您节省大量初始化数据上云的批量任务创建时间。支持的数据源当前DataWorks支持各类数据源的数据整库迁移至MaxCompute、OSS、...

电商网站智能推荐

电商网站智能推荐基于阿里巴巴的大数据和人工智能技术，结合在电商行业的多年积累，为开发者提供个性化推荐服务，提升商品的购买率和转化率。概述本实践以电商网站为例，通过日志服务采集日志，将RDS作为后端数据服务、MaxCompute作为数据...

数据标准

添加数据标准添加数据标准的方式有两种，第一种是手动在平台中单个添加标准，第二种是通过Excel的形式批量将数据标准维护到平台中去。进入【数据标准】模块，点击‘“创建数据标准”按钮即可进入数据标准添加页面。根据选项填写数据标准的...

数仓性能优化

此外，您还可以利用下列技巧完成表的优化：中间表的利用：适用于数据量非常大，下游任务很多的表。拆表：适用于个别字段产出极慢的情况，您可以将字段拆分为单独的表。合表：随着数仓的发展，针对业务重叠或重复的表，您可以进行任务和数据...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据建模

本文将为您介绍如何载入DataWorks中处理好的数据到人工智能平台PAI中，构建窃漏电用户的识别模型。前提条件开始本文的操作前，请首先完成加工数据中的操作。新建实验新建空白工作流并进入工作流，具体操作，请参见新建自定义工作流。...

智能数据建模计费标准

智能数据建模使用包年包月计费模式，根据您在智能数据建模产品内创建的对象数量进行计费。您可根据实际需求，选购智能数据建模产品的不同规格。同时，智能数据建模为您提供了单独计费的行业模型模版，您可购买该模版快速构建属于您的数据...

数据集市

例如，运营平台数据集市。创建数据集市进入数据集市。登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据建模，在下拉框中选择对应工作空间后单击进入数据建模。在数据建模页面的顶部菜单栏，单击数仓规划，默认进入数仓...

数据建模：智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品，沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践，包含数仓规划、数据标准、维度建模及数据指标四大模块，帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的...

配置DataHub输出

DataHub是流式数据（Streaming Data）的处理平台，为您提供发布、订阅和分发流式数据的功能，让您可以轻松构建基于流式数据的分析和应用。前提条件配置DataHub输出节点前，您需要先配置好相应的输入或转换数据源，实时同步支持的数据源。...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

数据开发与运维中心：数据加工

DataWorks的数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

导入

DataWorks智能数据建模的导入工具，为您提供了数据模型、数据标准等多种类型的对象模板，您可基于不同模板批量创建相应对象。该功能无需多次重复执行创建操作，即可快速生成多个对象，节省大量时间成本。本文为您介绍如何通过批量导入功能...

查看计量大屏

数据服务提供了计量大屏功能，您可以通过该功能查看各类可视化图表和统计数据，包括工作空间下的API总数、总调用次数以及总执行时长用量等信息，帮助您全面了解API的调用情况。同时，您也可以针对单个API查看监控图表，获取API网关状态码、...

阿里云大数据平台

新品推荐