大数据功能-大数据功能文档介绍内容-阿里云

向量计算（Proxima CE）概述

功能说明支持的数据类型与检索方式：支持多种数据类型，主要包括 INT8/FLOAT/BINARY。说明支持使用INT32表示BINARY数据，详情请参考可选参数中的 binary_to_int 参数。支持多种检索方式，主要包括 HNSW/SSG/HC/GC/QC/Linear，默认使用 ...

2024年

2024-03 功能名称功能描述发布时间发布地域相关文档镜像管理功能发布 MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL ...

OpenEvent概述

DataWorks当前支持订阅的事件覆盖了运维中心、DataStudio和数据治理三个功能模块中的事件，详情如下表所示。应用范围所属模块事件细分事件描述与类型事件示例空间级运维中心实例操作事件描述：在运维中心对实例进行冻结、解冻等...

2022年

2022-07-14 全部地域聚合函数 2022-6 功能名称功能描述发布时间发布地域相关文档支持在DataWorks公共表中查看外部数据源的元数据信息支持在DataWorks公共表中查看外部数据源的元数据信息，使基于湖仓的数据开发人员方便查看外部数据...

DataWorks版本到期降级后功能变化清单

本地调试（预览实时数据）功能停用。高级运维-任务智能诊断高级API 功能停用、请求接口报错。数据服务数据类型功能停用、已有接口调用报错。过滤器功能停用、过滤器失效、调用报错。Lambda 功能停用、Lambda可查看但不可编辑和调用。...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

2020年

结合数据分析的丰富的Web-Excel分析功能，数据分析师可以通过MaxCompute数据分析一站式快速进行数据查询、结果二次分析、分享。MaxCompute查询加速功能主要支持按量计费资源，若项目使用包年包月资源，暂时无法满足查询加速要求。2020-12-...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台，在各项能力支持上预设了很多拓展点，例如，在标准模式下，简略来看，节点创建后完成代码开发后，需先提交到开发环境中进行验证，完成后再正式发布到生产环境中，后续每天根据调度...

计费逻辑说明

产品类型功能介绍计费项计费说明计费标准参考智能数据建模智能数据建模是DataWorks自研的建模产品，支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义，帮助您将建模设计产出的维度表、明细表、应用表、汇总表物化...

开源支持

本文将为您介绍MaxCompute相关的开源功能。SDK MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK，您可以通过编辑代码灵活地操作MaxCompute。MaxCompute提供的SDK如下：Java SDK Java SDK使用说明...

跨地域灾备

当您需要保证MaxCompute作业持续运行时，MaxCompute提供跨地域（Region）灾备功能，支持以项目（Project）为单位远程备份数据和元数据，确保备份地点与数据源的地理距离超过一百公里，以提升数据安全性。您能够自定义选择备份目标地域，并...

数据建模：智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品，沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践，包含数仓规划、数据标准、维度建模及数据指标四大模块，帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的...

成本分析

背景信息成本分析功能使用流程如下图所示：数据搜索：选择账期和账单实例（可选）进行数据搜索。进行成本分析，包含以下三个维度：费用分析：您可以在指定账期内按实例或计费项分析查看总费用以及各实例或计费项的费用占比、查看各实例或...

MaxCompute表的高级功能

生命周期 MaxCompute为表和分区提供数据生命周期管理功能。表（分区）数据从最后一次更新时间算起，在指定的时间段（即生命周期）内如果没有变动，则此表（分区）将被MaxCompute自动回收。生命周期只能以表为单位进行设置。创建表test_...

DataWorks各版本详解

专业版基于DataWorks标准版，增加更专业的数据安全功能，同时增强数据治理、数据服务的功能，完善的数据开发与运维功能，提供产品化的数据治理、数据安全解决方案。此版本适合中小型企业使用。企业版基于DataWorks专业版，在该版本上您...

2019年

2019-12 功能名称功能描述发布时间发布区域相关文档支持开源地理空间UDF 您可以通过开源地理空间UDF分析空间数据。2019-12-25 全部区域 UDF（地理空间）新增包年包月非预留计算资源版购买后系统不预留资源，任务发起后，系统会在总...

个人设置

您可使用个人设置功能，自定义目标工作空间中数据开发（DataStudio）界面的布局和风格。例如，更改DataStudio左侧导航栏显示的功能模块、切换开发界面的背景颜色，以及设置编辑器可进行代码错误检查、自动换行、自动保存等。进入个人设置 ...

调度设置

若您的任务需要周期性运行，则在配置任务的调度属性前，需先进入DataStudio的调度设置页面开启调度功能，开启后，周期任务的调度配置才会生效。同时，DataWorks支持设置周期任务默认使用的资源组，支持设置任务的默认重跑属性、重跑次数、...

智能监控概述

功能介绍各模块功能介绍如下：功能描述智能基线智能基线能够及时捕捉导致基线上任务无法按时完成的异常情况并提前预警，保障复杂依赖场景下重要数据能在预期时间内顺利产出。创建及管理基线，详情请参见：基线管理。查看基线实例运行...

概述

数据开发的核心功能如下：文件夹用于存放并管理数据库中的数据开发节点。详情请参见文件夹。Hologres开发用于周期性调度作业。详情请参见 Hologres开发：周期性调度。一键MaxCompute表结构同步支持使用可视化方式批量创建外部表，加速...

数据开发与运维中心：数据加工

DataWorks的数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

OSS-HDFS数据源

BOOLEAN：OSS-HDFS文件中的布尔类型数据，例如 true、false，不区分大小写。DATE：OSS-HDFS文件中的时间类型数据，例如 2014-12-31 00:00:00。离线写 OSS-HDFS Writer提供向OSS-HDFS文件系统指定路径中写入TextFile文件、ORCFile文件以及...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

聚类分片

Proxima CE支持使用聚类分片方式检索任务，本文为您介绍聚类分片检索功能的使用方法及示例。前提条件已安装Proxima CE包并准备输入表，详情请参见安装Proxima CE包。基本原理 Proxima CE在检索时有两种划分数据分片的方式：哈希分片与聚...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

功能特性

Hudi存储数据导入与导出功能集功能功能描述参考文档 大数据数据源 Maxcompute数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将MaxCompute数据导入至数仓版或湖仓版集群，也支持通过外表将AnalyticDB for MySQL数仓版...

任务运行诊断

任务实际执行时，除了受数据开发（DataStudio）中定义的定时调度时间影响外，还受多方因素影响。例如，上游任务的定时时间、上游任务实际执行完成时间、任务执行资源组所剩资源等。本文为您介绍如何使用运行诊断功能快速定位任务未运行成功...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

什么是MaxCompute

提供持续的SaaS化云上数据保护为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能，兼具开源大数据与托管数据库的安全能力。产品架构 MaxCompute的产品架构如下。其中核心模块...

新功能发布记录

OceanBase 数据库的数据至 RocketMQ 支持 OceanBase 数据库至 Kafka 的同步 DDL 功能，方便用户及时感知 Schema 变化同步 OceanBase 数据库的数据至 Kafka 目标端 Kafka/DataHub/RocketMQ 支持 Debezium JSON 格式，方便对接下游大数据...

SparkSQL合并小文件功能使用说明

开启小文件合并功能开启小文件合并功能后，SparkSQL的写入操作（例如insert、create table等）将自动合并生成的输出文件，但功能只作用于当前写入操作生成的文件，不会对历史数据进行合并。同时，该功能支持非分区表以及静态、动态分区...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

清除数据

操作步骤说明在参数设置中禁用 FLUSHALL 命令不会影响控制台中清除数据功能。访问 Tair实例列表，在上方选择地域，然后单击目标实例ID。在实例信息页面，单击右上角的清除数据。在弹出的对话框中，选择待清除的对象：图 1.清除...

清除数据

操作步骤说明在参数设置中禁用 FLUSHALL 命令不会影响控制台中清除数据功能。访问 Redis实例列表，在上方选择地域，然后单击目标实例ID。在实例信息页面，单击右上角的清除数据。在弹出的对话框中，选择待清除的对象：图 1.清除...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

场景：调度参数在数据集成的典型应用场景

同时，您可以结合补数据功能，实现将对应时间内的数据同步至目标端对应分区的功能。例如MySQL、Loghub、Kafka等。场景一：同步增量数据、场景四：同步历史数据动态表名或文件路径表名或文件名使用调度参数，可实现每次同步不同表的...

大数据 功能

新品推荐

大数据功能