新媒体大数据平台-新媒体大数据平台文档介绍内容-阿里云

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

功能发布记录（2024年）

2024.2.21 所有地域所有DataWorks用户 DataWorks On CDP/CDH使用说明数据服务支持实例模式的StarRocks数据源开通E-MapReduce Serverless StarRocks集群后，您可在DataWorks中通过实例模式新增StarRocks数据源，DataWorks数据服务支持...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

配置租户角色

已购买数据资源平台，具体操作，请参见购买及登录数据资源平台。操作步骤登录数据资源平台控制台。在页面右上角，单击图标，选择系统设置>用户管理。在用户管理页面，单击添加成员。在添加成员页面，单击人员下拉框选择对应账号，...

什么是媒体处理

以经济、弹性和高可扩展的转换方法，将多媒体数据转码成适合在全平台播放的格式，并基于海量数据对媒体的内容添加智能标签，实现智能审核、智能生产、版权保护。产品架构架构图架构说明媒体处理MPS基于阿里云云计算服务构建，改变了以往...

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

写数据表

本文介绍写数据表算子的使用方法。用途写数据表算子用于将模型上游节点处理之后的出具写入指定的数据表中。适用场景计算链路计算引擎是否支持离线 MaxCompute 是 Hive 是 HiveStorage 是 RDS/MySQL 是使用说明离线链路输入节点 ...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

购买指引

本文为您介绍数据资源平台实例售卖支持的地域、版本及购买时长。背景信息购买数据资源平台前，请您了解以下几点：购买前建议您先联系阿里云售前咨询并提供企业数据建设需求及背景信息。待阿里云售前咨询帮您确认数据资源平台当前版本及...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

流式读写

本文介绍Delta Lake作为数据源和数据接收端如何流式读写数据。Delta Table作为数据源（Source）spark.readStream.format("delta").option("maxFilesPerTrigger",1000).load("/tmp/delta_table")maxFilesPerTrigger 指定了一个批次最多处理...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

工作流常见问题

请确认是否上传过同名视频，上传同名视频时，不会生成新媒体，请在媒体库中按视频名称搜索媒体。媒体工作流支持哪些操作？媒体工作流目前支持截图、转码、模板分析、发布管理等操作。媒体工作流中转码节点的输出文件该如何命名？由于媒体...

数据保护伞概述

数据保护伞是一款数据安全管理产品，为您提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等多种功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文为您介绍数据保护伞的使用流程、使用限制等内容。使用流程...

大数据AI公共数据集分析

教程简介阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、...

计费说明

数据资源平台按版本、每日任务实例数和购买时长来计算费用，产品最短有效期为一个月，您可以自主选择购买版本和时长。产品临近到期日时，系统会自动发出通知，提醒您及时续费。本文为您介绍数据资源平台的计费情况。使用数据资源平台产品，...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

ClusterSummary

取值范围：DATALAKE：新版数据湖。OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING...

HBase Replication

HBase可以基于Replication功能将实时写入的数据从主集群复制到备份集群，从而提高HBase数据的可靠性和数据访问的扩展性。HBase目前支持异步Replication、串行Replication和同步Replication。本文为您介绍如何开启HBase的异步Replication...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

查看数据风险（新版）

数据风险从多维度呈现了通过配置的风险识别规则命中的风险数据，方便您了解不同维度的风险分布、指定时间的风险趋势及风险项目空间排名，获取风险高发的时间及项目空间，也可以查看产生风险的用户、时间、操作等详情，及时定位并处理风险。...

开通DataWorks服务

背景信息为帮助您快速体验大数据平台的核心场景，每个地域首次开通DataWorks时，平台默认自动在相应地域为您开通MaxCompute按量付费产品（该产品不使用则不收费），并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

数据服务概述

数据服务作为统一的数据服务出口，实现了数据的统一市场化管理，有效地降低数据开放门槛的同时，保障了数据开放的安全。前提条件已购买数据服务增值服务，开通Dataphin 常见数据应用问题一般从需求提出到需求交付分为：需求提出-需求...

基础使用

您可以新开启一个streaming-sql客户端，向Source中插入新数据，并查询目标表的数据。执行以下命令，验证Source存量写入。SELECT*FROM stream_debug_table;执行以下命令，插入新数据。INSERT INTO delta_table VALUES 801,802;执行以下命令...

创建并管理数据源

若您想在DataWorks操作您的数据库或数据仓库（例如，MaxCompute项目数据），需先在DataWorks的数据源管理页面，将数据库或数据仓库创建为DataWorks的数据源，并将该数据源绑定至DataWorks相应的功能模块使用。例如，同步MaxCompute数据前，...

MongoDB 5.0新特性概览

版本发布调整由于MongoDB支持很多版本和平台，每个发布版本都需在20多个MongoDB支持的平台上进行验证，验证工作量大，降低了MongoDB新功能的交付速度，所以从MongoDB 5.0开始，MongoDB发布的版本将分为Major Release（大版本）和Rapid ...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

基础概念

通过本文您可以了解智能媒体管理的基本概念，例如项目、数据源等。重要此文档已不再维护，建议您使用新版智能媒体管理。关于智能媒体管理新版与旧版的对比，请参见新旧版本使用指引。关于新版智能媒体管理的基本概念，请参见基本概念。...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

创建AnalyticDB for MySQL3.0数据源

进行数据同步：DataWorks的数据集成模块为您提供读取和写入数据至AnalyticDB for MySQL3.0的能力，您可将其他数据源的数据同步至当前AnalyticDB for MySQL3.0数据源，或将当前AnalyticDB for MySQL3.0数据源的数据同步至其他数据源。...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

DataHub数据源

DataHub数据源作为数据中枢，为您提供读取和写入DataHub数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

新媒体大数据平台

新品推荐