概述

Flink(VVR)完全兼容开源Flink,相关内容请参见如下文档:DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。技术领域 从技术领域的角度,Flink主要用于以下...

功能发布记录(2024年)

2024.2.21 所有地域 所有DataWorks用户 DataWorks On CDP/CDH使用说明 数据服务支持实例模式的StarRocks数据源 开通E-MapReduce Serverless StarRocks集群后,您可在DataWorks中通过实例模式新增StarRocks数据源,DataWorks数据服务支持...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通,可以直接加速查询外部表数据,也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据,您当前使用的账号需要拥有...

阶段一:基础防护建设

在该阶段,DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践,帮助企业做好数据安全治理的相关基础防护工作。场景一:数据分级分类 无论在任何行业,数据分级分类都是监管首要检查的...

配置租户角色

已购买数据资源平台,具体操作,请参见 购买及登录数据资源平台。操作步骤 登录 数据资源平台控制台。在页面右上角,单击 图标,选择 系统设置>用户管理。在用户管理页面,单击 添加成员。在 添加成员 页面,单击人员下拉框选择对应账号,...

什么是媒体处理

以经济、弹性和高可扩展的转换方法,将多媒体数据转码成适合在全平台播放的格式,并基于海量数据媒体的内容添加智能标签,实现智能审核、智能生产、版权保护。产品架构 架构图 架构说明 媒体处理MPS基于阿里云云计算服务构建,改变了以往...

技术发展趋势

规模爆炸性增长 随着8K、5G、IoT、大数据、AI等系列技术的发展,数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测,从2018年到2025年,全球数据将从33ZB急速增长到175ZB,比2016年产生的数据量增加了十倍。这表明注重数据价值...

数据

本文介绍写数据表算子的使用方法。用途 写数据表 算子用于将模型上游节点处理之后的出具写入指定的数据表中。适用场景 计算链路 计算引擎 是否支持 离线 MaxCompute 是 Hive 是 HiveStorage 是 RDS/MySQL 是 使用说明 离线链路 输入节点 ...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

购买指引

本文为您介绍数据资源平台实例售卖支持的地域、版本及购买时长。背景信息 购买数据资源平台前,请您了解以下几点:购买前建议您先联系阿里云 售前咨询 并提供企业数据建设需求及背景信息。待阿里云售前咨询帮您确认数据资源平台当前版本及...

DataWorks On MaxCompute使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

流式读写

本文介绍Delta Lake作为数据源和数据接收端如何流式读写数据。Delta Table作为数据源(Source)spark.readStream.format("delta").option("maxFilesPerTrigger",1000).load("/tmp/delta_table")maxFilesPerTrigger 指定了一个批次最多处理...

DataWorks On Hologres使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

工作流常见问题

请确认是否上传过同名视频,上传同名视频时,不会生成新媒体,请在媒体库中按视频名称搜索媒体。媒体工作流支持哪些操作?媒体工作流目前支持截图、转码、模板分析、发布管理等操作。媒体工作流中转码节点的输出文件该如何命名?由于媒体...

数据保护伞概述

数据保护伞是一款数据安全管理产品,为您提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等多种功能,帮助您快速梳理敏感数据并进行安全管控,保障数据安全。本文为您介绍数据保护伞的使用流程、使用限制等内容。使用流程...

大数据AI公共数据集分析

教程简介 阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、...

计费说明

数据资源平台按版本、每日任务实例数和购买时长来计算费用,产品最短有效期为一个月,您可以自主选择购买版本和时长。产品临近到期日时,系统会自动发出通知,提醒您及时续费。本文为您介绍数据资源平台的计费情况。使用数据资源平台产品,...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

ClusterSummary

取值范围:DATALAKE:新版数据湖。OLAP:数据分析。DATAFLOW:实时数据流。DATASERVING:数据服务。DATALAKE ClusterState string 集群状态。取值范围:STARTING:启动中。START_FAILED:启动失败。BOOTSTRAPPING:引导操作初始化。RUNNING...

HBase Replication

HBase可以基于Replication功能将实时写入的数据从主集群复制到备份集群,从而提高HBase数据的可靠性和数据访问的扩展性。HBase目前支持异步Replication、串行Replication和同步Replication。本文为您介绍如何开启HBase的异步Replication...

Amazon Redshift数据

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道,方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台,DataWorks沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。迁移流程 阿里云DataWorks on EMR团队提供了完善...

数据分析整体趋势

大数据数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

查看数据风险(新版)

数据风险从多维度呈现了通过配置的风险识别规则命中的风险数据,方便您了解不同维度的风险分布、指定时间的风险趋势及风险项目空间排名,获取风险高发的时间及项目空间,也可以查看产生风险的用户、时间、操作等详情,及时定位并处理风险。...

开通DataWorks服务

背景信息 为帮助您快速体验大数据平台的核心场景,每个地域首次开通DataWorks时,平台默认自动在相应地域为您开通MaxCompute按量付费产品(该产品不使用则不收费),并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

数据服务概述

数据服务作为统一的数据服务出口,实现了数据的统一市场化管理,有效地降低数据开放门槛的同时,保障了数据开放的安全。前提条件 已购买 数据服务 增值服务,开通Dataphin 常见数据应用问题 一般从需求提出到需求交付分为:需求提出-需求...

基础使用

您可以开启一个streaming-sql客户端,向Source中插入新数据,并查询目标表的数据。执行以下命令,验证Source存量写入。SELECT*FROM stream_debug_table;执行以下命令,插入新数据。INSERT INTO delta_table VALUES 801,802;执行以下命令...

创建并管理数据

若您想在DataWorks操作您的数据库或数据仓库(例如,MaxCompute项目数据),需先在DataWorks的数据源管理页面,将数据库或数据仓库创建为DataWorks的数据源,并将该数据源绑定至DataWorks相应的功能模块使用。例如,同步MaxCompute数据前,...

MongoDB 5.0特性概览

版本发布调整 由于MongoDB支持很多版本和平台,每个发布版本都需在20多个MongoDB支持的平台上进行验证,验证工作量,降低了MongoDB功能的交付速度,所以从MongoDB 5.0开始,MongoDB发布的版本将分为Major Release(版本)和Rapid ...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

如何对JSON类型进行高效分析

PolarDB 列存索引(In Memory Column Index,IMCI)功能推出了完备的虚拟列与列式JSON功能等,可以快速处理大数据和多种数据类型(包括结构化数据与半结构化数据等),并提供高效的数据分析、查询与流计算能力,适用于数据分析、数据仓库与...

数仓规划概述

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

冷热分层

更多介绍请参见 结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离 和 云上如何做冷热数据分离。冷热数据 数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据数据量较,很少被访问,甚至...

基础概念

通过本文您可以了解智能媒体管理的基本概念,例如项目、数据源等。重要 此文档已不再维护,建议您使用新版智能媒体管理。关于智能媒体管理新版与旧版的对比,请参见 新旧版本使用指引。关于新版智能媒体管理的基本概念,请参见 基本概念。...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

创建AnalyticDB for MySQL3.0数据

进行数据同步:DataWorks的数据集成模块为您提供读取和写入数据至AnalyticDB for MySQL3.0的能力,您可将其他数据源的数据同步至当前AnalyticDB for MySQL3.0数据源,或将当前AnalyticDB for MySQL3.0数据源的数据同步至其他数据源。...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

DataHub数据

DataHub数据源作为数据中枢,为您提供读取和写入DataHub数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据传输服务 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用