媒体与大数据研究中心-媒体与大数据研究中心文档介绍内容-阿里云

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

创建Hologres数据源

类型支持公网数据库、阿里云数据库与ECS(VPC)自建数据库，您可根据您数据库类型及业务情况进行选择与配置：公网数据库：通过公网可直接访问的数据库。阿里云数据库：在阿里云购买的数据库。支持VPC网络或公网IP进行访问。VPC网络访问数据...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

运维中心概述

运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控、智能诊断、资源运维和引擎运维功能模块，为您提供任务操作与状态、引擎、资源等多方位的运维能力。运维中心功能模块当您在DataStudio中完成节点开发，并提交...

什么是媒体处理

媒体处理MPS（ApsaraVideo Media Processing，原MTS）是一种多媒体数据处理服务。以经济、弹性和高可扩展的转换方法，将多媒体数据转码成适合在全平台播放的格式，并基于海量数据对媒体的内容添加智能标签，实现智能审核、智能生产、版权...

数据迁移与同步FAQ

本文为您列出数据迁移与数据同步的常见问题和相关解答。什么是数据迁移、数据同步？DTS的数据迁移与数据同步工作原理是什么？DTS的数据迁移与数据同步有什么区别？使用DTS遇到预检查报错，如何解决？什么是数据迁移、数据同步？数据迁移：...

高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率，从而实现治理目标的高效突破。本文通过治理负责人的实操过程，为您介绍如何通过数据治理计划能力，高效设定和达成数据治理目标。背景信息在多人...

东软案例

目前，东软在物联网、互联网等新场景下面临的IT系统运维主要问题与挑战有：多模型数据融合分析困难，面向海量数据采集终端同时写入数据的并发能力弱，数据量大且价值密度低导致存储成本高，基于开源软件自建数据存储集群稳定性低运维成本...

个人数据中心

个人数据中心可以帮助您快捷查看自己所负责的资产，并可以对资产执行转交负责人、申请权限操作，本文为您介绍如何查看并管理自己所负责的资产。权限说明超级管理员可转交所有表类型的负责人，当前表负责人可转交自己是负责人的表。项目...

数据中心

数据中心包含数据管理、数据配置。数据管理数据管理模块展示并管理用户添加的数据。主要功能包括数据表引入、本地数据导入。数据表支持用户从已注册的计算资源类型中添加数据表。支持基于已添加的数据查看表信息、表内展示的字段。支持将...

资产全景及目录概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

个人数据中心

个人数据中心可以帮助您快捷查看自己所负责的资产，并可以对资产执行转交负责人、申请权限操作，本文为您介绍如何查看并管理自己所负责的资产。权限说明超级管理员可转交所有表类型的负责人，当前表负责人可转交自己是负责人的表。项目...

资产全景及目录概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

数据传输与迁移概述

MaxCompute提供多种渠道，以便您从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道外表（湖仓一体）JDBC渠道场景数据写入MaxCompute 离线数据批量写入（数据...

同阿里云主账号访问

在进行数据同步前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据源的网络连通性。本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

流程简介

数据探索主要包括首页、数据中心、算子中心、模型中心、任务中心等功能。本文介绍了数据探索的业务操作基本流程。数据探索的业务流程如下图所示。数据探索的流程说明如下表所示。流程说明首页提供新手引导及用户登录、模型情况的运行...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端...

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

01新建模型目录

DWD：全称Data Warehouse Detail，明细数据层，该层数据和源数据基本保持一致，保存着最细粒度的数据，一般存放所有的明细数据，是所有后期分析的数据基础。具有数据量大，查询计算较慢的特点。DWS：全称Data Warehouse Summary，汇总数据...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介亿海蓝是中国的航运大数据公司，做为中国最大的AIS数据服务运营商，发展目标是通过大数据技术推动全球航运物流与互联网的融合，加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务，客户涵盖港口...

数据标准

数据标准落标说明数据标准落标的意义在于从源头进行数据的标准化生产，加速数据的融合与统一的效率，节省大量数据应用和处理的成本。完成以下操作实现数据标准落标：您可以在字段编辑器页面，编辑中文名，输入拼音首字母即可快速检索出...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

审批中心概述

审批中心提供自定义审批策略和权限申请及查询功能，您可以便捷地对表数据、数据服务API、扩展程序等进行权限或策略的管控，或查询各权限的申请及审批记录。功能介绍在DataWorks上进行数据开发管理的过程中，您可以便捷地对表数据、数据...

功能特性

图片盲水印介绍 媒体数据处理 媒体数据处理提供全面的服务，包括视频标签检测、视频转码、获取媒体文件元信息等功能，助力用户高效管理和深度挖掘媒体资产。功能集功能功能描述参考文档媒体识别检测视频标签检测使用视频标签检测，...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

功能发布记录（2022年）

英国（伦敦），美国（硅谷），美国（弗吉尼亚），阿联酋（迪拜）所有DataWorks用户数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake，实现基于EMR引擎的数据集成、数据建模、数据开发...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

轮播页面

其中动态数据返回的id值的格式要与此id保持一致，并与大屏轮播数据接口中的页面id对应。数据项配置说明数据源组件的数据源中通过代码编辑或可视化编辑展示了组件所包含的数据字段。也可以修改数据类型，灵活配置组件数据。数据...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

添加RDS PostgreSQL数据库

本文为你介绍如何添加RDS PostgreSQL数据库。前提条件添加数据库之前请先安装Ganos插件，详情请参见 GanosBase时空数据库。添加数据库前请先参见创建RDS PostgreSQL实例，开通对应数据库服务并添加白名单。外网连接数据库登录 DataV-...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

解决方案与客户案例

数据层数据层解决数据库跨地域的部署与同步问题，并在灾难发生时对流量切换动作提供相应的数据质量保护策略。针对上层业务不同的服务类型提供UNIT和COPY两种数据同步策略：UNIT类型：每个单元部署独立的数据库系统，单元之间通过DTS进行...

媒体与大数据研究中心

新品推荐