大数据受众引擎-大数据受众引擎文档介绍内容-阿里云

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

什么是云原生多模数据库Lindorm

多模型的核心能力主要由以下几大数据引擎提供，包括：数据引擎 核心能力宽表引擎负责宽表与对象数据的管理和服务，具备全局二级索引、多维检索、动态列、TTL等能力，适用于元数据、订单、账单、画像、社交、feed流、日志等场景，兼容...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

大数据AI公共数据集分析

教程简介阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、...

基本概念

G Ganos时空引擎阿里云推出的一款管理空间几何数据、时空轨迹的时空大数据引擎系统。该系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法等，结合云原生多模数据库 Lindorm 宽表引擎强大的分布式存储...

DataWorks产品安全能力介绍

数据列级别多级审批：基于底层大数据引擎的访问控制列表与数据分级分类，DataWorks支持按项目与数据分级分类，定义数据列的权限申请及审批策略。说明仅DataWorks企业版支持您根据业务需要自定义审批流程。数据质量规则：支持管理员配置...

代码模式建模

DataWorks数据建模的设计与实现解耦，在设计过程中，您无需考虑各个大数据引擎的实现方式，建模引擎会根据FML语言定义的Schema去驱动底层各个数据引擎的执行和操作，仅在实际物化（即把设计的逻辑表转换为底层引擎的物理表）阶段，建模引擎...

购买指引

其他产品计费：大数据引擎的计算与存储等费用不包含在DataWorks的费用中，例如，您还开通使用了 MaxCompute、Hologres、E-MapReduce 等计算引擎或存储产品，这类产品的费用需参考对应产品的计费逻辑。进入 DataWorks售卖页即可购买所需...

阶段一：基础防护建设

场景四：开源身份隔离企业通常会使用DataWorks联合各类大数据引擎（例如，MaxCompute、E-MapReduce）进行数据开发。使用DataWorks及MaxCompute进行数据开发时，在标准模式工作空间下默认支持身份权限隔离。使用DataWorks及E-MapReduce时，...

逆向建模：物理表反向建模

建模流程逆向建模主要用于将大数据引擎中已经存在的物理表反向建模至DataWorks的维度建模中，其建模流程如下：配置逆向建模策略。建模范围：创建模型前，您需要根据业务需求确定需要将哪些表逆向生成模型。该过程需确定表所在的工作空间、...

文档修订记录

函数计算节点 2023.6.29 新增功能管理控制创建E-MapReduce计算引擎数据源：支持选择EMR on ACK中的Spark集群类型。支持配置全局Spark属性。配置 OPENLDAP账号映射或Kerberos账号映射时，支持上传Keytab文件。注册EMR集群至DataWorks 2023...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

Delta Lake概述

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

东软案例

多模型数据融合分析困难，面向海量数据采集终端同时写入数据的并发能力弱，数据量大且价值密度低导致存储成本高，基于开源软件自建数据存储集群稳定性低运维成本高等问题，东软急需新型运维大数据存储引擎支撑，来对运维系统存储引擎升级...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

数据湖元数据管理

横向使用多种大数据计算引擎，例如Databricks 数据洞察、MaxCompute、EMR等，元数据可以集中管理。多个Databricks 数据洞察集群，可以统一管理元数据。创建集群创建Databricks 数据洞察集群时，如图元数据选择为数据湖元数据方式，...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

TSDB全量迁移至时序引擎

本文介绍时间序列数据库（Time Series Database，简称TSDB）全量迁移至云原生多模数据库 Lindorm 时序引擎的方法。前提条件已安装Linux或者macOS操作系统，并且安装以下环境。已安装Java环境，版本为JDK 1.8及以上。已安装Python环境，...

如何选择文件引擎规格

存储规格选择当您选择Lindorm文件引擎作为大数据、数据湖的底层存储时，推荐您选用容量型云存储类型。Lindorm存储以预留空间方式计费，需要确保LindormDFS的预留存储空间超出您的最大使用空间10%以上说明容量型存储在保持低成本的...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

数据服务入门

说明 DataWorks工作空间将集群或数据库绑定至DataWorks作为DataWorks的引擎后，DataWorks将默认创建该引擎数据源。进入管理中心。在左侧导航栏单击数据源管理，进入数据源管理页面。创建数据源并测试网络连通性。单击新增数据源，选择所...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

数据库引擎

数据库引擎数据库引擎分类文档链接 Atomic Atomic Lazy Lazy Replicated Replicated PostgreSQL PostgreSQL MySQL MySQL SQLite SQLite MaterializedPostgreSQL MaterializedPostgreSQL MaterializedMySQL MaterializedMySQL

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

计算设置概述

设置Dataphin实例的计算引擎为TDH或ArgoDB 星环TDH 6.x Transwarp Data Hub（TDH)是星环大数据平台实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持实时计算，具有高吞吐低延迟等优势，同时也支持离线计算与调度。...

基本介绍

背景信息云数据库HBase增强版是由云原生多模数据库Lindorm宽表引擎提供的、完全兼容HBase的云上托管数据库，从2011年开始云数据库HBase增强版正式承载阿里内部业务的海量数据实时存储需求，支撑服务了淘宝、支付宝、菜鸟、优酷、高德等...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

设置冷热分离

本文介绍各数据引擎设置冷热分离的方法。引擎类型设置方法宽表引擎按自定义时间列冷热分离按时间戳冷热分离时序引擎冷数据归档搜索引擎配置冷存储

工作空间管理概述

推送到数据银行的用户标签数据集和受众的最大并发数设置，推送到达摩盘的受众的最大并发数设置，以及推送到Kafka的受众的最大并发数设置。空间接口配置：新建Kafka推送接口，以及管理Kafka、数据银行、达摩盘推送接口。用户访问：用户访问...

创建Impala数据源

背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至Impala，您需要先完成Impala数据源的创建。更多Impala信息，请参见 Impala官网。权限说明 Dataphin仅支持超级管理员、...

创建Impala数据源

背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至Impala，您需要先完成Impala数据源的创建。更多Impala信息，请参见 Impala官网。权限说明 Dataphin仅支持超级管理员、...

大数据 受众引擎

新品推荐

大数据受众引擎