大数据的数学建模-大数据的数学建模文档介绍内容-阿里云

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

创建逻辑模型：应用表

登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据建模，在下拉框中选择对应工作空间后单击进入数据建模。在智能数据建模 页面的顶部菜单栏，单击维度建模，进入维度建模页面。创建应用表。在维度建模页面，鼠标悬停至 ...

配置数据表资产目录

指为数据表资产指定所属目录，资产编目后，才能进行公开。本文介绍如何给表资产进行编目。前提条件已在运营模块中订阅物理表，具体操作，请参见资产注册。已在数据建模模块中创建并物理化逻辑表，具体操作，请参见物理化逻辑表。已运营...

配置数据表资产目录

指为数据表资产指定所属目录，资产编目后，才能进行公开。本文介绍如何给表资产进行编目。前提条件已在运营模块中订阅物理表，具体操作，请参见资产注册。已在数据建模模块中创建并物理化逻辑表，具体操作，请参见物理化逻辑表。已运营...

模型管理

登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据建模>维度建模。在维度建模页面单击图标，进入模型列表。查看模型列表及...

查看我的订阅

操作步骤登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据质量，在下拉框中选择对应工作空间后单击进入数据质量。在左侧导航栏，单击我的订阅。数据质量支持EMR、Hologres、AnalyticDB for PostgreSQL、MaxCompute等类型的...

创建逻辑模型：汇总表

汇总表用于组织一个数据域下相同时间周期、相同维度的多个派生指标的统计数据，为后续的业务查询，OLAP分析，数据分发等提供基础。本文为您介绍如何创建汇总表。前提条件已创建数据分层。数据分层是将相同功能作用的表挂载至统一的数据层...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

查看数据开发操作记录

进入数据开发DataStudio 登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。查看操作历史在数据开发DataStudio左侧边栏点击图标进入操作历史页面，可通过操作类型、...

申请、续期和交还函数权限

背景信息基于Dataphin数仓建模，实时计算函数在建模过程中通常会被引用，帮助您提高代码任务开发效率。实时计算函数的查询权限通过函数权限进行统一管控，当您引用跨项目函数或非您所建函数时，只需申请该函数的查询权限即可实现函数的...

申请、续期和交还函数权限

背景信息基于Dataphin数仓建模，实时计算函数在建模过程中通常会被引用，帮助您提高代码任务开发效率。实时计算函数的查询权限通过函数权限进行统一管控，当您引用跨项目函数或非您所建函数时，只需申请该函数的查询权限即可实现函数的...

通用参考：切换资源组

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。修改数据集成资源组。离线同步任务单个任务修改在左侧导航栏，单击数据开发，找到目标离线同步...

查看代码结构

登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。进入目标节点的编辑页面。您可以在数据开发或手动业务流程的目录树下，找到目标节点，双击该节点即可进入节点的...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

Cassandra数据建模

本文介绍Cassandra数据建模的概念、建模建议。Cassandra是一款分布式、去中心化、高可用的列存储（Wide Column Store）的No SQL数据库。分布式层面主要依靠一致性Hash算法把数据分布在整个集群中，单机主要实现了基于LSM-Tree的引擎。集群...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

授权与回收数据源权限

本文为您介绍如何批量授予和批量回收数据源的权限。前提条件需完成创建数据源。如需创建，请参见数据源管理。授权数据源权限在Dataphin首页，单击顶部菜单栏的管理中心。按照下图操作指引，进入数据源授权对话框。根据数据源授权...

授权与回收数据源权限

本文为您介绍如何批量授予和批量回收数据源的权限。前提条件需完成创建数据源。如需创建，请参见数据源管理。授权数据源权限在Dataphin首页，单击顶部菜单栏的管理中心。按照下图操作指引，进入数据源授权对话框。根据数据源授权...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

创建并管理自定义规则模板

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据质量，在下拉框中选择对应工作空间后单击进入数据质量。在左侧导航栏，单击配置>规则模板库。单击图标，选择新建文件夹。在新建文件夹对话框中，输入 ...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

创建解决方案

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。开启解决方案配置。在左侧导航栏底部，单击图标。在设置页面的个人设置页签，勾选显示解决...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

数据质量规则配置流程

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据质量，在下拉框中选择对应工作空间后单击进入数据质量。在左侧导航栏选择规则管理>规则列表，进入数据质量监控规则列表页面。查看规则列表功能描述过滤...

提交并发布模型

登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。查看数据模型。在左侧导航栏，单击模型管理。说明如果左侧导航栏未显示模型管理图标，您可在DataStudio界面左侧...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

数据脱敏能力概述

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据治理>数据保护伞，单击立即体验，进入数据保护伞。说明若...

代码搜索

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在数据开发目录树区域，单击顶部菜单栏的图标，进入代码搜索页面。配置搜索条件并查看搜索结果。...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

配置数据质量监控

登录 DataWorks控制台，单击左侧导航栏的 数据建模与开发>数据质量，在下拉框中选择对应工作空间后单击进入数据质量。进入表规则配置页面。在数据质量左侧导航栏，单击规则管理>按表配置根据如下参数定位目标表。数据源：E-MapReduce。...

授权与回收表权限

数据板块当表类型选择为逻辑视图、建模逻辑表、标签逻辑表时，需要选择逻辑表所在的数据板块。当授权用户选择生产账号时，支持选择不超过20个数据板块。表所在项目当表类型选择为物理表、元表、镜像表、物理视图时，需要选择物理表...

授权与回收表权限

数据板块当表类型选择为逻辑视图、建模逻辑表、标签逻辑表时，需要选择逻辑表所在的数据板块。当授权用户选择生产账号时，支持选择不超过20个数据板块。表所在项目当表类型选择为物理表、元表、镜像表、物理视图、物化视图时，需要...

大数据的数学建模

新品推荐