大数据介绍-大数据介绍文档介绍内容-阿里云

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

产品架构

本文将介绍数据传输服务的整个系统架构及基本实现原理。系统架构 DTS系统架构特性说明系统高可用数据传输服务内部每个模块都有主备架构，保证系统高可用。容灾系统实时检测每个节点的健康状况，一旦发现某个节点异常，会将链路快速切换到...

数据保护伞概述

本文为您介绍数据保护伞的使用流程、使用限制等内容。使用流程数据保护伞为您提供敏感数据规则配置、识别敏感数据、查看识别结果、处理敏感数据等管控流程，帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据，保障...

网络连通解决方案

本文为您介绍数据源在不同网络环境中与Dataphin的网络连通方案。网络连通方案根据数据源所在的网络环境，在下图中选择对应的网络连通解决方案。网络连通方案的操作指导说明如下表所示。数据源所在的网络环境网络连通操作指导数据源具备...

资产全景

本文为您介绍数据资产全景的全局、流动和结构化模式。资产全景介绍资产全景页面仅为您展示生产环境中的元数据及加工所得的应用数据，包括以下三种模式：全局模式：以星球形式为您展示存储数据量大于0的业务板块及其概要信息。流动模式：...

资产全景

本文为您介绍数据资产全景的全局、流动和结构化模式。资产全景介绍资产全景页面仅为您展示生产环境中的元数据及加工所得的应用数据，包括以下三种模式：全局模式：以星球形式为您展示存储数据量大于0的业务板块及其概要信息。流动模式：...

同阿里云主账号访问

本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据源与DataWorks工作空间（独享资源组，即同步机器）间的环境关系。详情请参见配置资源组与网络连通。场景一：DataWorks与...

功能特性

审计日志权限管理权限管理为确保MaxCompute项目数据的安全性，项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控，确保权限不会过大也不会过小。权限管理管理&运维 MaxCompute提供用户可视化运维、管理功能，方便...

A100使用指南

产品介绍数据库审计A100实例是一款专业、主动、实时监控数据库安全的审计产品。A100实例采用有效的数据库审计方式，针对数据库漏洞攻击、SQL注入、风险操作等数据库风险行为进行记录与告警。通过系统监控引擎可以定制不同的审计规则，例如...

配置资源组与网络连通

本文为您介绍数据库在不同网络环境中时，可选用的网络连通方案。注意事项连通性测试通过是任务运行成功的必要条件，连通性工具测试仅验证网络等基本条件通过，具体任务是否成功以实际任务运行结果为准。任务提交生产运行前确保测试通过。...

同步方案概览

本文将介绍数据同步功能支持的数据库、同步类型和同步拓扑。说明数据同步在某些场景下可实现部分数据迁移的功能，且网络稳定性更好、功能更丰富。更多区别，请参见数据迁移和数据同步的区别是什么？当前仅当目标库为函数计算FC时，不支持...

产品计费

本文介绍数据库自治服务DAS 不同版本的费用、到期、欠费以及续费说明。计费详情重要实际价格以产品购买页为准。企业版 V3 说明支持企业版 V1和V2免费迁移至企业版 V3，迁移完成前按照当前版本计费，迁移完成后按照迁移目标版本计费。...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

迁移方案概览

本文将介绍数据迁移功能支持的数据库、版本和迁移类型，以及具体的配置文档。说明数据迁移在某些场景下可实现部分数据同步的功能，但数据同步的网络稳定性更好、功能更丰富，推荐您使用数据同步功能。更多区别，请参见数据迁移和数据同步...

数据质量概述

功能介绍数据质量支持对常见大数据存储（MaxCompute、E-MapReduce Hive、Hologres等）进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度，配置质量监控规则。并可以将质量监控规则与调度节点进行关联，当任务...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

Python SDK概述

PyODPS介绍 PyODPS提供了DataFrame框架和MaxCompute对象的基本操作方法，使用户能够更轻松地使用Python语言进行MaxCompute任务的开发和数据处理。PyODPS兼容Python2（2.6以上版本）和Python3版本。获取详细PyODPS信息的方式如下：了解...

概述

SmartData是E-MapReduce（简称EMR）产品的核心自研组件，为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展，涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...

函数

内建函数：可以简化SQL查询的编写，提高数据处理的效率。自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

Spark SQL、Dataset和DataFrame基础操作

Spark SQL、Dataset和DataFrame介绍 Spark SQL是一个用于结构化数据处理的Spark模块，与基本的Spark RDD的API不同，Spark SQL的接口还提供了更多关于数据和计算的结构化信息。Spark SQL可以用于执行SQL查询并从Hive表中读取数据。Dataset是...

项目

项目（Project）是MaxCompute的基本组织单元，它类似于传统数据库的Database或Schema的概念，是进行多用户隔离和访问控制的主要边界。项目中包含多个对象，例如表（Table）、资源（Resource）、函数（Function）和实例（Instance）等，您...

互联网、电商行业离线大数据分析

方案介绍实现互联网、电商行业离线大数据分析的流程如下：同步用户订单等数据至MaxCompute。通过DataWorks对原始数据进行处理，并形成开放API。以API的形式通过DataV在大屏上展示结果数据。方案优势大规模存储：超大规模存储且自动扩容，...

COALESCE

本文为您介绍COALESCE函数的命令格式、参数说明以及使用示例。命令格式 coalesce(,,.)参数说明 expr：必填。待验证的值。返回值说明返回值类型和参数数据类型相同。使用示例示例1：常见用法。命令示例如下。返回1。select coalesce(null,...

操作审计

本文汇总介绍操作审计的相关问题。如何获取界面一些操作审计日志，比如界面下载数据操作？重要数据如何通过事前设置来获得事后溯源能力？MaxCompute表权限的权限审计表数据，节点删除如何恢复？如何进行节点版本对比与版本回滚？如何获取...

FROM_CHARSET

本文为您介绍FROM_CHARSET函数的命令格式、参数说明以及使用示例。命令格式 STRING FROM_CHARSET(binary,string,[string])参数说明 source：必填，BINARY类型，待转换的二进制（Bytes）数据。source_charset：必填，STRING类型，source ...

血缘查看

使用DataWorks数据地图查看表或数据服务API时，可在对应的详情页面查看详细的血缘信息，这对于数据溯源及管理有很大帮助，本文为您介绍数据地图的血缘查看能力。表血缘查找某张表并进入表详情页面后，您可以单击血缘信息页签，查看表级...

CHAR_MATCHCOUNT

本文为您介绍CHAR_MATCHCOUNT函数的命令格式、参数说明以及使用示例。命令格式 bigint char_matchcount(string,string)参数说明 str1、str2：必填。STRING类型，必须为有效的UTF-8字符串。如果对比过程中发现有无效字符（非UNICODE编码），...

CURRENT_TIMEZONE

本文为您介绍CURRENT_TIMEZONE函数的命令格式和使用示例。命令格式 string current_timezone()返回值说明返回STRING类型。使用示例-返回Asia/Shanghai。select current_timezone();相关函数 CURRENT_TIMEZONE函数属于日期函数，更多日期...

数据指标概述

DataWorks的数据建模提供数据指标功能，为您提供统一的指标体系建立能力。指标体系指标是衡量业务特征的统计数值，用于体现企业某一业务活动的业务状况。指标通常分为原子指标和派生指标，与指标相关的参数还包括修饰词和时间周期。派生...

BIN

本文为您介绍BIN函数的命令格式、参数说明以及使用示例。命令格式 string bin()参数说明 number：必填。BIGINT、INT、SMALLINT、TINYINT类型。返回值说明返回STRING类型。返回规则如下：number 非BIGINT、INT、SMALLINT、TINYINT类型时，...

ACOS

MaxCompute ACOS函数用于计算一个数（number）的反余弦值，本文为您介绍ACOS函数的命令格式、参数说明以及使用示例。命令格式 double|decimal acos()参数说明 number：必填。取值范围为[-1,1]。DOUBLE或DECIMAL类型。输入为STRING、BIGINT...

引擎版本介绍

本文为您详细介绍引擎版本号及含义。引擎版本号及其含义引擎版本的格式为 esr-*(Spark*,Scala*,Java Runtime/Native Runtime)。内容含义 esr-*EMR Serverless Spark版本号，例如esr-2.1。Spark*指遵循的Apache Spark引擎版本号，例如...

SCAN语句

SCAN语法约束如下：SCAN语法定义的视图，仅能用作数据源表，不可以作为数据输出表。SCAN语法定义可以直接处理原始表，但仅能进行批式读。语法 CREATE SCAN tbName_alias ON tbName USING queryType OPTIONS(propertyName=propertyValue[,...

ARRAY_INTERSECT

本文为您介绍ARRAY_INTERSECT函数的命令格式、参数说明以及使用示例。命令格式 array<T>array_intersect(array<T><a>,array<T><b>)参数说明 a、b：必填。ARRAY数组。array中的 T 指代ARRAY数组元素的数据类型，数组中的元素可以为任意类型...

GET_IDCARD_AGE

本文为您介绍GET_IDCARD_AGE函数的命令格式和参数说明。命令格式 get_idcard_age()参数说明 idcardno：必填。STRING类型，15位或18位身份证号码。在计算时会根据省份代码以及最后一位校验码检查身份证的合法性。如果校验不通过，会返回NULL...

数据标准概述

DataWorks数据建模支持在建模前规划制定数据标准，或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、字段标准、命名词典，来保障后续建模与应用过程中数据处理的一致性，从源头上保障数据的标准化...

GET_IDCARD_BIRTHDAY

本文为您介绍GET_IDCARD_BIRTHDAY函数的命令格式和参数说明。命令格式 get_idcard_birthday()参数说明 idcardno：必填。STRING类型，15位或18位身份证号码。在计算时，会根据省份代码以及最后一位校验码检查身份证的合法性。如果校验不通过...

组件与数据类型的兼容

不支持不支持 PAI 支持除Decimal之外的其它数据类型 2.0新增的数据类型中仅支持INT 部分功能支持map数据类型不支持不支持 PyODPS 支持 DataFrame不支持2.0数据类型其它功能都支持2.0数据类型支持 DataFrame不支持2.0数据类型其它功能...

维度建模概述

DataWorks的数据建模产品遵循Kimball维度建模理论，使用DataWorks的维度建模功能进行数据仓库模型设计时，您可根据业务情况设计并创建维度表、明细表、汇总表、应用表，并可将模型快速发布到相应的研发引擎。同时，还可以使用逆向建模，将...

大数据介绍

新品推荐