数据质量评估标准

不同行业有不同的评估数据质量的标准。对于MaxCompute,数据质量可以从完整性、准确性、一致性和及时性四个角度进行评估。完整性 完整性是指数据的记录和信息是否完整,是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句,来查询和分析存储在MaxCompute中的大数据,详情请参见 SQL查询。您可以通过编写SQL语句,对有查询权限的数据源进行快速的数据查询与分析操作,详情请参见 功能概览。DataWorks SQL查询提供了...

创建Hudi数据

背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。权限说明 仅支持 超级管理员、数据源管理员、板块架构师、项目管理员 角色创建数据...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法,你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS,以及在迁移...

创建Impala数据

在 新建数据源 对话框的 大数据存储 区域,选择 Impala。如果您最近使用过Impala,也可以在 最近使用 区域选择Impala。同时,您也可以在搜索框中,输入Impala的关键词,快速筛选。在 新建Impala数据源 对话框中,配置连接数据源参数。配置...

创建Hudi数据

背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。更多信息,请参见 Apache Hudi官网。权限说明 仅支持 超级管理员、数据源管理员、...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将...MaxCompute处理业务数据和日志数据后,可以通过Quick BI快速地以可视化方式展现数据处理结果,详情请参见 基于MaxCompute的大数据BI分析。

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

限制说明

数据大小 云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB,Value 最大不超过 1 MB,过数据不适合存储。事务支持 云数据库 Memcache 版不支持事务,有事务性要求的数据不适合写入,而应该直接写入数据库。使用场景 当...

新建TDengine数据

在 新建数据源 对话框的 大数据存储 区域,选择 TDengine。如果您最近使用过TDengine,也可以在 最近使用 区域选择TDengine。同时,您也可以在搜索框中,输入TDengine的关键词,快速搜索。在 新建TDengine数据源 对话框中,配置数据源的...

新建TDengine数据

在 新建数据源 对话框的 大数据存储 区域,选择 TDengine。如果您最近使用过TDengine,也可以在 最近使用 区域选择TDengine。同时,您也可以在搜索框中,输入TDengine的关键词,快速搜索。在 新建TDengine数据源 对话框中,配置数据源的...

创建Impala数据

在 新建数据源 对话框的 大数据存储 区域,选择 Impala。如果您最近使用过Impala,也可以在 最近使用 区域选择Impala。同时,您也可以在搜索框中,输入Impala的关键词,快速筛选。在 新建Impala数据源 对话框中,配置连接数据源参数。配置...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

使用MaxCompute控制台(离线)

MaxCompute控制台提供数据上传功能,支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线(非实时)上传至MaxCompute进行分析处理及相关管理操作。使用限制 仅支持基于 本地文件 或 阿里云对象存储OSS 上传数据,具体如下。本地文件...

新建Doris数据

在新建数据源对话框的 大数据存储 区域,选择Doris。如果您最近使用过Doris,也可以在最近使用区域选择Doris。同时,您也可以在搜索框中,输入Doris的关键词,快速筛选。在 新建Doris数据源 对话框中,配置连接数据源参数。配置数据源的...

电商网站智能推荐

电商网站智能推荐基于阿里巴巴的大数据和人工智能技术,结合在电商行业的多年积累,为开发者提供个性化推荐服务,提升商品的购买率和转化率。概述 本实践以电商网站为例,通过日志服务采集日志,将RDS作为后端数据服务、MaxCompute作为数据...

MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

新建Doris数据

在新建数据源对话框的 大数据存储 区域,选择Doris。如果您最近使用过Doris,也可以在最近使用区域选择Doris。同时,您也可以在搜索框中,输入Doris的关键词,快速筛选。在 新建Doris数据源 对话框中,配置连接数据源参数。配置数据源的...

DBMS_LOB

CONVERTOBLOB(dest_lob IN OUT,src_clob,amount,dest_offset IN OUT,src_offset IN OUT,blob_csid,lang_context IN OUT,warning OUT)存储过程 N/A 将字符类型数据对象,转换成二进制类型数据对象。CONVERTTOCLOB(dest_lob IN OUT,...

数据组织优化

Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入,高流量场景下可能会导致增量小文件数量膨胀,从而引发存储访问压力、成本高,并且大量的小文件还会引发Meta更新以及分析执行慢,数据读写I/O效率低下等问题,...

HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

创建Hologres数据

在 新建数据源 对话框的 大数据存储 区域,选择 Hologres。如果您最近使用过Hologres,也可以在 最近使用 区域选择Hologres。同时,您也可以在搜索框中,输入Hologres的关键词,快速筛选。在 新建Hologres数据源 对话框中,配置连接数据源...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件 导入导出数据使用MaxCompute Tunnel,因此要求MaxCompute ...

数据传输费用(公网下载)

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费,并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单,您可以进入 费用中心 查看。下载计费规则如下。计费公式 价格 说明 一次下载...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

X-Engine简介

因为目标是面向大规模的海量数据存储,提供高并发事务处理能力和降低存储成本,在大部分大数据量场景下,数据被访问的机会是不均等的,访问频繁的热数据实际上占比很少,X-Engine根据数据访问频度的不同将数据划分为多个层次,针对每个层次...

PolarDB Serverless实现了哪些突破

整个IDC形成一个多租户的大数据库,其全部的CPU、内存和存储构成三个独立的资源池。在资源池未耗尽的情况下,任何一个用户(租户)都可以任意的弹性扩展任何一种资源到任何一个规格,用户为其SQL动态消耗的CPU、内存和存储买单,不需要预置...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

批量或异步插入数据

本文介绍如何在云数据库ClickHouse中批量或异步插入数据。批量插入数据 默认情况下,每个发送到云数据库ClickHouse的插入操作都会导致云数据库ClickHouse立即在存储中创建一个包含插入的数据以及其他需要存储的元数据信息。因此,相比较...

创建Kudu数据

在 新建数据源 对话框的 大数据存储 区域,选择 Kudu。如果您最近使用过Kudu,也可以在 最近使用 区域选择Kudu。同时,您也可以在搜索框中,输入Kudu的关键词,快速筛选。在 新建Kudu数据源 对话框中,配置连接数据源参数。配置数据源的...

内存型

Sketches Bloom RedisBloom TairBloom兼容RedisBloom,支持动态扩容,同时通过64位的Hash算法降低Hash碰撞率,显著降低大数据的冲撞率。最佳实践:推荐系统、爬虫系统,更多信息请参见 Bloom。Cpc 无 TairCpc是基于CPC(Compressed ...

创建Hologres数据

在 新建数据源 对话框的 大数据存储 区域,选择 Hologres。如果您最近使用过Hologres,也可以在 最近使用 区域选择Hologres。同时,您也可以在搜索框中,输入Hologres的关键词,快速筛选。在 新建Hologres数据源 对话框中,配置连接数据源...

配置跨库Spark SQL节点

大数据量处理:支持快速处理较大规模的数据(十万条以上数据)。Spark SQL语法:基于Spark 3.1.2版本部署,提供该版本所有语法特性和原生函数。原生函数包括聚合函数、窗口函数、数组函数、Map函数、日期和时间处理函数、JSON处理函数等。...

冷热分离

背景信息 在海量大数据场景下,一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低,同时这部分历史数据体量非常大,比如订单数据或者监控数据,降低这部分数据的存储成本将会极大的节省企业的成本。因此,如何以极简的...

SelectDB数据

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47,驱动能力详情请参见 MySQL Connectors。...

离线同步并发和限流之间的关系

在一些数据同步场景,脏数据的出现会导致任务同步效率下降,以关系数据库写出为例,默认是执行batch批量写出模式,在遇到脏数据时会退化为单条写出模式(以找出batch批次数据具体哪一条是脏数据,保障正常数据正常写出),但单条写出效率会...

兼容性概述

商业智能(BI)分析工具可以将复杂的数据转换成图表、仪表盘等形式,以直观的方式展示分析结果,使您能够快速把握业务状态。BI分析工具连接MaxCompute,能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源,为您带来更高效的数据...

DataWorks On Hologres使用说明

类别 描述 相关文档 OpenAPI DataWorks开放平台的OpenAPI功能,为您提供开放API能力,通过开放API实现本地服务和DataWorks服务的交互,提升企业大数据处理效率,减少人工操作和运维工作,降低数据风险和企业成本。开放API(OpenAPI)开放...

公开数据集概述

TPC-H 10GB性能测试集 TPC-H 100GB性能测试集 TPC-H 1TB性能测试集 TPC-H 10TB性能测试集 tpch_10g tpch_100g tpch_1t tpch_10t TPCx-BB TPCx-BB Express Benchmark BB(TPCx-BB)是一个大数据基准测试,衡量基于Hadoop的大数据系统的性能...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。功能集 功能 功能描述 参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 数据传输服务 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用