Information Schema常见问题

问题类别 常见问题 Information Schema使用 通过数据数据增量同步后,如何查看某一条数据具体被同步到MaxCompute中的时间?如何查看表的Information Schema?information_schema.tables中没有查到MaxCompute项目下所有的表,应该如何解决...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区,动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件 准备DataWorks环境 开通MaxCompute。在DataWorks上完成创建业务流程,本例使用DataWorks简单模式。详情请参见 ...

MaxCompute SQL示例解析

为了避免数据量太,此场景下建议您使用JOIN子句。SELECT d.*FROM dept d JOIN(SELECT DISTINCT deptno AS no FROM emp)e ON d.deptno=e.no;示例2:查询薪金比SMITH高的所有员工。此场景为MAPJOIN的典型场景。SELECT/*+MapJoin(a)*/e....

物联网数据处理分析架构参考

物联网平台设备数据上云后,涉及到的大数据链路开发治理以及产生的成本,都是企业需要面临的挑战。本文以一个企业案例介绍如何基于阿里云物联网平台的数据服务,搭建企业物联网大数据应用架构。背景信息 随着物联网应用场景的深入,企业...

UDTF概述

在SQL语句中使用自定义函数时,如果计算的数据量过并且存在倾斜,会导致作业占用的内存超出默认分配的内存。此时,您可以在Session级别设置 set odps.sql.udf.joiner.jvm.memory=xxxx;属性来解决此问题。更多自定义函数常见问题,请参见 ...

内存管理

compaction_max_memory_limit_percent 100 disable_storage_page_cache true 是否禁用BE存储层page缓存,和storage_page_cache_limit配合使用,在内存资源充足和有大数据量查询的场景中可以打开,能够加速查询性能。storage_page_cache_...

Hash Clustering

例如一个大数据任务,一共起了1111个Mapper,读取了427亿条记录,最后找符合条件记录26条,总共耗时1分48秒。同样的数据、同样的查询,使用Hash Clustering表来做,可以直接定位到单个Bucket,并利用Index只读取包含查询数据的Page,只用4...

公告

MaxCompute项目生命周期流程改造公告 尊敬的MaxCompute用户:感谢您对云原生大数据计算服务MaxCompute的支持,MaxCompute从北京时间 2023年12月25日(周一)开始陆续对各个地域(Region)的项目生命周期进行改造升级,如果您使用MaxCompute...

创建概念模型:维度

数据集市 使用限制 维度的英文缩写在各数据域或数据集市下必须唯一。操作步骤 进入 维度建模。登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据建模,在下拉框中选择对应工作空间后单击 进入数据建模。在 数据建模 页面的顶部...

CLONE TABLE

当您需要将一张表中的数据复制到另一个表中时,可以使用MaxCompute的 clone table 功能,可以提高数据迁移效率。本文为您介绍 clone table 的功能、使用限制、命令格式及使用示例。功能介绍 支持高效地将源表中的数据复制到目标表中。将...

流式数据通道概述

MaxCompute流式数据通道服务提供了以流式的方式把数据写入MaxCompute的能力,使用与原批量数据通道服务不同的一套全新的API及后端服务。流式服务在API上极简化了分布式服务的开发成本,同时解决了批量数据通道在高并发、高QPS(Queries-...

使用客户端(odpscmd)或Studio

MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载,本文为您概要介绍如何在对应的工具中...使用Tunnel SDK下载数据的使用案例请参见:简单下载示例 多线程下载示例 复杂数据类型上传下载示例

(邀测)MaxCompute Notebook使用说明

支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。版本说明 当前MaxCompute Notebook功能处于邀测阶段,每个租户最多可启动3个Notebook实例,每个...

SSB性能测试说明

数据盘:建议使用ESSD数据盘,具体数据容量根据需要测试的数据量大小决定。地域和VPC:建议确保ECS和StarRocks实例在相同地域,并使用相同的VPC网络进行连接。公网IP:须分配公网IP地址。更多关于创建ECS的操作,请参见 实例创建方式介绍。...

Maxgraph数据

DataWorks数据集成支持使用Maxgraph Writer导入MaxCompute表数据至Maxgraph,本文为您介绍DataWorks的Maxgraph数据写入能力。使用限制 当前仅支持使用脚本模式将数据写入Maxgraph。当前主要应用场景为同步MaxCompute数据至Maxgraph。数据...

使用CLONE TABLE实现同地域MaxCompute跨项目数据迁移

支持分区表和非分区表,支持对聚簇表使用 clone table 命令复制表数据。目标表已存在时,一次性复制分区的数量上限为10000个。目标表不存在时,无分区数量限制,满足原子性。对同一个非分区表或分区表的同一个分区,执行 clone table 命令...

JindoTable MoveTo命令介绍

数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群,支持使用MoveTo命令。使用MoveTo命令 注意 集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

JindoTable MoveTo命令介绍

数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群,支持使用MoveTo命令。使用MoveTo命令 注意 集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

JindoTable MoveTo命令介绍

数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群,支持使用MoveTo命令。使用MoveTo命令 注意 集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

ClickHouse SQL

如果仅创建了一个ClickHouse数据源,则默认使用数据源进行开发操作。开发SQL代码 在ClickHouse SQL节点的代码编辑区域编写要执行的ClickHouse SQL任务。示例运行的任务代码如下。CREATE DATABASE if not EXISTS ck_test;CREATE TABLE if ...

快速体验

DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力,可便捷地连接多种数据源、支持SQL查询,并提供电子表格等多样化的数据分析工具,以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据...

Loghub数据

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

快速入门

0|1|0|1|0|17|17|0|+-+-+-+-+-+-+-+-+-+-+-+2 rows in set(0.16 sec)使用Catalog管理内部和外部数据 EMR-5.8.0及后续版本的StarRocks集群支持使用Catalog(数据目录)管理内部和外部数据。StarRocks 2.3及以上版本提供以下两种数据目录:...

VAR_SAMP

当您需要了解数据值的波动或分布情况时,MaxCompute支持使用VAR_SAMP函数计算指定数值列的样本方差,帮助您从数据中提取出更深层次的价值。此函数为MaxCompute 2.0扩展函数。注意事项 升级到MaxCompute 2.0后,产品扩展了部分函数。如果您...

AnalyticDB for MySQL

如果仅创建了一个AnalyticDB for MySQL数据源,则默认使用数据源进行开发操作。开发SQL代码 在AnalyticDB for MySQL节点的代码编辑区域编写要执行的AnalyticDB for MySQL任务。示例运行的任务代码如下。show tables;步骤三:配置任务调度...

TABLESAMPLE采样

当表不是聚簇表时,col_name 与 rand()函数必须二选一,当使用 rand()函数时表示对输入的数据随机进行分桶。ON 语句中最多支持指定10个列。指定采样百分比采样。TABLESAMPLE(<n>PERCENT)其中 n 为采样百分比,取其中 n%的数据,即采样返回...

创建并使用AnalyticDB for PostgreSQL节点

说明 仅支持使用连接串方式配置的数据源进行数据开发。已购买独享调度资源组。DataWorks仅支持使用独享调度资源组运行AnalyticDB for PostgreSQL任务。详情请参见 新增和使用独享调度资源组。背景信息 AnalyticDB for PostgreSQL节点用于接...

JDBC数据

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时,无需显式地定义表的字段信息,示例...

DataHub数据

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时,无需显式定义表的字段信息,...

Redis数据

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

一键MaxCompute数据同步节点

DataWorks支持使用DataStudio一键同步MaxCompute数据至Hologres,您可使用该方式快速查询MaxCompute表数据。本文为您介绍如何创建并使用一键MaxCompute数据同步节点。背景信息 使用一键同步MaxCompute数据至Hologres进行数据查询时,您需要...

Spark

Spark是一个通用的大数据计算引擎。本文为您介绍如何在Zeppelin中使用Spark。背景信息 Zeppelin支持Spark的4种主流语言,包括Scala、PySpark、R和SQL。Zeppelin中所有语言在同一个Spark Application里,即共享一个SparkContext和...

通过命令行方式连接Trino

例如,如果要查看Hive数据源中默认数据库中的 test 表的数据,您可以使用 select*from hive.default.test;命令。可选:执行 quit;可以退出Trino命令行。高安全集群 通过SSH方式登录集群,详情请参见 登录集群。执行如下命令,连接Trino命令...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

HBase数据

本文介绍如何使用HBase数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING hbase OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建HBase表时,无需显式地定义表的字段信息,示例...

Kyuubi概述

使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口,您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构,具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用:使用云数据库MongoDB作为大数据的云存储系统,随时进行数据提取分析,掌握行业动态。

Celeborn

Celeborn是一个处理中间数据的服务,能够提升大数据引擎的稳定性、灵活性和性能。本文为您介绍如何使用Celeborn服务。背景信息 目前Shuffle方案的缺点如下:Shuffle Write在大数据量场景下会溢出,导致写放大。Shuffle Read过程中存在大量...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 数据传输服务 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用