如何使用大数据-如何使用大数据文档介绍内容-阿里云

Information Schema常见问题

问题类别常见问题 Information Schema使用通过数据源数据增量同步后，如何查看某一条数据具体被同步到MaxCompute中的时间？如何查看表的Information Schema？information_schema.tables中没有查到MaxCompute项目下所有的表，应该如何解决...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

MaxCompute SQL示例解析

为了避免数据量太大，此场景下建议您使用JOIN子句。SELECT d.*FROM dept d JOIN(SELECT DISTINCT deptno AS no FROM emp)e ON d.deptno=e.no;示例2：查询薪金比SMITH高的所有员工。此场景为MAPJOIN的典型场景。SELECT/*+MapJoin(a)*/e....

物联网数据处理分析架构参考

物联网平台设备数据上云后，涉及到的大数据链路开发治理以及产生的成本，都是企业需要面临的挑战。本文以一个企业案例介绍如何基于阿里云物联网平台的数据服务，搭建企业物联网大数据应用架构。背景信息随着物联网应用场景的深入，企业...

UDTF概述

在SQL语句中使用自定义函数时，如果计算的数据量过大并且存在倾斜，会导致作业占用的内存超出默认分配的内存。此时，您可以在Session级别设置 set odps.sql.udf.joiner.jvm.memory=xxxx;属性来解决此问题。更多自定义函数常见问题，请参见 ...

内存管理

compaction_max_memory_limit_percent 100 disable_storage_page_cache true 是否禁用BE存储层page缓存，和storage_page_cache_limit配合使用，在内存资源充足和有大数据量查询的场景中可以打开，能够加速查询性能。storage_page_cache_...

Hash Clustering

例如一个大数据任务，一共起了1111个Mapper，读取了427亿条记录，最后找符合条件记录26条，总共耗时1分48秒。同样的数据、同样的查询，使用Hash Clustering表来做，可以直接定位到单个Bucket，并利用Index只读取包含查询数据的Page，只用4...

公告

MaxCompute项目生命周期流程改造公告尊敬的MaxCompute用户：感谢您对云原生大数据计算服务MaxCompute的支持，MaxCompute从北京时间 2023年12月25日（周一）开始陆续对各个地域（Region）的项目生命周期进行改造升级，如果您使用MaxCompute...

创建概念模型：维度

数据集市使用限制维度的英文缩写在各数据域或数据集市下必须唯一。操作步骤进入维度建模。登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据建模，在下拉框中选择对应工作空间后单击进入数据建模。在数据建模页面的顶部...

CLONE TABLE

当您需要将一张表中的数据复制到另一个表中时，可以使用MaxCompute的 clone table 功能，可以提高数据迁移效率。本文为您介绍 clone table 的功能、使用限制、命令格式及使用示例。功能介绍支持高效地将源表中的数据复制到目标表中。将...

流式数据通道概述

MaxCompute流式数据通道服务提供了以流式的方式把数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式服务在API上极大简化了分布式服务的开发成本，同时解决了批量数据通道在高并发、高QPS（Queries-...

使用客户端（odpscmd）或Studio

MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载，本文为您概要介绍如何在对应的工具中...使用Tunnel SDK下载数据的使用案例请参见：简单下载示例多线程下载示例复杂数据类型上传下载示例

（邀测）MaxCompute Notebook使用说明

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。版本说明当前MaxCompute Notebook功能处于邀测阶段，每个租户最多可启动3个Notebook实例，每个...

SSB性能测试说明

数据盘：建议使用ESSD数据盘，具体数据容量根据需要测试的数据量大小决定。地域和VPC：建议确保ECS和StarRocks实例在相同地域，并使用相同的VPC网络进行连接。公网IP：须分配公网IP地址。更多关于创建ECS的操作，请参见实例创建方式介绍。...

Maxgraph数据源

DataWorks数据集成支持使用Maxgraph Writer导入MaxCompute表数据至Maxgraph，本文为您介绍DataWorks的Maxgraph数据写入能力。使用限制当前仅支持使用脚本模式将数据写入Maxgraph。当前主要应用场景为同步MaxCompute数据至Maxgraph。数据...

使用CLONE TABLE实现同地域MaxCompute跨项目数据迁移

支持分区表和非分区表，支持对聚簇表使用 clone table 命令复制表数据。目标表已存在时，一次性复制分区的数量上限为10000个。目标表不存在时，无分区数量限制，满足原子性。对同一个非分区表或分区表的同一个分区，执行 clone table 命令...

JindoTable MoveTo命令介绍

在数据迁移过程中，还使用了多种措施保护数据的完整性，确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用MoveTo命令。使用MoveTo命令注意集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

JindoTable MoveTo命令介绍

在数据迁移过程中，还使用了多种措施保护数据的完整性，确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用MoveTo命令。使用MoveTo命令注意集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

JindoTable MoveTo命令介绍

在数据迁移过程中，还使用了多种措施保护数据的完整性，确保数据安全。使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用MoveTo命令。使用MoveTo命令注意集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的...

ClickHouse SQL

如果仅创建了一个ClickHouse数据源，则默认使用该数据源进行开发操作。开发SQL代码在ClickHouse SQL节点的代码编辑区域编写要执行的ClickHouse SQL任务。示例运行的任务代码如下。CREATE DATABASE if not EXISTS ck_test;CREATE TABLE if ...

快速体验

DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力，可便捷地连接多种数据源、支持SQL查询，并提供电子表格等多样化的数据分析工具，以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

快速入门

0|1|0|1|0|17|17|0|+-+-+-+-+-+-+-+-+-+-+-+2 rows in set(0.16 sec)使用Catalog管理内部和外部数据 EMR-5.8.0及后续版本的StarRocks集群支持使用Catalog（数据目录）管理内部和外部数据。StarRocks 2.3及以上版本提供以下两种数据目录：...

VAR_SAMP

当您需要了解数据值的波动或分布情况时，MaxCompute支持使用VAR_SAMP函数计算指定数值列的样本方差，帮助您从数据中提取出更深层次的价值。此函数为MaxCompute 2.0扩展函数。注意事项升级到MaxCompute 2.0后，产品扩展了部分函数。如果您...

AnalyticDB for MySQL

如果仅创建了一个AnalyticDB for MySQL数据源，则默认使用该数据源进行开发操作。开发SQL代码在AnalyticDB for MySQL节点的代码编辑区域编写要执行的AnalyticDB for MySQL任务。示例运行的任务代码如下。show tables;步骤三：配置任务调度...

TABLESAMPLE采样

当表不是聚簇表时，col_name 与 rand()函数必须二选一，当使用 rand()函数时表示对输入的数据随机进行分桶。ON 语句中最多支持指定10个列。指定采样百分比采样。TABLESAMPLE(<n>PERCENT)其中 n 为采样百分比，取其中 n%的数据，即采样返回...

创建并使用AnalyticDB for PostgreSQL节点

说明仅支持使用连接串方式配置的数据源进行数据开发。已购买独享调度资源组。DataWorks仅支持使用独享调度资源组运行AnalyticDB for PostgreSQL任务。详情请参见新增和使用独享调度资源组。背景信息 AnalyticDB for PostgreSQL节点用于接...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...

DataHub数据源

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时，无需显式定义表的字段信息，...

Redis数据源

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

一键MaxCompute数据同步节点

DataWorks支持使用DataStudio一键同步MaxCompute数据至Hologres，您可使用该方式快速查询MaxCompute表数据。本文为您介绍如何创建并使用一键MaxCompute数据同步节点。背景信息使用一键同步MaxCompute数据至Hologres进行数据查询时，您需要...

Spark

Spark是一个通用的大数据计算引擎。本文为您介绍如何在Zeppelin中使用Spark。背景信息 Zeppelin支持Spark的4种主流语言，包括Scala、PySpark、R和SQL。Zeppelin中所有语言在同一个Spark Application里，即共享一个SparkContext和...

通过命令行方式连接Trino

例如，如果要查看Hive数据源中默认数据库中的 test 表的数据，您可以使用 select*from hive.default.test;命令。可选：执行 quit;可以退出Trino命令行。高安全集群通过SSH方式登录集群，详情请参见登录集群。执行如下命令，连接Trino命令...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

HBase数据源

本文介绍如何使用HBase数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING hbase OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建HBase表时，无需显式地定义表的字段信息，示例...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

Celeborn

Celeborn是一个处理中间数据的服务，能够提升大数据引擎的稳定性、灵活性和性能。本文为您介绍如何使用Celeborn服务。背景信息目前Shuffle方案的缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中存在大量...

如何使用大数据

新品推荐