运行服务大数据-运行服务大数据文档介绍内容-阿里云

大数据上云及巡检服务内容说明

本服务包含四项子服务，客户可以结合自身业务需求进行购买：大数据迁移方案设计服务（可选）大数据迁移方案实施基础服务（可选数据迁移、任务迁移两种子服务其中之一）大数据迁移方案实施增补服务（可选）服务注意事项如下：本SOW在一次...

作业运行常见问题

导致MaxCompute作业运行时长不达预期（作业运行慢）的原因通常可分为资源不足、作业问题、模式回退三种：资源不足对于使用包年包月计算资源的作业，可能由于总体作业运行数据量大、申请资源多、作业优先级低而导致该作业出现资源等待...

运行模式

MaxCompute Spark支持三种运行方式：Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似，您首先需要做以下准备工作：准备MaxCompute项目以及对应...

MapReduce作业提交

本文向您介绍如何使用Jar命令在MaxCompute客户端运行和提交MapReduce作业。MaxCompute客户端提供Jar命令用于运行MapReduce作业，举例如下。jar-conf \home\admin\myconf-resources a.txt,example.jar-classpath.\lib\example.jar:.\other_...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

使用Logview 2.0查看作业运行信息

每个Fuxi Task由一个或者多个Fuxi Instance组成，当用户的输入数据量变大时，MaxCompute会在每个Task启动更多的节点来处理数据，每个节点就是一个Fuxi Instance。例如，简单的MapReduce通常会产生两个Fuxi Task，一个是Map一个是Reduce，两...

准备工作

在MaxCompute上运行Mars服务，您需要准备相应的运行环境。MaxCompute支持如下两种运行环境：DataWorks DataWorks中的PyODPS 3节点，已经包含了PyODPS和Mars功能。您可以在新建的PyODPS 3节点里执行如下命令检查PyODPS和Mars版本，确保满足...

通过整库迁移配置集成任务

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务，包括MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。前提条件已完成所需迁移的数据源创建。整库迁移支持MySQL、...

使用本地客户端（odpscmd）连接

MaxCompute客户端直接在您的本地计算机上运行，提供了一个简单且高效的方式来执行命令和管理MaxCompute服务。本文为您介绍下载、安装、配置和运行客户端并提供客户端相关使用说明信息。前提条件在使用MaxCompute客户端前，请您确认已满足...

从RDS同步至MaxCompute

大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案。通过数据传输服务DTS（Data Transmission Service），您可以将 RDS MySQL 或RDS MySQL Serverless 的数据同步至MaxCompute，帮助您快速搭建数据实时...

运行失败

原因为单个实例处理的数据过大，或者Mapper或Reducer内部逻辑导致数据膨胀过大。可以通过指定-mapper_split_size 参数调低单个Mapper切分的数据大小来解决，单位为MB。FAILED:MaxCompute-0430071:Rejected by policy-rejected by system ...

SQL脚本模式

当您面对大数据集的ETL任务、自动化定期任务、复杂查询编排等场景时，可以使用MaxCompute当前SQL引擎支持的脚本模式（Script Mode SQL）。在脚本模式下，一个多语句的SQL脚本文件将被作为一个整体进行编译，无需对单个语句进行编译；提交...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

本地运行

本地运行和分布式环境运行差异在本地运行的过程中，仍然会启动多个Map及Reduce进程处理数据，但这些进程不是并发运行，而是依次串行运行。此外，这个本地模拟运行过程与真正的分布式运行有如下差别：输入表行数限制：目前最多只支持下载...

操作指南

一、大数据专家服务流程指南二、服务流程说明用户可以根据自己实际需要，提前或者在问题发生时购买大数据专家服务，服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、跨地域迁移支持服务、大数据专家高阶...

使用Logview查看作业运行信息

在每个Task中都可以看到如下输出：output records:R2_1_Stg1:199998999(min:22552459,max:177446540,avg:99999499)此处如果min和max值相差较大，不在一个数量级，说明在这一阶段出现了数据倾斜。例如在执行字段Join时，某个字段中有一个值...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

GetRunningJobs-获取运行态的作业列表

指定时间范围内，所有仍处于“运行中”的作业的运行态数据展示。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出。...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

快速入门

本文介绍大数据专家服务的购买方式。价格版本定价说明：点击查看价格。操作步骤第一步：进入阿里云官网，打开 大数据专家服务产品详情。第二步：点击大数据专家服务产品详情页中的“咨询购买”接入钉群与专家服务同学沟通场景需求。第三...

产品计费

本文介绍大数据专家服务计费方式与价格。计费方式计费项：按服务类型进行计费。计费方式：预付费。有效期：365 天（自然日）。说明请在服务购买后的365个自然日内使用您购买的服务，服务过期作废。所有服务均不支持自动退款，若服务未...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

MapReduce支持SQL运行时执行模式

MaxCompute新增支持将MapReduce作业指定为SQL运行时（Runtime）执行模式，基于SQL运行时，MapReduce作业可以应用SQL引擎的各种新特性，实现之前不支持的功能。本文为您介绍如何将MapReduce作业指定为SQL运行时执行模式。背景信息 ...

开发PyODPS 3任务

如果您的PyODPS任务需要访问特殊的网络环境（如VPC网络或IDC网络中的数据源或服务等），请使用独享调度资源组，并参考网络连通解决方案打通独享资源组与目标环境的网络连通。PyODPS语法及更多信息请参见 PyODPS文档。PyODPS节点分为...

在DataWorks运维中心查看作业运行信息

DataWorks运维中心展示离线同步、实时同步作业的运行状态分布、数据同步进度等数据集成信息，帮助您提升任务运维效率。当您在DataStudio中完成节点开发，并提交和发布至生产环境后，即可在运维中心查看作业运行详情、监控作业运行状态等...

运行指定操作

调用RunClusterServiceAction接口对集群的指定服务，运行指定的操作。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值 ...

管理控制台功能概览

管理控制台丰富多样的功能模块，可以帮助用户进行数据开发、数据集成和数据运维，以及监控和管理数据服务的运行状态和性能。功能页面简介您可在管理控制台页面查看以下信息。功能页面描述管理控制台概览页查看当前账号最近使用的工作...

MMA安装与配置

本文为您介绍MMA3.0运行前的环境准备、程序启动及停止命令以及MMA配置说明。环境准备其他环境要求根据不同的数据源会有所不同，具体请根据实际情况参见 Hive数据迁移或 MaxCompute数据迁移。安装Linux操作系统。安装JDK1.8及以上版本的...

使用日志服务收集Flink作业日志

本文为您介绍如何通过阿里云日志服务收集结束运行的Flink作业的日志。前提条件已在E-MapReduce on ACK控制台创建Flink集群，详情请参见快速入门。已开通阿里云日志服务SLS，详情请参见快速入门。操作步骤启用日志服务组件Logtail，详情...

什么是DataWorks

产品架构 DataWorks十多年沉淀数百项核心能力，通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力，帮助企业治理内部不断上涨的“数据悬河”，释放企业的数据生产力。...

大数据安全治理的难点

流转 大数据系统通常是端到端的一整套数据开发和治理服务，不仅要采集数据、加工数据，更要将数据提供给业务方使用。因此，其存在错综复杂的数据流转链路，包括但不限于即席查询链路、离线传输链路、实时传输链路、数据服务API链路、其他...

DataWorks数据服务对接DataV最佳实践

通过数据服务，您可以将MaxCompute中加工好的数据结果，直接在DataV中进行呈现，实现数据开发-数据服务-数据分析展现的全链路开发。在开发过程中，请注意以下事项：DataWorks数据服务向导模式生成API仅支持单表简单条件查询，脚本模式支持...

使用说明

本文为您介绍如何运行MaxCompute Graph作业。运行作业 MaxCompute客户端提供一个JAR命令用于运行MaxCompute Graph作业，其使用方式与 MapReduce 中的 JAR命令相同。使用语法如下。Usage:jar[][ARGS]-conf<configuration_file>Specify an ...

运行SQL命令并导出结果数据

本文介绍如何在MaxCompute客户端上运行SQL命令并通过Tunnel Download导出结果数据。前提条件已向MaxCompute的表中导入数据。更多导入数据操作，请参见导入数据。背景信息 MaxCompute客户端支持 DDL、DML、DQL 等操作，您可以结合相应语法...

跨阿里云账号迁移MongoDB实例

如果数据库业务量较大或服务器规格较低，可能会加重数据库压力，甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估，在业务低峰期执行数据迁移。单节点实例不支持使用DTS执行增量数据迁移，为保障数据一致性，全量数据迁移期间...

结果错误

本文为您介绍运行结果错误时对应的报错信息及解决方法。执行完成后结果表为空报错信息任务执行完成后，结果表为空。解决方法目前部分用户是通过直接在本地odpscmd或者DataWorks中执行任务，通过命令启动任务后，随即就对电脑进行锁屏，...

使用DTS将MongoDB Atlas数据库迁移至阿里云

本文介绍如何使用数据传输服务DTS（Data Transmission Service），将MongoDB Atlas数据库增量迁移至阿里云。DTS支持全量数据迁移和增量数据迁移，同时选择这两种迁移类型可以实现在不停服的情况下，平滑地完成MongoDB Atlas数据库的迁移。...

使用DTS迁移分片集群架构的自建MongoDB数据库上云

本文介绍如何使用数据传输服务DTS（Data Transmission Service），依次将本地MongoDB分片集群数据库中的各个Shard节点，迁移至阿里云MongoDB分片集群实例来实现迁移上云。通过DTS的增量迁移功能，可以实现在本地应用不停服的情况下，平滑...

使用DTS将华为云文档数据库迁移至阿里云

本文介绍如何使用数据传输服务DTS（Data Transmission Service），将华为云文档数据库迁移至阿里云MongoDB实例。DTS支持全量数据迁移及增量数据迁移，同时使用这两种迁移类型可以实现在本地应用不停服的情况下，平滑地完成数据库迁移。前提...

运行服务大数据

新品推荐