常见问题

随着磁盘上的数据越来越多,合并所需要的计算资源也会越来越多,直到达到导入数据与合并数据的平衡,所以导入数据的速率会不断下降。如何升级ClickHouse版本?EMR ClickHouse版本因为与EMR版本绑定,所以如果需要升级ClickHouse版本,必须...

技术支持的范围和方式

阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

下线节点

解决方案:您可前往任务发布界面先 取消发布 当前任务,再去还原数据开发(DataStudio)的文件。报错:节点存在子节点,导致任务删除或下线失败 报错原因:为保障下游任务正常执行,DataWorks仅支持任务在开发环境和生产环境均无下游依赖的...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

自动化治理-物化视图

背 景信息 DataWorks大数据平台结合MaxCompute引擎能力,提供自动化数据治理解决方案,通过MaxCompute自动识别和分类相似数据,以及自动创建物化视图,提升计算效率,节约计算资源。该能力治理方案能体现引擎优化类特性,通过治理方案,将...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与各类大数据平台集成,完成数据的规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

应用场景

建立数据平台 得益于其开放式架构设计,EMR Serverless Spark极地简化并提升了在数据湖环境中对结构化和非结构化数据进行高效分析处理的能力。EMR Serverless Spark不仅集成了任务调度系统,使得您能够便捷地构建与管理数据ETL流程,轻松...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

任务冻结与解冻

冻结周期任务对补数据、测试操作产生的实例影响 补数据与测试操作都是根据当前的周期任务生成的实例快照,如果周期任务是冻结状态,那么生成的补数据实例和测试实例也会是冻结状态。冻结的实例解冻后如何重新运行?冻结的实例解冻后,会...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

常见问题

由于合并后的文件会压缩,如果您觉得合并后的文件太小,可以适当调参数 spark.sql.adaptive.advisoryOutputFileSizeInBytes 的值,默认值为256 MB。如何处理SparkSQL数据倾斜?针对Spark2,处理方式如下:读取表时过滤无关数据,例如null...

新建解决方案

将工作组中已沉淀的数据标准、数据模型、数据加工场景、数据服务API配置、云计算资源配置等数据资产,进行版本化的解决方案创建及实例化,便于完成数据治理工作环境的初始化、跨平台的资产发布及迁移。本文介绍如何通过全新创建和根据已有...

操作审计

详情请参考文档:数据保护伞数据脱敏管理:数据脱敏管理 MaxCompute表权限的权限审计 您可以进入安全中心,在数据访问控制,权限审计处,查看表都有谁有具体的什么权限,以及申请的权限有效期,并支持回收表权限。权限审计 表数据,节点...

JournalNode出现异常

本文介绍JournalNode出现异常的原因和解决方案。具体报错 JournalNode日志出现:org.apache.hadoop.hdfs.server.namenode.FSImage:Caught exception after scanning through 0 ops from/current/edits_inprogress_0000000000000191004 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

HMaster服务异常提示Cannot seek after EOF

本文介绍HBase出现HMaster服务异常的解决方案。具体报错 HBase 2.3.4版本的HMaster一直重启失败,错误日志如下所示。java.io.EOFException:Cannot seek after EOF at org.apache.hadoop.hdfs.DFSInputStream.seek(DFSInputStream.java:1447...

常见问题

如果不配置该参数,默认每100条刷新一次到HDFS,会导致数据刷新不及时。终止Flume进程时出现DeadLock报错,如何处理?问题现象:脚本调用exit方法终止Flume进程时,偶现DeadLock报错。解决方法:您可以使用命令 kill-9 强制退出。如何处理...

任务实例状态异常

过期任务不产生周期实例,请在数据开发调度配置界面修改生效时间。有周期任务,有周期实例但未运行 问题现象 有周期任务,有周期实例但未运行。产生原因 父节点未执行成功,导致下游未执行。解决措施 右键 灰色实例DAG 展开多层父节点,...

任务未运行

说明 若上游一直处于运行中的状态,您可以参考以下解决方案。非离线同步任务一直处于运行中的状态,如果需要查看具体原因 您可以单击 申请链接 或扫描下方二维码加入DataWorks钉钉交流群进行售前售后咨询,咨询可直接@智能机器人,值班时间...

任务运行成功没有数据

本文汇总介绍任务执行成功没有数据的相关问题。场景一:节点状态成功,有执行日志 场景二:节点状态成功,无执行日志 场景一:节点状态成功,有执行日志 节点运行完成说明节点里面的逻辑完成了,但是周期实例自动调度时,节点没有取到上游...

大数据用户画像解决方案

方案总览 作为面向大数据场景的半结构化、结构化存储系统,Lindorm可以很好的满足用户画像:没有强事务要求,大数据量、高并发读写场景这样的业务特征。其架构如下图所示:方案优势 1.低成本:集群内单表冷热分离能力、独有的压缩优化能力...

独享资源组

独享资源组使用场景 独享调度资源组使用场景 独享数据集成资源组使用场景 独享资源组网络配置 独享资源组访问VPC环境下数据的前提条件是什么?如何查看数据源的网络环境?添加独享资源组白名单 独享资源组商业化行为 如何对资源组进行续费...

StartDISyncInstance

调用StartDISyncInstance接口,启动实时同步任务和解决方案同步任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 ...

JindoSDK访问OSS出现NoSuchUpload问题

本文介绍JindoSDK访问OSS出现NoSuchUpload问题的原因和解决方案。问题详情[RequestId]:638xxxxxx[HostId]:oss-xxxx-internal.aliyuncs.com [ErrorMessage]:[E1010]...

YARN缺陷修复公告

本文为您介绍YARN-4946引入缺陷的影响范围以及相应的修复方案。背景信息 YARN-4946引入缺陷,YARN ResourceManager删除历史应用作业时增加了日志收集已完成的必要条件,但日志收集的状态没有保留到ResourceManager State Store中,所以重启...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

常见问题

本文为您介绍在运维中心设置了智能监控后,任务运行失败的常见报错及解决方案。没有收到任务运行失败的告警短信/邮件 问题现象:在运维中心设置了智能监控后,任务运行失败了却没有收到告警的短信或邮件。可能原因:出现上述问题通常是因为...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

数据未正常产出或任务未运行如何处理

问题现象 在数据地图查看数据时,发现当天数据未正常产出,或者在运维中心的周期实例发现任务节点状态为灰色的未运行状态,如下图所示。可能原因 未运行节点的上游节点未成功运行,上游节点实例可能被冻结,或还在等待运行。上游节点未成功...

E-MapReduce本地盘实例规模数据集测试

数据基准测试用于公平、客观评测不同数据产品/平台的功能和性能,对用户选择合适的大数据平台产品具有重要的参考价值,TPC-DS逐渐成为了业界公认的数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

Kyuubi概述

使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口,您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

上海新能源汽车车辆基础数据

客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品,有效解决了我们平台存储和计算的横向动态扩容瓶颈,同时借助其产品中间件LTS实现了我们平台数据的冷热分离,有效降低了数据存储成本,...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

数据管理DMS解决方案系列

为了更好地指导您使用数据管理DMS(Data Management),DMS推出解决方案系列文档,旨在通过最佳实践(Step by Step)的形式向您介绍DMS研发流程、数据安全、...研发流程解决方案 数据安全解决方案 数据开发解决方案 更多信息,请参见 概览。

公交出行:启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、表瓶颈以及复杂计算效率等数据库瓶颈问题,历经各届天猫双十一及阿里云各行业客户业务的考验,助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用