挂载文件系统失败故障排查

通过控制台挂载文件系统失败可能有哪些原因?Linux挂载NFS协议文件系统失败自动检查脚本 Linux挂载NFS协议文件系统失败可能存在多种原因,您可以执行以下步骤通过自动检查脚本定位问题。登录挂载文件系统失败的Linux服务器。下载自动检查...

挂载访问FAQ

目前仅支持Linux操作系统挂载NFS文件系统,Windows操作系统挂载SMB文件系统、Windows操作系统挂载NFS文件系统及Linux操作系统挂载SMB文件系统场景,请您登录ECS实例执行命令挂载。更多信息,请参见 Windows系统挂载SMB文件系统、Windows...

错误码

SDK 集成相关 错误码 错误消息 错误说明 解决方案 DTX-000 dtx component scanner init error.SDK 启动失败,分布式事务不可用。DTX-001 Bean[%s]can not have@DtxTransaction and@TccBusinessAction both.同一个 bean 不能既有@...

PAI-TF任务参数介绍

当该参数设置为 true 时,worker节点出现故障时会被重新拉起,训练job不会因此而失败。true false false 否 jobName 您需要指定实验名称,用于在后期更好的分析历史所有该实验的性能指标。参数建议是一个有意义的字符串,避免为 test 之类...

服务熔断

您可以对应用开启服务熔断功能,使有故障的服务端及时返回错误,并释放系统资源,提高用户体验和系统性能。功能简介 您可以通过下述操作让故障处于可控范围:通过监控或者服务拓扑查看到某个服务延时较大、错误率较多后,进行服务治理。...

配置远程鉴权

URL鉴权参数 保留参数设置 用于控制用户请求URL中需要参与鉴权的参数。可以选择 保留所有参数、保留指定参数 和 删除所有URL参数。保留指定参数时,多个参数用竖线(|)分隔,例如:user|token。参数区分大小写,即key和KEY是两种不同的...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

创建同步任务

分布式处理能力 用于控制是否开启分布式模式来执行当前任务。开启:分布式执行模式可以将您的任务切片分散到多台执行节点上并发执行,进而做到同步速度随执行集群规模做水平扩展,突破单机执行瓶颈。未开启:配置的并发数据仅仅是单机上的...

EasyCkpt:AI大模型高性能状态保存恢复

在训练过程中,可能会遇到硬件故障系统问题、连接错误、以及其他未知的问题。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的。尽管可以通过做Checkpoint来保存和恢复进度,但Checkpoint本身的耗时与模型...

功能架构

作为一个企业级产品,系统提供资源租户隔离、访问鉴权控制和监控配置模板等企业级特性。并且提供数据高可用、服务高可靠、双机房容灾部署等平台特性。基于系统丰富数据和强大功能,可以支撑容灾巡检、故障重放、弹性扩缩、微服务治理和全...

接入ARMS监控

故障演练时通过接入应用实时监控服务ARMS(Application Real-Time Monitoring Service)可以对演练过程的指标进行监控,包含JVM内存、JVM线程数、JVMGC相关、网络出入口流量、磁盘、CPU等指标。本文介绍如何在故障演练中接入ARMS并监控演练...

概述

若需要开启事务保持功能,您需要在控制台的 参数配置 页面将 loose_innodb_trx_resume 参数值设置为 ON。设置参数值详情请参见 设置集群参数和节点参数。技术原理 PolarDB 热备切换功能的核心技术如下:全新的高可用系统VDS 热备功能开启后...

接入问题

无可用机器(no worker available)问题现象:无可用机器,系统提示no worker available。可能原因:可能为配置错误。解决方案:登录Worker查看SchedulerX的日志,日志路径为/${user.home}/logs/schedulerx/worker.log。如果是admin账号...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...

接入问题

无可用机器(no worker available)问题现象:无可用机器,系统提示no worker available。可能原因:可能为配置错误。解决方案:登录Worker查看SchedulerX的日志,日志路径为/${user.home}/logs/schedulerx/worker.log。如果是admin账号...

快速开始

如果控制台和系统参数 max_parallel_degree 均有设置,则以控制参数配置为准,故建议使用控制台开启并行查询。关闭并行查询 在控制台基本信息的集群地址区域,单击 编辑配置,打开 编辑地址配置 页面,可关闭并行查询,具体操作请参见 ...

ossimport概述

运行环境 ossimport可以部署在Linux或Windows系统上,要求如下:Windows7及以上版本 CentOS 6或者CentOS 7 Java 7或者Java 8 重要 分布式部署暂时不支持Windows系统。部署方式选择 ossimport有单机模式和分布式模式两种部署方式。单机模式...

SanityCheck:算力健康检测

功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新提交任务。该过程中会导致GPU资源的浪费。在任务运行...

任务常见问题

单击运行一次后,系统提示输入实例参数,如何处理?在 任务管理 页面的操作列,单击运行一次,可以执行一次该调度任务。弹框中的 实例参数 非必填,主要用于测试。单击运行一次并输入实例参数,那么代码中获取的是实例参数还是任务参数?...

任务常见问题

单击运行一次后,系统提示输入实例参数,如何处理?在 任务管理 页面的操作列,单击运行一次,可以执行一次该调度任务。弹框中的 实例参数 非必填,主要用于测试。单击运行一次并输入实例参数,那么代码中获取的是实例参数还是任务参数?...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

PolarDB PostgreSQL版:ePQ架构详解

执行流程如下所示:在传统的mpp执行引擎中,数据被打散到不同的节点上,不同节点上的数据可能具有不同的分布属性,例如哈希分布、随机分布、复制分布等。传统的mpp执行引擎会针对不同表的数据分布特点,在执行计划中插入算子来保证上层算子...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

使用组复制

组复制MySQL Group Replication(简称 MGR)是MySQL官方在已有的Binlog复制框架之上,基于Paxos协议实现的一种分布式复制形态,能够保障RPO=0。RDS MySQL集群系列实例支持组复制。本文介绍如何使复制方式为组复制。背景信息 使用了组复制的...

数据倾斜诊断

智能诊断数据倾斜功能在系统后台以库为维度进行诊断,但不包括系统库(postgres、template0、template1、adbpgadmin和aurora 5个系统库),建议您将业务数据放在新建库中,不要将数据放在上述5个系统库中,否则无法诊断数据。智能诊断数据...

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版 自身不提供Binlog以及其他的一些限制,在业务设计、运维变更、数据质量以及业务开发时,会受到如下规范的约束,请您在实际使用中注意。概览 业务设计规范 数据库架构规范 运维变更规范 数据质量风险声明 业务开发的...

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版 自身不提供Binlog以及其他的一些限制,在业务设计、运维变更、数据质量以及业务开发时,会受到如下规范的约束,请您在实际使用中注意。概览 业务设计规范 数据库架构规范 运维变更规范 数据质量风险声明 业务开发的...

事件中心

事件模型 事件中心的一个事件主要由以下参数来定义:参数 是否必须 描述 source 是 事件来源 type 是 事件类型 level 是 事件等级 time 是 事件发生时间 data 是 事件体(一般为JSON格式)PID 否 Pod ID IP 否 IP地址 ClusterId 否 集群ID ...

历史功能发布记录(2021年)

2021年12月 功能名称 功能描述 发布地域 相关文档 分布式云容器平台 ACK One 上线 分布式云容器平台 ACK One(Alibaba Cloud Distributed Cloud Container Platform)是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级云...

本地盘最佳实践

通过ECS控制台创建新实例后,在控制台将私有IP修改成和源实例一致;或者,通过API创建实例,直接指定内网IP,同时必须指定和源实例相同网段的VPC与vSwitch。建议选择 内网传输 的网络模式,并启用块复制,最大化提高迁移备份效率。建议开启...

K8s应用运维管理最佳实践

重要 禁止从负载均衡控制台直接修改SLB实例的监听配置(含监听+证书),可能导致SLB控制台修改的配置回退,引发应用入口相关的故障。请勿配置私网SLB进行集群内部服务的访问。Pod实例之间无法直接访问私网SLB地址,私网SLB只是用来提供VPC...

申请公测

终端访问控制系统UEM(Unified Endpoint Management)正在公测中。本文为您介绍公测申请方法。公测介绍 通过公测申请的每个阿里云账号可以免费试用UEM服务。免费试用版可支持授权最多100个用户。开通免费试用后,您可使用的产品规格以 购买...

计费模式

终端访问控制系统提供软件和智能硬件设备服务,为您企业的员工提供随时、随地、高效、安全的办公体验。终端访问控制系统软件产品使用包年包月的计费模式,智能硬件设备使用一次性购买收费的计费模式。终端访问控制系统软件服务计费说明 ...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

公测协议

终端访问控制系统的公测协议详情请参见 公测协议。icmsDocProps={'productMethod':'created','language':'zh-CN',};

产品创建及初始化

在使用终端访问控制系统管理企业员工的终端设备前,您必须先完成产品创建和初始化操作。本文介绍初始化操作配置账号体系和配置客户端使用协议的操作步骤。前提条件 在进行UEM产品创建和初始化前,您需要购买UEM实例,具体的购买方法请参见 ...

功能更新记录

通过可视化演练,您可以从可视化的系统架构来观察演练的爆炸半径,从而降低了您配置参数控制爆炸半径的成本。更多信息,请参见 什么是可视化演练。企业包 全部地域 2021-09-15 资源包规格调整 取消入门包,保留专业包和企业包,并调整...

公测说明

终端访问控制系统UEM(Unified Endpoint Management)产品公测中,您可以在产品详情页单击 申请公测,填写并提交申请单申请使用UEM。收到申请3个工作日内,我们会完成审核工作并与您联系确认具体需求。如有疑问,请拨打咨询电话:95187转1...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 云安全中心 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用