日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

MSE Nacos风险管理

Nacos引擎系统自带定时...关闭接收通知之后,您将不再收到通知提醒,但仍然建议您按照风险 建议 进行操作,以免集群发生故障。说明 为避免通知过多,影响您的使用体验,MSE Nacos风险管理仅开放部分高风险通知功能,具体请以控制台页面为准。

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

服务管控和治理

服务治理 服务治理包含服务限流、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑和实时监控相关服务治理。服务限流 在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限流让请求和并发在应用可...

业务连续性

借助边缘节点服务部署应用,可以让终端用户访问服务时延迟大幅降低,提升体验。但提升体验的同时,关注应用的连续性也是非常重要的。本文将介绍一些关键能力,帮助您构建高可用的边缘计算应用。责任共担 实现云上的业务连续不中断是阿里云...

密钥轮转概述

如果第一次执行(突发性)密钥轮转是在响应具体事件的情形下,并且发生在运行中的系统上,则发生故障的概率会被无限放大。对数据形成逻辑上的隔离 轮转加密密钥使得轮转前后产生的密文数据形成事实上的隔离效果。特定密钥的安全事件可以被...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

DATASOURCE:ECS:DedicatedHosts

无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...

组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

配置推送优化概述

当该Sidecar资源对应的工作负载无依赖关系的服务发生改变,或与该服务相关的资源发生改变(例如虚拟服务等),都不会引起控制平面向该Sidecar的配置推送,这将大幅度提升了控制面向数据面的配置推送效率。关于应用Sidecar资源后的配置推送...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

使用基于访问日志分析自动推荐的Sidecar资源

当该Sidecar资源对应的工作负载无依赖关系的服务发生改变,或与该服务相关的资源发生改变(例如虚拟服务等),都不会引起控制平面向该Sidecar的配置推送。注意事项 如果您在设置启用访问日志采集时,设置日志服务Project为 使用默认,ASM会...

服务等级协议

服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,按照如下方式计算:服务可用性=(1-服务周期内每5分钟错误率总数/服务周期内5分钟总个数)x100%(注:服务周期内5分钟总个数=12x24x...

公共状态码

底层依赖服务发生未知错误 500 Operation.Failure.ApiInvoke.DependedServerReturnError 内部服务调用异常,底层依赖服务返回错误 500 Operation.Failure.ApiInvoke.DependedServerConfigError 内部服务调用异常,底层依赖服务配置错误 401...

如何管理故障

变更所属服务:当故障处理过程中或事后复盘,发现故障影响的服务发生变化,在 故障详情 页更多操作里点击 变更服务 对影响服务进行变更;更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、...

HarmonyOS SDK快速入门

7 服务错误 服务故障。请 提工单 申请联系技术支持。8 数据被丢弃 一般是设备时间与服务器时间不同步导致,SDK会自动重新发送。9 与服务器时间不同步 设备时间与服务器时间不同步,SDK会自动修复该问题。10 SDK销毁时,缓存数据还没有发出 ...

什么是数据库自治服务DAS

解决方案 数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器 实例需处于 运行中 状态。操作场景 推荐您...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

服务协议

服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,从而计算得出服务可用性,即:(注:服务周期内5分钟总个数=12*24*该服务周期的天数)2.2 服务可用性承诺 服务类型 服务可用性 通用...

APM应用性能监控

通过阿里云托管的Elasticsearch应用性能监控APM(Application Performance Monitoring)服务,结合阿里云Elasticsearch,您可以搭建应用性能监控系统,实现系统的可观测性。本文介绍阿里云Elasticseasrch APM服务的概念、架构及功能,以及...

连接保持

PolarDB 新增支持连接保持功能,避免由于一些运维操作(如升级配置、主备切换或升级小版本等)或非运维操作故障(如节点所在服务器故障)导致的连接闪断或新建连接短暂失败的问题,进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

查看特征组信息

发生服务调用时,请求参数将该类特征的取值传递给模型预测引擎。PULL 型特征组 包含特征名称和具体的特征接口地址。当发生服务调用时,该类特征通过预先定义的特征接口,主动向模型预测引擎获取特征的取值。说明 特征组详情页的 特征列表...

基本概念

本主要介绍运维事件中心的基本概念。集成中心 名词概念 说明 监控源 监控源表示上游监控系统,包括阿里云监控系统、开源...更多请查看 什么是故障 服务中心 名词概念 说明 服务 服务是企业业务连续性管理的最小单元。更多请查看 什么是服务

UpdateMeshFeature-更新服务网格的功能配置

调用UpdateMeshFeature更新服务网格的功能配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求参数 名称 ...

专家成长计划技术培训课程

专家成长 计划 技术培训课程详情 课程类别 课程名称 标准课程天数 班级容量 内容简介&概要 课程形式 云计算技术基础 云计算服务基础综述 1天 30人 内容主要包括云计算概述、阿里云简介、阿里云的云平台架构、阿里云解决方案。通过专题的...

如何自定义服务发布端IP呢?

问题现象 服务发布过程中,有时候需要将服务发布在虚拟网卡,或者是一个跟本机相关联的非物理存在的IP(例如ECS的弹性IP)上。如果通过-Dhsf.server.ip 指定了该虚拟IP,启动服务的时候就会报错,导致服务发布失败。可能原因 因为发布过程...

云盒计算资源配置最佳实践

背景信息 云盒的硬件设计中,各类硬件设备的保障如下:网络设备:采用双机冗余双上连设计,确保云盒内网络的高连续性,且不存在单点故障。存储设备:可以 确保在两台存储服务器同时宕机的情况下,数据的安全可靠。计算设备:支持宕机迁移和...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 VPN网关 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用