监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

安装探针概述

接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、容器服务K8s版和普通Linux主机的资源。根据主机所处环境不同,提供不同的接入方式。说明 Linux主机只支持在公网地域接入,云服务ECS只支持在非公网地域接入。接入方式 ...

什么是全局流量管理?

产品概述 全局流量管理(Global Traffic Manager),简称GTM,它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建同城多活和异地...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据(例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况)以及相关故障预警信息,以便快速准确定位,迅速处理故障,避免因资源、网络问题或者外部操作原因造成不必要的...

什么是PolarDB MySQL企业版

数据多副本跨可用区部署,主节点故障后RTO<10s。GDN集群间数据延迟小于2秒,分钟级切换,支持异地多活容灾。全方位、多维度确保系统高可用。采用白名单、VPC网络、数据多副本存储等全方位的手段,对数据库数据访问、存储、管理等各个环节...

ECI Pod Annotation

设置Pod故障处理策略 k8s.aliyun.com/eci-custom-hosts "[{\"host\":\"example.com\",\"ip\":\"100.100.XX.XX\"},{\"host\":\"aliyundoc.com\",\"ip\":\"100.100.XX.XX\"}]"自定义设置Pod的hosts(即/etc/hosts)。自定义设置ECI Pod的...

为何Pod中仍存在已恢复故障的“僵尸进程”?

在K8s环境中,下发的故障已经被恢复了,但是Pod中仍存在该故障的“僵尸进程”。本文介绍该情况可能的原因以及解决方案。可能原因 这是因为容器中存在PID Namespace隔离。在容器中,故障演练进程的父进程是PID=1的进程,容器中的一号进程不...

什么是全局流量管理?

产品概述 全局流量管理(Global Traffic Manager),简称GTM,它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建同城多活和异地...

常见问题FAQ

云投屏产品FAQ问题 M21播放盒子常见问题 Q:遥控器无法控制屏幕 A:请尝试将遥控器与屏幕重新配对。操作步骤如下:拔掉盒子的电源,然后重新插上,盒子开机。在盒子开机后10分钟内,同时按住遥控器的“OK键”(中间大圆圈按键)和“返回键...

高可用能力

自动高可用模式下,PolarDB PostgreSQL版(兼容Oracle)通过对数据库内核、容器、主机等多维度状态检测,减少故障检测时间,降低故障误判概率,单点故障场景下RTO<30s。手动高可用模式下,PolarDB PostgreSQL版(兼容Oracle)检测机制、...

AIOps 解决方案专家服务内容说明

常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题等等。...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树...

混沌工程缓存实战系列-Redis

故障演练提供了类似K8s的探活功能,可以通过访问指定接口来判断业务是否可用。参数配置说明如下:参数 描述 示例值 failureThreshold 重试次数,重试几次失败后判断为校验失败。5 periodSeconds 探测时间间隔。2秒 successThreshold 连续...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

时间格式

M RFC822Z Monday,02-Jan-06 15:04:05 MST%A,%d-%b-%y%H:%M:%S RFC850 Mon,02 Jan 2006 15:04:05 MST%A,%d%b%Y%H:%M:%S RFC1123 2006-01-02T15:04:05Z07:00%Y-%m-%dT%H:%M:%S RFC3339 2006-01-02T15:04:05.999999999Z07:00%Y-%m-%dT%H:%M:...

Spark FAQ

常见问题 如何处理Spark作业报错:The VirtualCluster's name is invalid or the VirtualCluster's is not in running state?如何处理Spark作业报错:User%s do not have right permission[*]to resource[*]?如何处理Spark作业报错:No ...

时间解析

d-%b-%y%H:%M:%S RFC850 Mon,02 Jan 2006 15:04:05 MST%A,%d%b%Y%H:%M:%S RFC1123 2006-01-02T15:04:05Z07:00%Y-%m-%dT%H:%M:%S RFC3339 2006-01-02T15:04:05.999999999Z07:00%Y-%m-%dT%H:%M:%S RFC3339Nano 1637843406%s 自定义 ...

Persistent Buffer Pool

模拟异常退出时的场景,回放日志总大小为2093 MB情况如下:参数 日志回放耗时 故障恢复耗时 未使用PBP 598s 746s 使用PBP 68s 294s 耗时对比如图所示:性能前后对比。并不是Buffer Pool中所有的页都是可以复用的。例如:在重启前,某进程对...

Persistent Buffer Pool

模拟异常退出时的场景,回放日志总大小为2093 MB情况如下:参数 日志回放耗时 故障恢复耗时 未使用PBP 598s 746s 使用PBP 68s 294s 耗时对比如图所示:性能前后对比。并不是Buffer Pool中所有的页都是可以复用的。例如:在重启前,某进程对...

接入演练应用

重要 在已部署故障演练探针的机器上,修改JVM启动参数并重启,应用会自动识别并生效,无需重新部署故障演练探针。启动应用。登录 AHAS控制台,在左侧导航栏选择 故障演练>概览。在左侧导航栏单击 探针管理,然后单击右上角的 接入探针。在 ...

ZooKeeper的使用场景和MSE ZooKeeper的优势

节点故障自愈:依托于K8s的Liveness能力,在节点出现故障时,会自动恢复故障节点,及时地保障服务的可持续性。数据安全:MSE ZooKeeper专业版提供了快照的备份能力,在集群出现非预期的情况时,能够快速重建恢复集群中的数据,保障数据的...

存储资源

可能原因包含数据库服务进程异常退出、数据库节点宕机、数据库网络异常等,常见的容错策略如下:自动重启:当数据库实例异常终止或崩溃时,可以设置自动重启和恢复机制,自动重新启动数据库服务,并进行必要的数据恢复操作,以确保数据库的...

演练概述

故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练包括以下四个阶段:安装故障演练探针 对指定机器进行演练,需要在机器上面安装故障演练探针,探针的作用是下发故障...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

子查询解关联

SELECT s_acctbal,s_name,n_name,p_partkey,p_mfgr,s_address,s_phone,s_comment FROM(SELECT MIN(ps_supplycost)OVER(PARTITION BY ps_partkey)as win_min,ps_partkey,ps_supplycost,s_acctbal,n_name,s_name,s_address,s_phone,s_comment...

网络游戏:心动网络股份有限公司

同时在主实例发生故障的时候,系统能在短时间(30s~60s)内完成快速切换,确保在线业务能够在保证数据完整性的同时快速恢复以提供正常的服务。丰富的业务支持 PolarDB 能够100%兼容MySQL 5.6、MySQL 5.7和MySQL 8.0,完全兼容MySQL各种生态...

查看应用事件

更多信息 查看应用事件后,您可以根据具体的事件信息以及业务需求采取相应的操作,详情请参见以下相关文档:负载均衡概述 管理应用生命周期 日志管理 应用监控 常见问题 对于部署在EDAS的容器服务K8s集群或Serverless K8s集群中的应用,...

一键诊断

在数据库出现故障时,您可以利用一键诊断功能,快速诊断选定时间段内数据库性能情况,直观地查看数据库性能情况的全貌,快速定位异常原因。前提条件 实例为如下版本:RDS MySQL 8.0 高可用系列或集群系列 RDS MySQL 5.7 高可用系列或集群...

通过巡检工具问题排查

1.故障排查方法简介 1.1 使用内置工具(推荐)Trident底座内置了故障排查工具——Lzero巡检工具,该工具会对集群进行周期性的巡检,检测容器底座的健康状态,并在发现故障时给出修复建议。Lzero巡检工具的使用方法见第2章。1.2 使用K8s原生...

DescribeFailoverTestJobs-批量查询高速通道故障演练...

调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...

DescribeFailoverTestJobs-批量查询高速通道故障演练...

调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...

演练场景说明

K8s类场景 场景名称 特性 Node演练场景 Kubernetes集群中Node资源故障场景,目前包含基础资源中的CPU、网络和进程。每个Node场景下都包含通用的Node筛选参数,用于查找目标Node。Pod演练场景 Kubernetes集群中Pod资源故障场景,包含删除Pod...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

项目 AHAS CHAOS故障演练 ChaosBlade CPU演练 支持 支持 内存演练 支持 支持 网络演练 支持 支持 应用进程演练 支持 支持 K8s演练 支持 支持 阿里云云服务演练(ECS、Redis)支持 不支持 场景化——微服务强弱依赖演练 支持 不支持 场景化...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...

安装Serverless Devs工具及依赖

serverless-devs/s:3.0.1,s-home:/root/.s,linux-x64,node-v14.17.4 安装Docker 如果您需要通过Serverless Devs的FC组件进行构建、本地运行调试函数等操作,例如,执行 s build 或 s local 等相关命令,需要在您的开发环境内安装Docker。...

安装Serverless Devs和Docker

serverless-devs/s:2.0.83,linux-x64,node-v14.17.4 安装Docker 如果您需要通过Serverless Devs的FC组件进行构建、本地运行调试函数和端云联调等操作,例如,执行 s build、s local 或 s proxied 等相关命令,需要在您的开发环境内安装...

折线类常见问题

本文为用户提供当配置折线类组件时遇到的常见问题解答。如何配置多个系列?当数据里有 s 字段时,不同的 s 字段值为不同的系列(多条折线)。说明 配置项中的样式渲染默认按照数据的顺序。即如果第一个出场的数据是系列2,则该系列的数据将...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用身份服务 (IDaaS) 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用