发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

配置网络

如果您的服务中已经设置允许函数访问VPC,却无法成功接入VPC,可能原因如下。交换机所在的子网故障或子网中的IP地址已用尽,您可以在配置VPC时提供两个或者多个交换机ID,如果一个可用区出现故障,您的函数可以在其他可用区运行,提高容错...

人脸特征算法上云

IoT门禁服务向设备下发人脸权限时默认使用图片的方式,核心原因是为了更好的兼容性,下发图片后由端侧设备计算人脸特征值。之所以采用这种方式,是因为云、端算法不容易统一。直接下发图片的方式由于需要多次网络交互和本地计算,部署性能...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

IIS常见问题排查

403报错原因及解决方法 示例如下图:问题原因:禁止访问:访问被拒绝。您无权使用所提供的凭据查看此目录或页面。解决方法:一般都是由于访问网站跟路径下没有所需访问默认文件或者是默认文件被删除,文件丢失都有可能。可以先在IIS默认...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

通过SSH客户端登录Linux实例时提示“Permission ...

问题原因 导致该问题可能有以下原因:ECS实例内禁用root用户登录:SSH服务对应配置文件/etc/ssh/sshd_config 中的参数 PermitRootLogin 或 PasswordAuthentication 被设置为 no。您可以参考 禁止root用户登录引起问题的解决方法 解决。...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

常见问题

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM旗舰版最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。重要 标准版最快可在3分钟左右准确发现故障并切换:故障发现时间:健康检查间隔...

欠费说明

本文介绍日志服务欠费原因、欠费停服说明和查看欠费等信息。欠费原因 日志服务产生欠费的原因如下:重要 当按写入数据量计费和按使用功能计费两种模式中的其中之一存在欠费情况,则日志服务整体处于欠费状态。已购买资源包后仍产生欠费的 ...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

API概览

UpdateProblemEffectionService 更新故障影响服务 GetProblem 查询故障详情 ListProblems 查询故障列表 ListProblemTimeLines 查询故障时间线列表 GenerateProblemPictureLink 获取故障图片链接 GenerateProblemPictureUploadSign 故障图片...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

Windows实例公网网络异常

问题原因 Windows实例启用了Routing and Remote Access服务,只配置远程访问时会导致公网无法直接访问该实例,但是公网可以使用VPN服务,Windows实例无法访问外网。解决方案 说明 如果您对实例或数据有修改、变更等风险操作,务必注意实例...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

申请部署链接权限

服务商未给您开通部署链接权限时,您需要先申请部署链接权限,再部署服务实例。...当申请状态为 已拒绝 时,您可以将光标移动到已拒绝后的,查看拒绝原因。当申请状态为 已通过 时,您可以单击该服务链接查看其详情并进行部署。

如何配置流转规则

选择 触发故障 需要配置故障影响服务故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

CreateKeyVersion

为密钥创建新的密钥版本。...请求被拒绝原因是密钥状态为不可用。409 Rejected.PendingDeletion The request was rejected because the key state is PendingDeletion.请求被拒绝原因是密钥状态为待删除。访问 错误中心 查看更多错误码。

设置Fallback服务

当路由的目标服务出现故障时,通过设置Fallback服务可以将流量降级到指定的容灾服务,保障业务的高可用性。前提条件 添加服务。创建云原生网关。使用限制 Fallback服务功能仅适用于网关版本为1.2.5及以上。Fallback服务工作原理 如图所示,...

常见问题旧版索引

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

GTM实现分运营商线路解析与故障切换

应用场景 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求来源的运营商,返回对应运营商网络内的应用服务器IP地址,实现就近接入、访问加速。...

CreateKeyVersion

为密钥创建新的密钥版本。...请求被拒绝原因是密钥状态为不可用。409 Rejected.PendingDeletion The request was rejected because the key state is PendingDeletion.请求被拒绝原因是密钥状态为待删除。访问 错误中心 查看更多错误码。

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

运维事件中心的审计事件

运维事件中心已与操作审计服务集成,您可以在操作审计中查询用户操作运维事件中心产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录了用户...

Decrypt

解密CiphertextBlob中的密文。...请求被拒绝原因是密钥状态为待删除。409 Rejected.Unavailable The request was rejected because the key state is Unavailable.请求被拒绝原因是密钥状态为不可用。访问 错误中心 查看更多错误码。

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

什么是全局流量管理?

产品概述 全局流量管理(Global Traffic Manager),简称GTM,它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建同城多活和异地...

托管节点池概述

故障修复 手动触发。自动检测并触发故障修复。支持配置是否允许重启节点来修复故障。操作系统(OS)CVE修复 由您手动触发操作系统CVE修复。支持自动触发操作系统CVE漏洞修复,包括高危、中危和低危漏洞。kubelet小版本升级 由您手动触发...

什么是全局流量管理?

产品概述 全局流量管理(Global Traffic Manager),简称GTM,它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建同城多活和异地...

容灾预案

1.创建容灾预案 指用户创建一个容灾预案,可用于日常做容灾演练,或在应用服务出现故障时实现快速切换流量。2.容灾预案名称 指用户可以为创建的容灾预案输入一个易识别的名称,例如“故障演练测试”3.容灾预案备注 您可以根据创建的容灾...

如何管理故障

新增影响服务故障处理过程,可以新增、变更故障所影响的服务,确保相关信息准确;新增时间线:时间线是指故障从触发到恢复并完成复盘的全路径;新增故障改进措施:故障复盘过程中,对当前故障进行总结复盘,设定故障的改进措施,避免类似...

网络游戏:心动网络股份有限公司

PolarDB 采用存储和计算分离的架构,提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费的数据备份容灾服务,既融合了商业数据库稳定可靠、高性能、可扩展的特征,又具有开源云数据库简单开放、自我迭代的优势。本文介绍心动...

强弱依赖治理最佳实践

本文以对一个部署在Kubernetes上的微服务应用进行强弱依赖治理为例,介绍通过场景化演练来发现依赖问题、暴露风险的整个过程。背景信息 关于强弱依赖治理的更多信息,请参见 强弱依赖治理概述 和 应用强弱依赖治理。示例说明 本文示例的...

GTM如何实现主备容灾

应用场景 若您的应用服务部署在两个数据中心,例如A和B,每个数据中心通过一个公网IP作为流量入口。您希望在数据中心正常的时候全部访问数据中心A,当A发生故障的时候,系统可以及时发现并自动切换至数据中心B。前提条件 域名 cloud-...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 商标服务 物联网无线连接服务 云服务器 ECS 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用