性能监控最佳实践

这些工具可以根据监控数据自动化地进行故障排除、性能优化等操作,提高系统的稳定性和性能。建设一体化性能监控平台需要根据监控需求选择合适的监控工具,进行配置和整合,实现数据可视化和自动化运维,以提高系统的稳定性和性能。从 0 到 ...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

什么是云工作流(CloudFlow)

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 云工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程状态管理 云...

什么是Serverless工作流

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 Serverless 工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程...

事件分析概述

链路追踪:提供事件轨迹能力,还原事件整体链路状态,帮助您快速排除故障,定位链路问题。低成本 事件总线EventBridge 支持事件以云服务事件总线和自定义事件总线形式接入,云服务事件总线支持接入所有阿里云产品事件,无缝支持云服务事件...

实时分析链路数据

如果异常请求分散在多台机器,那么大概率可以排除单机故障因素,可以重点分析下游依赖服务或程序逻辑是否异常。在 调用链分析 页面筛选错误调用或慢调用,并设置按IP进行分组统计,如果异常调用集中出现在特定机器,则有较大概率是机器故障...

质检规则配置

例如下图,命中正则表达式:买.*(ssd盘|普通盘),排除正则表达式:用不了|不能用|不生效,所以结合起来就是只匹配用户购买产品的场景,但是要排除故障报修的场景,示例语句:我想买一块ssd盘,应该怎么操作(可命中)/我前两天买了ssd盘...

错误码

常见 PolarDB-X 数据节点连接失败的原因如下:后端数据节点连接数已满 计算节点到数据节点的连接超时 数据节点拒绝连接 如果排除后端数据节点问题后仍然出现该错误,请联系技术支持。PXC-4103 ERR_ATOM_CONNECTION_POOL_FULL 描述:PolarDB...

产品优势

BGP 8线路独享带宽,千G光纤接入 阿里云机房与中国电信、中国联通等8家主流运营商对接网络。并能够自动选择最佳访问路径,保证您以及您的客户从不同地域、不同网络环境访问网站时拥有良好体验。运营商级机房设施 阿里云向客户提供基于云端...

故障排查

本文介绍您的本地IDC服务器和云上VPC的ECS无法连通时的故障排查方法。背景信息 故障排查步骤如下:排查路由问题。排查第3/4层(网络/传输)问题。排查第2层(数据链路)问题。排查第1层(物理)问题。排查路由问题 本地接入设备能ping通云...

附录:SOFAStack 产品目录

混合云场景 API 生命周期管理:云间网络互通的基础上提供 API 生命周期管理,避免所有 API 都对外暴露,提高安全性。高性能跨云 RPC 调用:支持跨云的场景下的 RPC 调用,使用方式同云内调用。超强安全保障能力:提供多种安全能力确保...

使用限制

1000 Base-LX以太网单模光模块 10 GBase-LR以太网单模光模块 40 GBase-LR以太网单模光模块 100 GBase-LR以太网单模光模块 必须禁用端口的自动协商功能,必须手动配置端口速度和双工模式。构建上云连接的所有设备(包括中间设备)均支持...

阿里云官方事件源

站加速事件 站加速事件类型包括阿里云平台对资源执行的操作事件、API调用和控制台的操作事件。PCDN事件 PCDN事件类型包括阿里云平台对资源执行的操作事件、API调用和控制台的操作事件。边缘节点服务ENS事件 边缘节点服务事件类型包括...

蓝牙Mesh设备扩展协议

Opcode Format 说明 0b0xxxxxxx(排除0b01111111)1字节Opcode。0b01111111 保留,用于将来扩展。0b10xxxxxx xxxxxxxx 2字节Opcode。0b11xxxxxx zzzzzzzz zzzzzzzz 3字节Opcode。操作码定义 智能生活平台蓝牙Mesh扩展消息Opcode定义如下表...

应用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入点建立专线连接,该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

常见问题-FAQ

故障恢复时间=故障发现时间+网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,网生效测试结果会发生变化。重要 标准版最快可在4分钟左右准确发现故障并切换...

FAQs

故障恢复时间=故障发现时间+网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,网生效测试结果会发生变化。重要 故障发现时间:GTM可保障故障发现时间,目前...

故障管理

通过建立一个规范可遵循、流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

网站被劫持问题概述

DNS解析一般都与DNS有关,如果有这类故障,请先排除本地绑定hosts的情况后,再收集出口DNS信息和被劫持的IP地址。如下所示,异常的DNS解析没有经过阿里云CNAME解析,即被劫持到2个IP地址。您可以通过使用阿里云的 HTTPDNS,防止被劫持。...

设备无法连接SSID

问题症状 无线终端连接SSID,显示未连接,无法关联SSID。解决方案 检查AP配置中的最大连接数,最大可设置为128.2.DHCP不在AP上要检查一下地址池的使用情况,检查可用地址是否够用。3.更换新的AP,排除是否是AP故障。适用于 云AP

什么是事件

支持将影响恶化的事件一键升级为故障,实现事件生命周期的在线化管理。核心功能 流转灵活、事件分级处理、生命周期动态记录。流转灵活:触发的事件支持处理人灵活的响应、转交、升级故障并完结处理故障;事件分级:事件支持根据其影响...

MSE注册配置中心高可用最佳实践

无容灾保护 当来自Consumer端的请求量突然增加时,如果Provider容量水位较高,会导致个别Provider发生故障:注册中心会将故障节点摘除,量流量会给剩余节点。剩余Provider节点负载变高,大概率也会发生故障。最终所有Provider节点故障,...

功能发布记录

故障处理联动能力补。9.新增故障协同处理、故障应急场景群创建和使用。10.新增事件协同处理-相似事件模块。11.事件和故障的消息卡片支持@关联人员。12.PC端移动应用开通模块支持展示钉应用(维蜜)的开通状态。13.PC端主RAM和子RAM账号...

目标规则(Destination Rule)CRD说明

consecutiveLocalOriginFailures UInt32Value 否 触发排除需要的连续本地故障数。默认为5。该字段仅在 splitExternalLocalOriginErrors 设置为true时生效。consecutiveGatewayErrors UInt32Value 否 将主机排除出连接池需要的网关错误数。...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

业务流量隔离功能实践

案例实践二:安全生产环境 业务需求 从历史故障分析,大部分故障是因为没有经过灰度直接量发布到生产环境所造成的。因此当前的需求是建设安全生产环境,通过安全生产环境的小流量灰度验证和观测,提前暴露问题和风险。具体需求内容包括:...

莉莉丝《剑与远征》:动态加速提升用户体验

零时延切换:阿里云站加速通过零时延的故障快速切换,确保在平台任意节点出现故障时游戏玩家的体验无感知,优先保证游戏玩家的体验正常运行,保证平台的稳定性。增强平台的兼容性和安全性:阿里云站加速立足于阿里云CDN基础设施,内部...

产品优势

多活容灾产品MSHA提供从流量接入到应用和数据库的故障切换能力,快速构建云上同城及跨地域的多活容灾架构,提升客户业务的连续性。与自建容灾架构对比,产品具备以下多种优势。大规模实践沉淀 多活容灾MSHA商业化上线于2019年,产品技术与...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

分布式链路概述

链追踪:能够深入应用、服务、数据库、消息,捕获性能异常,识别出现故障的组件及服务。易于使用:可以与 SOFAStack 上的应用进行无缝对接,用户的业务代码无需任何修改即可轻松接入,实现性能可视化与问题分析。扩展性强:遵循业界 ...

无法连接Windows实例

故障现象 无法ping通ECS实例,在排除Iptables和网卡IP配置问题且回滚系统后,仍然无法ping通。故障原因 可能是ECS实例安全组默认的公网规则被删除。解决方法 重新配置ECS实例的安全组公网规则,具体操作请参见 ECS实例安全组默认的公网规则...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

GTM如何实现同城容灾

在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云解析DNS,也可以使用全局流量管理...

GTM如何实现异地容灾

在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云解析DNS,也可以使用全局流量管理...

迁移实施

迁移方式 是 量迁移:迁移一次量数据,数据迁移完成后任务结束。如果之后源数据有变化,您可以再次提交量迁移任务,系统将仅迁移变化的数据。重要 量迁移在每次迁移开始前,对源地址和目的地址的文件进行对比。如果迁移同名文件,...

迁移实施

迁移方式 是 量迁移:根据 迁移起点时间 迁移一次指定 迁移起点时间 之后的量数据,数据迁移完成后任务结束。如果迁移完成后源数据有变化,您可以再次提交量迁移任务,系统将仅迁移变化的数据。增量迁移:按设定的 增量迁移间隔 和 ...

以太网接口频繁Up/Down

如果衰减过大请更换光纤,如果更换光纤仍不符合衰减要求,可缩短光纤的长度。用测试仪或物理环回方法检查链路两端是否故障。使用测试仪测试时,测试仪显示收发正常。物理环回方法是指将光纤的两端都连接到一个光模块上,链路两端正常则可以...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂度随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房不可用情况,如何保障系统稳定性具有很大...

什么是高可用管理平台

高可用管理平台覆盖了应用运行风险事件事前、事中、事后的流程管理。事前:通过应用巡检、故障诊断以及和监控平台的联动,实现应用运行风险的主动发现。事中:通过故障诊断、应急预案、容灾切换实现风险事件快速定位和恢复。事后:通过...
共有117条 < 1 2 3 4 ... 117 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 应用高可用服务 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用