PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

容灾演练断网方式说明

AHAS探针方式断网 AHAS探针断网方式是应用高可用服务中故障演练平台自带的探针断网方式。用户需要在ECS中安装探针,然后通过探针进行本地网络受控访问。探针断网方式支持Host以及Kubernetes模式,相比于安全组断网,可实现更加彻底的断网...

Android 5.X 手机证书过期的问题

故障描述 在客户端出现如下日志。com.android.org.bouncycastle.jce.exception.ExtCertPathValidatorException: Could not validate certificate: Certificate expired at Sat No v 06 20:00:00 GMT+08:00 2021 (compared to Wed Jan 12 10...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

Spark常见报错

本文汇总了 AnalyticDB for MySQL Spark作业常见的错误码、报错信息、报错原因和解决办法。您可以参考本文解决报错。报错概览 现象 错误码 报错信息 Spark访问JDBC数据源失败。JDBC_SOURCE_TABLE_NAME_DUPLICATE Both '$jdbcTableName' and...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的基因分析平台(简称“平台”)的服务可用性等级指标及补偿方案。1.定 义 1.1 服务周期:一个服务周期为一个自然月。1.2 服务周期总分钟数:服务周期内...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

什么是应用实时监控服务ARMS?

应用实时监控服务(Application Real-Time Monitoring Service)作为一款云原生可观测产品平台,包含应用监控、前端监控、Prometheus监控、云拨测、Grafana服务、告警管理等一系列子产品。其覆盖浏览器、小程序、APP、分布式应用、容器等...

常见问题-FAQ

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前...

FAQs

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

Coredump 分析能力

本文介绍 Node.js 性能平台的 Coredump 分析能力。概述 当我们的应用意外崩溃终止时,计算机会自动记录下进程 crash 掉那一刻的内存分配信息、program counter 以及堆栈指针等关键信息来生成 Coredump 文件,因此获取到 Coredump 文件后,...

演练原子操作

故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等信息。说明 仅已发布状态下的演练原子...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

智能边缘一体机产品介绍

边缘可靠性要求:能够为小区的业务系统提供故障发现、迁移、恢复的能力,提升可靠性;批量复制要求:能够将对接部署完成的业务系统(有多个子系统)批量复制到各个小区,缩短实施时间;远程运维要求:能够对各个小区内的业务系统进行持续的...

通信消息相关问题

本文介绍设备与物联网平台和物联网平台与服务器端的通信相关问题和解决方法。类目 问题 上下行消息 设备重复收到消息,如何去重?设备使用MQTT协议接入物联网平台后,接收不到通信数据,怎么办?物联网平台发送消息比较慢,存在超时情况,...

单个添加物模型

例如:将已定义的属性 电压 作为出参,则设备上报该故障事件时,将携带当前设备的电压值,用于进一步判断故障原因。当接入网关协议为OPC UA时,需设置参数索引,用于标记参数的顺序。说明 不能用以下系统保留参数作为输出参数的标识符:set...

混合云应用双活容灾最佳实践

业务容灾涉及的技术栈框架和云产品,需要统一管控、统一运维、统一切换,操作收敛在一站式管控平台,方便故障场景快速白屏化操作,自动化执行。实施周期短,改造成本低。业务存在多个产品线,依赖关系复杂、调用链路长,且处于高速发展频繁...

如何确认AP为正常工作

闪烁情况请见下表:闪烁间隔 原因 不亮 没通电 50ms 没有IP地址 200ms 到网关没通 1000ms 到公网不通 2000ms DNS有问题 4000ms 其它原因导致连不上云端 常亮 正常工作 查看云价签平台AP状态 激活状态 在线状态 如何处理 激活 在线 AP正常...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

什么是设备诊断

设备诊断是阿里云物联网平台针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。服务架构 服务优势 丰富的数据诊断指标 提供网络连接成功率、设备离线原因、云对接次数等丰富的...

云端运行日志

通过日志记录的消息内容、业务类型、操作类型和状态码等信息,可以了解设备状态、通信情况,并定位操作失败的原因,帮助您监控和管理设备,进行故障排查。本文介绍如何查看云端运行日志,以及相关错误码和排错方法。日志业务类型说明 上行...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

邮件推送服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.5.阿里云应严格遵守保密义务。3.2.6.阿里云有权根据您遵守邮件推送平台规则的情况,适时调整产品的相关功能限制;进行相关调整时...

故障诊断

抓取性能数据 功能,如下图所示:一般来说,如果涉及到内存泄漏的,可以抓取 堆快照,如果是 CPU 异常飙高的,可以抓取 CPU Profile 数据,下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

阿里云先知安全众测协议

11.3 不论在何种情况下,先知安全众测平台均不对由于Internet连接故障,电脑,通讯或其他系统的故障,电力故障,罢工,劳动争议,暴乱,起义,骚乱,生产力或生产资料不足,火灾,洪水,风暴,爆炸,不可抗力,战争,政府行为,国际、国内...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为会根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境会有比较大的差异。系统的监控和人员的应急响应在测试环境和...

配置算法实例

算法实例是根据算法模板创建的具体实例,可以根据您设置的检测参数结合算法模型,完成对相关数据中异常信息的检测及诊断,协助您更好地解读设备数据,监测设备运行状态,及时发现潜在故障。前提条件 已创建算法实例。具体操作,请参见 创建...

应用场景

当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

Node.js 性能平台服务条款

5.3 对于因电信系统或互联网网络故障、计算机故障或病毒、信息损坏或丢失、计算机系统问题或其它任何不可抗力原因而产生损失,阿里云不承担任何责任。6、隐私权政策 6.1 除本服务条款另有约定外,您及阿里云都应对因本服务而获得的对方的...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

混沌工程缓存实战系列-Redis

通过阿里云Chaos演练平台可以快速的配置以上的演练场景,并且结合平台提供的业务探活功能,可以快速实现整个故障演练的自动化评测。通过探针管理向Cart服务所在的机器安装演练探针。创建演练场景。本示例创建网络延迟的故障场景。登录 AHAS...

蓝牙Mesh模组软件规范

蓝牙Mesh广播包格式 未配网广播 Unprovisioned Device Beacon 蓝牙Mesh设备上电后如处于未配网状态,需要广播Unprovisioned Device Beacon,每次广播时长不小于120ms,广播间隔500ms,广播持续时间一般为10分钟,具体产品的广播启动方式和...

配置值转化

为了监测设备运行温度,防止设备故障,使用温度传感器将温度(temperature)数据上报到物联网平台,此时如果需要对温度范围划分等级(例如 normal、alarm、danger 等),根据不同等级来触发不同的后续操作,可以使用值转化节点,新增字段 ...
共有110条 < 1 2 3 4 ... 110 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 Node.js 性能平台 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用