监控、诊断和故障排除

跟踪诊断 问题诊断 诊断性能 对于应用程序的性能判断多有主观因素,您需要根据具体的业务场景确定满足业务需求的基准线,来判定性能问题。另外,从客户端发起的请求,能引起性能问题的因素贯穿整个请求链路。例如OSS存储服务负载过大、...

构建运营模型

4.提高业务的稳定性和可靠性:基于云平台提供的监测和专业技术能力,可以协助企业提升故障响应速度,缩短故障诊断时间,提高业务的稳定性和可靠性。运营模型定义 分散式运营模型 应用,是一个可独立交付的对外提供服务的单元,是开发、部署...

阿里云电子政务云产品全家福

阿里云电子政务云平台提供弹性计算类、网络、数据库、存储、大数据、中间件、IoT等品类丰富的产品及高标准的安全合规服务,用以支撑多种政务类业务场景,例如:城市大脑,合规应用平台等。截至文档发布时间,阿里云电子政务云共计上线95款...

创建网站测速任务

通过云拨测,您可以全面了解在线业务网络状况、性能、用户体验,确保业务的稳定运行和用户体验。本文介绍如何创建云拨测网站测速任务。登录 ARMS控制台。在左侧导航栏中选择 云拨测>定时拨测,在 拨测任务 页面单击 新建任务。在创建拨测...

DDH常见问题

本文介绍DDH相关的常见问题及解决方案。DDH相关的常见问题及解决方案如下:什么是专有宿主机DDH?DDH有什么优势?在什么场景下需要购买DDH?DDH是裸机产品吗?DDH与弹性裸金属服务器有什么区别?怎么创建和释放DDH?怎么查看每台DDH上有...

功能特性

支持基于特定指标,定制实时的监测与告警,确保在关键业务发生异常时能够及时响应。日志分析 业务可视 支持通过自定义分组建立云资产的应用和应用组、业务区之间的关系。支持业务可视,帮助您全面了解云资产的信息和访问关系。自定义分组 ...

Redis客户端重连指南

引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

Tair客户端重连指南

引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云原生内存数据库Tair 支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到...

概述

及时发现网络问题 如果网络监控的实时监测未启用,则无法及时发现网络疏漏,带来潜在的业务风险。资源开启保护最佳实践 资源开启保护最佳实践用于检测ECS、RDS等云产品是否开启保护功能。资源开启保护最佳实践检查的功能如下表所示。功能 ...

GxP欧盟附录11标准合规包

本文为您介绍GxP欧盟附录11标准合规包的业务背景、应用场景,以及合规包中的默认规则。业务背景 GxP欧盟附录11(GxP EU Annex 11)是欧盟对于计算机化系统使用的规范性要求,主要针对在制药、生物技术和医疗器械领域中使用计算机化系统的...

Tair开发运维规范

云原生内存数据库Tair 拥有极强的性能,阿里云结合多年的运维经验,从业务部署、Key的设计、SDK、命令、运维管理等维度展示 Tair 开发运维规范,为您设计高效的业务系统提供参考,帮助您充分发挥Tair的能力。了解 Tair 性能边界 图 1.Tair ...

云数据库Redis开发运维规范

云数据库Redis拥有极强的性能,阿里云结合多年的运维经验,从业务部署、Key的设计、SDK、命令、运维管理等维度展示云数据库Redis开发运维规范,为您设计高效的业务系统提供参考,帮助您充分发挥Redis的能力。了解Redis性能边界 图 1.Redis...

新功能发布记录

添加网站 2020-11-05 DDoS高防(新BGP)、DDoS高防(国际)报警规则 DDoS高防报警规则支持监测更多的域名维度的指标(例如,QPS、异常状态码等),便于您监测已接入DDoS高防防护的网站业务的异常状态。设置DDoS高防报警规则 2020-10-27 ...

什么是云原生内存数据库Tair

集群架构单副本:每个分片服务器采用单副本模式,无高可用功能,适用于纯缓存类常见或者QPS压力较大的业务场景。说明 集群架构还支持两种连接模式:代理模式 可提供智能的连接管理,降低应用开发成本。直连模式 支持客户端绕过代理服务器...

资源使用优化

稳定运行的云原生业务 云原生化进行后,业务持续运行过程中需要根据业务的动态变化制定相应的成本治理策略,常见于以下场景:业务呈现较明显周期性波动,例如出现早九晚五是流量高峰期的现象。此场景推荐使用成本洞察功能观测规律,并采取...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

资源规划

按照业务需求和成本需求进行资源规划,并在即时供应和预置需求之间取得平衡以协调业务增长,资源故障、高可用性和预置时间。根据业务演进计划做资源规划 可预见的业务演进计划可以帮助我们做资源规划,预留资源,并反映到成本预估里面,...

故障发现

7*24监控值班 对于有条件的企业,可以设立全球运行指挥中心(Global Operations Center,简称GOC),实现7*24监控值班,时刻关注核心业务线上异常与故障。对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工...

什么是云拨测

在线业务监测:通过云拨测,您可以全面了解在线业务网络状况、性能、用户体验,确保业务的稳定运行和用户体验。无论是中小型企业还是大型跨国公司,云拨测都能提供主动式的在线业务监测手段。基本概念 名词 名词解释 IDC监测点 IDC...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

概述

在交通云控平台(下文以“云端”代指)完成对边缘计算终端的统一管控、配置升级、运行监测故障报警等功能。此处所言“边缘”是相对于云计算中心而言的边缘。边缘计算终端指部署在数据源头(您的设备所在地)周边,可进行设备数据处理的...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

什么是Quick Tracking

产品简介 全域采集与增长分析(Quick Tracking)...及卡顿、启动分析、内存分析、网络分析等性能监测能力,支持多场景、多通道智能告警监测,帮助开发者高效还原异常、卡顿用户的访问路径和业务现场,缩短故障排查时间。具体介绍见 性能体验介绍

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

产品优势

故障定位时,服务商和用户之间沟通时间长,且故障排查前,服务商需要先熟悉用户的云平台和应用平台,再排查故障,排查过程耗时长,导致业务长时间处于受损状态。服务流程可审计、可追溯,打造可信任的企业服务。操作过程难以记录和追溯,...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

迁移有潜在故障风险的DDH

您可以自主迁移有潜在故障风险的DDH到其他物理机,避免相关业务因DDH故障受到影响。前提条件 请先将DDH上的ECS实例全部停机,否则迁移会失败。警告 停止实例可能导致业务中断,建议您在非业务高峰期时执行该操作。操作步骤 重要 本地SSD型...

什么是数据库自治服务DAS

视频简介 数据库运维和管理的挑战 业务快速迭代,数据库故障频发 业务发布,产生了大量慢SQL。业务大促,容量预估不足。表结构或者索引设计错误。未经Review的SQL或者表被发布到线上。缺少数据支撑,问题排查靠猜 数据库的问题排查和性能...

融合认证功能

通过该服务,开发者无需开发用户界面、识别机器流量、频控、随机验证码生成或校验、用户运营看板等功能,即可实现常见业务流程。如果您想了解融合认证服务的功能,可以参考本文。融合认证服务当前已集成常见业务流程有号码认证、短信...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

GTM如何实现同城容灾

业务双中心,双在线,通过全局流量管理灵活调度各中心流量,支持业务AB发布,灰度发布。方案实施 前提条件 创建GTM实例,立即购买。说明 旗舰版发现故障和切换时间会更短,约1分钟左右;标准版约3分钟左右。如有高可用诉求的用户建议选择...

高可用版

图数据库GDB支持高可用...备库故障业务无影响,但会快速被检测到并触发备库自愈。可靠性 计算与存储分离,计算节点的故障不会造成数据丢失。基于超大规模的阿里云飞天分布式存储,保证数据多副本的可靠性。适用场景 企业级的生产图数据库。

多账号配置统一合规审计

本方案旨在给企业的各中心管理团队提供一种面向多账号配置的合规管理方案,从上而下地实施统一的合规基线并强制管理,可中心化地持续监测所有业务的合规状态。提升中心管理团队工作的可见性可控性,切实起到监管效力,规避潜在风险。方案...

设置宕机自动迁移

为了降低物理故障业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 云服务器 ECS 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用