故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

设计方案

故障恢复 定位故障原因,按照应急预案快速恢复业务,并在事进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

Windows实例公网网络异常

问题描述 登录Windows实例,发现网络异常,使用 ping 命令无法连接公网或者无法telnet RDP端口,使用 ping 命令连接内网网卡的网关提示“一般故障”。问题原因 Windows实例启用了Routing and Remote Access服务,只配置远程访问时会导致...

什么是高可用管理平台

高可用管理平台(High Availability Service,HAS)是基于蚂蚁多年技术风险防控理论和实践而衍生出的产品,是蚂蚁分布式架构 SOFAStack 的重要组成部分。高可用管理平台覆盖了应用运行风险事件事前、事中、事的全流程管理。事前:通过...

常见问题

code=exited”错误 启动SSH服务时出现“error while loading shared libraries”错误 ECS网络问题 Windows实例ping外网地址提示“一般故障”Linux系统的ECS中没有禁pingping不通的解决方法 使用ping命令测试ECS实例时ping不通的排查方法 ...

Windows实例通过外部访问网络不通的处理

更多信息,请参见 在ECS实例的Windows服务器PING外网提示一般故障处理方法。检查Windows实例是否有性能问题,如CPU资源占用高、内存耗尽、带宽占用满、网络动态端口耗尽。更多信息,请参见 Windows系统内存分析工具的介绍。检查Windows实例...

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版 自身不提供Binlog以及其他的一些限制,在业务设计、运维变更、数据质量以及业务开发时,会受到如下规范的约束,请您在实际使用中注意。概览 业务设计规范 数据库架构规范 运维变更规范 数据质量风险声明 业务开发的...

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版 自身不提供Binlog以及其他的一些限制,在业务设计、运维变更、数据质量以及业务开发时,会受到如下规范的约束,请您在实际使用中注意。概览 业务设计规范 数据库架构规范 运维变更规范 数据质量风险声明 业务开发的...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

什么是云网管

高效采集,分钟级故障定位发现。自定义采集方式和分析过程,兼容所有主流设备厂商监控指标支持。灵活配置解析规则,数据流实时分析和处理。可视化大盘和报表功能。为什么选择CMN云网管 云网管(CMN)致力于打造完整网络资源及其承载业务的...

DCDN产品运维最佳实践

您可以通过DCDN的实时日志功能,实时采集节点产生的日志,并投递到日志服务SLS进行存储和消费,以便快速监控和定位业务问题。详情请参见 什么是实时日志。操作步骤 开通日志服务SLS。开通全站加速DCDN。开启实时日志投递。方案示例 下面...

产品运维最佳实践

您可以通过DCDN的实时日志功能,实时采集节点产生的日志,并投递到日志服务SLS进行存储和消费,以便快速监控和定位业务问题。详情请参见 什么是实时日志。操作步骤 开通日志服务SLS。开通全站加速DCDN。开启实时日志投递。方案示例 下面...

无法ping通ECS实例公网IP的排查方法

相关文档 无法连接Linux实例的排查方法 无法远程连接Windows实例的排查方法 无法访问ECS实例中的服务的排查方法 Windows系统的ECS实例ping外网地址提示“一般故障”错误怎么办?为什么Windows系统的ECS实例配置辅助私网IP,无法从ECS实例...

功能特性

高可用管理平台 HAS 定位于 IT 技术风险防控。产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。风险管理 风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。风险事件 风险事件汇集:负责将...

产品优势

故障定位时,服务商和用户之间沟通时间长,且故障排查前,服务商需要先熟悉用户的云平台和应用平台,再排查故障,排查过程耗时长,导致业务长时间处于受损状态。服务流程可审计、可追溯,打造可信任的企业服务。操作过程难以记录和追溯,...

访问云虚拟主机中的网站速度较慢的排查方法

网站无法访问时,可参考以下故障诊断命令,定位故障点。使用 ping 命令检测IP或域名的连通性。如果出现ping丢包或ping不通的情况,请根据系统类型参见以下方案进行排查:Linux:Linux实例网站访问丢包延时高的排查方法 Windows:Windows...

高性能检索版介绍

高性能检索版简介 OpenSearch-高性能检索版 是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,在大数据场景下实现千亿数据毫秒级响应,提供订单、物流、保单等场景检索方案。OpenSearch-高性能检索版架构 ...

上下文查询

通过查看指定日志的上下文信息,您可以在业务故障排查中快速查找相关故障信息,方便定位问题。应用场景 例如,O2O外卖网站在服务器上的程序日志里会记录一次订单成交的轨迹:用户登录>浏览商品>选择物品>加入购物车>下单>订单支付>支付扣款...

性能测试技术指南

业务模型 分析 系统有很多业务,每种业务逻辑和业务量是不一样的,消耗系统的资源也不一样,因此业务种类、业务占比决定了系统的处理能力,业务模型在性能测试中起着关键性的作用。以电商场景为例,不同的促销形式和主推的类目决定了不同的...

行业算法版介绍

行业算法版简介 快速接入教程 OpenSearch-行业算法版 是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器...

本地验证转发配置生效

成功添加DDoS高防网站或端口配置,DDoS高防预期会把请求高防IP对应端口的报文转发到源站(真实服务器)的对应端口。为了保证业务的稳定,我们建议您在进行业务接入高防配置前先完成本地验证,确保转发配置已经生效。本文将指导您完成本地...

SOFAMesh 服务网格总体经济影响报告

该企业在使用服务网格,基础架构相关的故障从每年至少两起降为零起,节省了运维人员进行故障定位、修复的时间。同时,服务网格也提升了安全运维规则配置的效率,从一周 2 至 3 天的工作量降为 2 至 3 个小时。该项收益三年内为企业带来...

什么是业务逻辑

物联网应用开发(IoT Studio)提供了物联网业务逻辑的开发工具,支持通过编排服务节点的方式快速完成简单的物联网业务逻辑的设计。应用场景 设备联动 设备数据处理 设备与服务联动 API的生成 HTTP请求开头的API,由于阿里云网关限制,业务...

概览

您可以通过智能阈值检测基础资源ECS指标异常,辅助定位业务异常的根因。当您配置单指标或多指标报警规则时,往往将阈值水位设置较高而避免过多误报,且整体覆盖应用分组或全部资源,无法针对具体业务和实例调优。智能阈值报警规则可以更...

功能特性

物联网平台主要提供设备接入、设备管理、规则引擎等能力,为各类IoT场景和行业开发者赋能。实例管理 物联网平台提供公共实例和企业版实例,用于设备接入和业务管理。实例详细说明,请参见 实例概述。功能 说明 公共实例 开通物联网平台服务...

AIOps 解决方案专家服务内容说明

面对云上甚至多云的复杂业务系统,运维人员经常会遇到技术栈繁杂、配置告警耗时长、设置指标告警遗漏、告警风暴以及故障定位耗时等一系列运维问题,最终可能导致严重的资损。智能运维又称AIOps,即人工智能与运维相结合,可通过机器学习的...

ADP底座介绍

产品定位 定位说明:提供业务应用和中间件的托管以及统一的运维服务。ADP底座包含了两个部分:ADP容器底座:整个应用运行时的公共底座,是一个K8s为基础的容器云平台,他是应用自有组件和中间件的部署、运维的基础设施,为上层业务应用的...

查看周期实例

置成功:用于置成功当前业务流程,置成功后业务流程下的节点将显示为成功状态。查看实例详情 功能 描述 属性 您可以在此页签查看任务在生产环境的调度属性。界面参数详情请参见:调度配置。节点ID和实例ID的关系:对于小时或分钟调度的节点...

什么是应用实时监控服务ARMS?

应用实时监控服务(Application Real-Time Monitoring Service)作为一款云原生可观测产品平台,包含应用监控、前端监控、Prometheus监控、云拨测、Grafana服务、告警管理等一系列子产品。其覆盖浏览器、小程序、APP、分布式应用、容器等...

管理能力目录

BizWorks运营平台提供了树状结构的能力目录,以一种业务方能够理解的语义来组织中台能力,方便业务方查询,提升查询和定位效率,降低平台运营与业务方的沟通成本。本文为您介绍如何构建、迁移和删除能力目录。构建能力目录 登录BizWorks,...

基本概念

本文主要介绍使用物联网平台时需要了解的基本概念。实例 实例是物联网平台提供的产品、设备、规则等资源管理功能。名词 说明 企业版实例 购买的实例为企业版实例。部署于阿里云VPC网络的物联网平台。一个账号可购买多个企业版实例。公共...

设备接入引导

当您希望将设备接入阿里云物联网平台,实现设备集中管理、收集和数据分析、远程控制、保障设备数据安全等能力时,请根据本文的设备接入流程引导,选择设备使用协议并进行云端和设备端开发。前提条件 开通 物联网平台服务。说明 免费开通...

安装登录问题

本文梳理了 SASE App安装登录时的常见问题,如果您的业务中遇到相关问题可以参考解决。支持哪些操作系统?Windows、macOS、Linux操作系统均支持。具体信息,请参见 安装并登录SASE App。为什么安装 SASE App耗时很久?如果终端设备没有部署...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

可运维性咨询服务内容说明

乙方专家团队通过对甲方应用系统和云平台的调研,评估系统是否具备故障演练和逃逸能力,并基于阿里巴巴多年业务的真实线上故障库的积累,通过模拟调用延迟、服务不可用、机器资源满载等,真实检验应用的高可用能力,同时考察相关人员对问题...

什么是物模型

物模型是阿里云物联网平台为产品定义的数据模型,用于描述产品的功能。本文介绍物模型相关概念和使用限制。功能说明 物模型是物理空间中的实体(如传感器、车载装置、楼宇、工厂等)在云端的数字化表示,从属性、服务和事件三个维度,分别...

查看并管理手动实例

重要 目前DataWorks V1.0创建的手动任务运行生成的实例显示在 手动实例 选项下,DataWorks V2.0及以上版本创建的手动任务运行生成的实例显示在 手动业务流程 选项下。目前仅支持对周期实例运行状态设置监控报警,手动实例、补数据实例和...

使用API终止和恢复VBR来确认冗余物理专线

本文介绍本地IDC(Internet Data Center)通过冗余专线接入阿里云,您如何使用白屏化的OpenAPI工具调用API来完成专线故障演练。背景信息 当本地IDC通过冗余物理专线正常接入阿里云,您需要通过单条专线故障演练来确认冗余物理专线。您...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 物联网无线连接服务 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用