什么是云网管

观测平台(Observation Platform)基础设施运行状态维护和管理包含性能数据告警数据,实现对各类监控对象的异常数据判定,网络故障的发现、分析、定位等维护管理。高效采集,分钟级故障定位发现。自定义采集方式分析过程,兼容所有...

创建和管理流日志

流日志功能可以捕获VPC中弹性网卡ENI(Elastic Network Interface)传入传出的流量信息,您可以通过分析流日志捕获的流量信息检查VPC下的访问控制规则、排查网络故障以及监控异常流量。本文介绍如何创建和管理流日志。前提条件 在创建流...

什么是实时数仓Hologres

负载隔离 多个计算实例组成一主多从模式,实例间共享一份存储,计算资源隔离,实现写入读取隔离,查询服务隔离,实现故障管理,支持故障节点快速自动恢复。无需本地盘,盘古副本高可靠冗余存储。自运维能力 内置查询历史、元仓表等运...

异地应用双活切流

场景:故障>云间网络故障,会自动选中 切流组件。说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切0,主数据在备单元的也会自动选中,后续会切换单主单元。b.单击 下一步,...

产品模式

该平台集成了阿里云一系列底层产品能力(包括自动化的智能交付智能故障检测等),帮助服务商提升服务的交付效率、管理效率服务能力,提升用户满意度的同时降低运营成本。用户:计算巢服务为用户提供了统一管理多种应用服务的平台,提升...

弹性加速计算实例EAIS安全性说明

弹性加速计算实例EAIS的云上安全性,是阿里云在面对当前的网络安全形势和挑战时所采取的措施,以及提高用户在资源和网络访问控制、EAIS资源操作、故障隔离和风险检测方面的安全性所具备的能力。说明 通过在ECS实例(非GPU实例)上绑定...

演练场景说明

网络类场景 网络故障场景包含网络延迟、网络丢包篡改域名解析。网络故障是系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练...

应用故障自动诊断

网络问题 机房发生网络故障导致应用运行异常。查看故障自动诊断报告 登录 EDAS控制台。在左侧导航栏,单击 应用管理>应用列表,在顶部菜单栏选择地域并在页面上方选择 所属微服务空间,在 集群类型 下拉列表,选择 K8s集群,然后在页面单击...

基本概念

故障管理 网络故障的发现、分析、定位等维护管理包括告警信息的收集入库、规则匹配、关联分析以及告警清除等一系列流式处理过程。Netconf netconf协议一般用于网络业务配置,使用结构化可描述语言实现快速的网络设备下发。gRPC 高性能、...

PAI灵骏智算服务概述

降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。高性能集合通信库ACCL。PAI灵骏 支持高性能集合通信库ACCL(Alibaba Collective Communication Library),...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含故障发生、故障发现、故障通告、业务响应、初因定位、恢复执行故障恢复。节点记录PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

流日志概述

专有网络VPC(Virtual Private Cloud)提供流日志功能,可以记录VPC网络中弹性网卡ENI(Elastic Network Interface)传入传出的流量信息,帮助您检查访问控制规则、监控网络流量排查网络故障。功能发布及地域支持情况 首次使用流日志...

什么是云拨测

云拨测(Synthetics Monitor)通过部署在全球各地的监测点,模拟真实用户从全球不同地区不同网络条件访问在线服务,持续对网络质量、网站性能、文件传输等场景进行可用性监测性能监测。您可以通过可视化大盘查看监测数据,并对数据进行多...

Node演练场景

Kubernetes集群中Node资源故障场景,包含CPU、网络和进程等基础资源类演练场景。每个Node场景下都包含通用的Node筛选参数,用于查找目标Node。通用参数说明 参数名称 参数说明 节点名称 节点资源名,选择多个节点资源时资源名之间使用逗号...

基于ack-lingjun-aiast组件实现集群自动化运维

该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控恢复功能后,当发生故障或异常时,...

免费体验PolarDB MySQL热备无感秒切

整合了多项技术,来解决用户的痛点问题:故障探测:引入全新的高可用模块Voting Disk Service(简称VDS),该模块基于共享存储架构,实现自治的集群节点管理,大幅降低故障检测和集群选主耗时。切换速度:新增支持全局预热系统的热备节点,...

安全体系概述

流日志 专有网络VPC提供流日志功能,可以记录VPC网络中弹性网卡ENI(Elastic Network Interface)传入传出的流量信息,帮助您检查访问控制规则、监控网络流量排查网络故障。详细信息,请参见 流日志概述。流量镜像 VPC流量镜像功能可以...

服务管控治理

服务治理 服务治理包含服务限流、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑实时监控相关服务治理。服务限流 在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限流让请求并发在应用可...

概述

分布式系统将计算任务数据分布在多个节点上以实现更高的性能、可靠性可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

关于网络分析

APM 网络分析对客户端侧的网络请求情况进行检测、分析、诊断,帮助您快速查找排除网络故障,提升网络性能,增大网络可用性价值。在网络监控指标分析中,APM 针对不同网关类型,提供网络请求响应时长、网络请求错误率、请求次数等网络监控...

应用场景

GTS 可应用在多个领域,包括共享出行、微服务、消息以及混合事务。SOA 分布式事务 提供跨库、跨服务的分布式事务支持,实现业务链路级别的分布式事务。开发简单,只需要在客户端声明一个注解,用以界定事务边界。业务链路:为服务链调用...

ack-node-repairer

当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,可以将节点的异常,例如Docker Engine Hang、Linux Kernel Hang、网络...

概述

整合了多项技术,来解决用户的痛点问题:引入全新的高可用模块Voting Disk(简称VDS),该模块基于共享存储架构,实现自治的集群节点管理,大幅降低故障检测和集群选主耗时;新增支持全局预热系统的热备节点,通过对存储引擎内部的多个模块...

设计方案

系统可预见的稳定性风险包含软硬件故障和不可预期的流量,小到线程级风险,大到地域级灾难,从此出发可通过容灾、容错、容量三方面建立系统架构稳定性。容灾 容灾就是在灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统...

为什么选择安全沙箱?

安全沙箱特别适合于不可信应用隔离、故障隔离、性能隔离、多用户间负载隔离等场景,在提升安全性的同时,对性能影响非常小,并且具备与Docker容器一样的用户体验,例如日志、监控、弹性等。安全沙箱核心优势 对比Docker运行时,安全沙箱...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

企业云化IT治理服务工作说明书

实施服务按需购买)基础版 基础咨询服务:基于客户的需求进行方案设计,含资源管理、身份管理网络规划安全防护。包含基于以上方案的技术验证工作,确保设定的技术方案具备落地能力。包含以上内容与客户自建系统的对接技术方案,例如 ...

网络资源

网络资源是指用于节点之间通信数据传输的硬件软件资源,除了包括广域网、局域网、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

实例容灾

同一个地域中的可用区都被设计为相互之间网络延迟很小以及故障隔离的单元。RDS单可用区实例运行在同一个可用区中的两台物理服务器上,可用区内机柜、空调、电路、网络都有冗余。通过异步或半同步的数据复制方式高效的主备切换机制,RDS为...

新手指引

办公数据保护配置流程 办公数据保护包含三个功能,即敏感文件检测、设备外接管理和水印管理,您需要根据业务需求选择合适的保护方案。如果您对企业的数据管控非常严格,建议您同时开启三种保护方案。通过检测外发文件保障数据安全配置流程 ...

GTM如何实现异地容灾

相关概念 名词 概念 GTM 全局流量管理(Global Traffic Manager),简称GTM,支持智能解析、健康检查、故障隔离、故障切换,可帮助企业快速构建同城双中心、两地中心的容灾架构。智能解析 是指根据用户请求源地址(运营商、地域等),...

GTM如何实现同城容灾

相关概念 名词 概念 GTM 全局流量管理(Global Traffic Manager),简称GTM,支持智能解析、健康检查、故障隔离、故障切换,可帮助企业快速构建同城双中心、两地中心的容灾架构。智能解析 是指根据用户请求源地址(运营商、地域等),...

故障管理

故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别的目标服务...

基础设施安全

可用区间故障隔离 可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通。各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同...

容灾管理服务介绍

(图源:云速搭CADT官方解决方案中心-同城双AZ容灾架构)容灾检测 为应用创建容灾计划后,容灾管理服务将自动检测当前应用中支持容灾演练的资源不支持高可用的风险资源。支持容灾演练资源 风险资源 说明 风险资源不影响演练,但是建议...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

监控分析

日志的管理包括日志的收集,安全存储,分析告警的生成,针对日志管理,有以下准则:日志收集:需从云上的各种资源,服务,应用程序中收集日志,其次收集应尽可能是非侵入的;安全存储:保留期限应是灵活可配置的,需根据安全要求、合规...

操作指南

本文档是帮助用户对于人工辅助的各个模块功能进行详细的介绍操作,包括后台的功能模块前台的功能模块。准备工作 首先注册阿里云账号,并完善账号信息,具体操作,请参见 阿里云账号注册流程。根据账号密码登录控制台。步骤1:场景...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告改进措施,避免故障重复...
共有151条 < 1 2 3 4 ... 151 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 专有网络VPC 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用