接入ARMS应用监控

ARMS应用监控支持的JDK版本如下:JDK 1.7.0+JDK 1.8.0_25+说明 如果JDK版本为1.8.0_25或者1.8.0_31,可能会出现无法安装探针的情况。如果出现该情况,请升级JDK版本至1.8.0_191及以上版本。JDK 11.0.8+说明 JDK 1.8及以下版本和JDK 11版本...

无法连接Linux实例的排查方法

具体操作,请参见 使用ping命令测试ECS实例的IP地址间歇性丢包 系统内核没有禁ping的情况下,使用ping命令测试ECS服务器,发现网络不通,可能是服务器系统内部防火墙对客户端进行了drop策略。具体操作,请参见 Linux系统的ECS中没有禁ping...

节点池部署集最佳实践

但当一台物理机出现问题时,影响到应用的所有副本。为了解决这个问题,ECS提供了部署集功能。部署集内的所有ECS实例在指定地域内严格分散在不同的物理服务器上,满足服务相互隔离的应用架构,大幅降低服务不可用的几率。关于部署集的更...

什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC_CPU_BINDING_ENABLE=1 如果程序本身存在问题,例如负载不均衡导致性能波动,开启CPU-Affinity功能后可能会出现性能损失,所以该特性作为优化选项进行使用。Bucket-Tuning:ACSpeed默认开启Bucket-Tuning,可以对梯度的融合进行自适应...

基本概念

可观测 网格拓扑、SLO 安全 OIDC、JWT Istio Istio是一个开源的服务网格,提供连接、保护、控制以及观测功能,通过提供完整的非侵入式的微服务治理解决方案,可以解决云原生服务的管理、网络连接以及安全管理等服务网络治理问题。...

概览

应用场景 在不同业务场景下,云资源实例的监控指标的数值水位、周期变化、方差波动等统计特点呈现不同状态,例如:您的流量日间大、夜间小,导致ECS实例或CDN域名的网关流量、消息队列任务堆积等监控指标出现日夜波峰和波谷;...

事件监控

通过事件监控,您可以知晓ENS服务的使用状态,当您的业务出现问题时,也可以通过事件监控快速分析、定位问题。说明 所有事件类报警均按照实例触发,即同一个事件,如果影响三台实例,则触发三个事件。目前支持通过云监控接入ENS系统事件...

发现和排查实例问题

合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。诊断实例的健康状态 实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响...

观测组网与流量

您可以在 网络智能服务 NIS(Network Intelligence Service)中通过网络拓扑和流量分析快速了解公司业务在云网络的组网形态及流量分布情况,帮助您优化资源分配,规划网络架构。使用场景 通过NIS观测全球组网拓扑,查看资源与路由转发关系...

基本概念

应用监控 用于监控应用的实时流量和历史信息,用户可以通过该信息监控应用的健康状态,从而快速发现、定位问题。应用配置管理 应用配置管理 ACM(Application Configuration Management)是一款在分布式架构环境中对应用配置进行集中管理和...

DNS解析异常问题排查

返回码RCODE 含义 原因 NXDOMAIN 域名不存在 容器内请求域名时,会被拼接上search后缀,若拼接的结果域名不存在,则会出现该请求码。如果确认日志中请求的域名内容存在,则说明存在异常。SERVFAIL 上游服务器异常 常见于无法连接上游DNS...

DNS解析异常问题排查

返回码RCODE 含义 原因 NXDOMAIN 域名不存在 容器内请求域名时,会被拼接上search后缀,若拼接的结果域名不存在,则会出现该请求码。如果确认日志中请求的域名内容存在,则说明存在异常。SERVFAIL 上游服务器异常 常见于无法连接上游DNS...

边缘节点池管理概述

因此,跨跃不同分组节点的Service流量,大概率出现访问不可达、或者访问效率低下的问题。节点池管理方案 针对以上场景,容器服务 Edge 版 提出了如下图所示解决方案。节点池节点管理:针对节点分组抽象了节点池的概念,以节点池视角对...

配置网络

新增网络资源时,发现资源不足该怎么办?如果您在创建VPC网络资源时,自动配置提供的网络前缀长度为24,可用IP地址数量是252个,如果实例数量过多,有可能超出限制。此时,您需手动调整交换机IP地址网段,以及对应的安全组。故障排查 ...

体验中心

场景一:版本回滚 对新版 Portal 应用进行分组发布时,在第一组服务实例发布完成后,发布人员在微服务平台的服务监控中观测到业务异常,用户登录错误率快速增长,经分析判断是新版服务出现问题,立即到 AKS 中进行回滚发布,恢复到应用的旧...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...

基础架构风险分析

网络架构风险 和在IDC面临的风险一样,在云上需要设计网络架构,以便减小网络暴露面和因为网络架构设计不合理导致的网络攻击。网络架构的风险是指由于网络分段、资产暴露、DMZ区设计不合理导致的网络被任意用户访问、内部接口或地址可以被...

ACK+ECI实现在线业务弹性伸缩

ack-onepilot 接入应用实时监控服务ARMS,实现自动发现应用拓扑、自动生成3D拓扑、自动发现并监控接口、捕获异常事务和慢事务,大幅提升线上问题诊断的效率。ack-prometheus-operator 对接开源Prometheus生态,支持类型丰富的组件监控,...

使用Nacos-sdk连接MSE Nacos出现The maximum number ...

本文介绍如何解决使用Nacos-sdk连接MSE Nacos出现The maximum number of tolerable server reconnection报错的问题问题现象 使用Nacos-sdk连接MSE时出现The maximum number of tolerable server reconnection报错。可能原因 Nacos的配置...

监控与日志

网络智能服务既可以为您规划网络时提供参考数据,也可以协助您发现并解决网络的异常问题。EIP 已接入网络智能服务,您可以通过网络智能服务诊断实例、分析流量传输路径。实例诊断 实例诊断功能可以检测 EIP 实例的配置与运行状态,并能根据...

云端运行日志

\t\r,输入内容会被拆分为多个词,从而导致查询日志失败,页面会出现报错提示:日志查询,查询参数异常。搜索条件 说明 DeviceName 输入设备名称。根据设备名称,搜索该设备的相关日志。TraceId 输入追踪ID,搜索串联模块日志。内容...

通过巡检工具问题排查

1.故障排查方法简介 1.1 使用内置工具(推荐)Trident底座内置了故障排查工具——Lzero巡检工具,该工具对集群进行周期性的巡检,检测容器底座的健康状态,并在发现故障时给出修复建议。Lzero巡检工具的使用方法见第2章。1.2 使用K8s原生...

Pod诊断

节点的网络设备出现virtio驱动加载异常,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。节点CPU水位过高 检查节点过去一周CPU使用率。节点CPU水位过高时如部署较多Pod导致资源争抢,可能影响...

安全管家服务

并对扫描器发现问题进行安全分析验证 l 对其他非Web应用进行安全评估 l 制定修复方案,指导甲方修复安全漏洞 人工检查和工具扫描 4.3安全加固指导 安全加固指导基于安全评估发现问题以及最佳实践经验开展,安全管家服务团队将针对甲方...

节点诊断

节点诊断对应的检查项 诊断项分组 说明 Node 检查节点实例常见问题,检查项包括节点状态、网络状态、内核日志、核心进程和服务可用性等。NodeComponent 检查节点核心组件状态,检查项包括网络和存储插件。ClusterComponent 检查集群常见...

设计方案

可观测 在变更过程中,影响到现有环境以及上下游业务,通过对业务、链路、资源等做到可观测,就能够第一时间发现问题。在观测过程中,关注业务指标(如下单成功率)和应用指标(如CPU、Load、异常数量等)。当指标较多时,优先关注高优先...

分布式链路概述

分布式链路(原 SOFAStack 中间件中的 概述)逐步融合到业务智能可观测服务中,实现监控和链路分析一体化,方便用户对问题进行跟踪定位,对应用性能、调用链路进行实时分析。背景信息 分布式链路是面向分布式架构、微服务(比如 Spring ...

网关接入物联网平台

对比网关上本地的拓扑表,如果有某个子设备在网关本地的拓扑表中、而不在云端获取的拓扑表中,表示用户已经通过物联网平台提供的接口删除了这个子设备,网关需要将将该子设备从网关本地拓扑表中移除,并将该子设备从网关的接入网络删除。...

ACK集群概述

使用集群诊断:提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现问题。成本分析:支持可视化集群资源使用量及成本分布,以提升集群资源利用率。安全中心:支持...

NLB压力测试的方法

后端服务器会话冲突 若使用标准压测拓扑,当压测使用的客户端数量较少或使用基于源地址的一致性哈希调度算法时,提升后端服务器会话冲突的可能性,从而出现后端服务器频繁使用RST报文断开连接的情况,如下图所示。解决方法:建议使用单...

SQL性能问题

本文介绍有关SQL性能相关的常见问题。Flink全托管如何拆分SQL作业节点?Group Aggregate优化技巧有哪些?TopN优化技巧有哪些?有哪些高效去重方案?在使用内置函数时,需要注意什么?Flink全托管如何拆分SQL作业节点?在 作业运维 页面,...

作业智能诊断

拓扑网络分析 如果TaskManager与JobManager的网络不通,则作业状态显示异常。如果最近10分钟内存在弹性网卡挂载超时,则作业启动慢。建议您耐心等待。上下游网络分析 如果TCP端口探测正常,但Connector无法连通,作业无法启动。建议您检查...

高性能Flink SQL优化技巧

因为PartialFinal优化自动打散成两层聚合,引入额外的网络Shuffle。开启方式 默认不开启。如果您需要开启,在 其他配置 中填写以下代码,具体操作请参见 如何配置作业运行参数?table.optimizer.distinct-agg.split.enabled:true 判断...

功能特性

公网暴露 实时监控互通的VPC之间的流量情况,帮助您实时获取VPC网络流量数据,及时发现和排查异常流量。VPC互访 攻击防护 内置威胁检测引擎,支持配置攻击防护规则,实现更精准地识别和阻断入侵风险。实时展示入侵防御、漏洞防护、失陷感知...

历史功能发布记录(2023年之前)

全部 v1.14及以上 全部 使用服务发现范围配置提升控制平面推送效率 增强ASM网格拓扑功能。通过监控网络流量来推断服务拓扑和网格分析,帮助您了解 服务网格 的结构和运行状况。全部 v1.14及以上 全部 查看应用的网格拓扑 新增ASM安全策略...

创建PolarDB-X 1.0数据订阅任务

源库、目标库出现其他问题后的重试时间 在订阅任务启动后,若源库出现非连接性的其他问题(如DDL或DML执行异常),则DTS报错并立即进行持续的重试操作,默认持续重试时间为10分钟,您也可以在取值范围(1~1440分钟)内自定义重试时间,...

安全告警概述

Windows异常网络连接 疑似内网横向攻击 疑似敏感端口扫描行为(包括22、80、443、3389等常用端口)其他 检测客户端异常离线问题。异常账号 检测非合法的登录账号。应用入侵事件 检测通过系统的应用组件入侵服务器的行为。云产品威胁检测 ...

同步时源库为PolarDB-X 1.0的注意事项及限制

PolarDB-X 1.0 同步至MySQL或PolarDB MySQL版 类型 说明 源库限制 待同步的表需具备主键或唯一约束(仅具有唯一约束的表不支持库表结构同步,建议使用主键约束),且字段具有唯一性,否则可能导致目标数据库中出现重复数据;不支持二级...

服务拓扑

通过服务拓扑发现问题,可以通过 服务路由 和 服务限流 进行服务治理。操作步骤 在微服务平台,选择 服务网格>服务拓扑,打开服务拓扑图。在拓扑图的左上方,设置起止时间。默认范围为最近 15 分钟,最长时间间隔为 7 天。选择您想要查看...

使用前须知

通过本地DNS日志,您可以了解网络中的DNS查询活动,检测异常的查询行为、域名劫持和DNS污染等问题 网络会话日志 sas-log-session 记录网络连接和数据传输的日志,包括网络会话的详细信息,包括会话开始时间、双方IP地址、使用的协议和端口...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 NAT网关 高速通道 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用