功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

自定义召回模型

这时候我们需要借助数据挖掘中的常见算法-协同过滤来实现。这种算法可以帮助我们挖掘人与人以及商品与商品的关联关系。协同过滤算法是一种基于关联规则的算法,以购物行为为例。假设有甲和乙两名用户,有a、b、c三款产品。如果甲和乙都购买...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

AIOps 解决方案专家服务内容说明

智能算法列表 类型 算法名称 算法逻辑 异常诊断类算法 One-Class SVM 基于历史批量数据的做算法学习并进行异常诊断 异常诊断类算法 孤立深林 基于历史批量数据的做算法学习并进行异常诊断 异常诊断类算法 Robust Covariance 基于历史批量...

服务支持

OpenSearch产品公告 发布记录 OpenSearch-行业算法版新功能发布记录 OpenSearch-高性能检索版新功能发布记录 OpenSearch-向量检索版新功能发布记录 OpenSearch-召回引擎版新功能发布记录 常见问题 OpenSearch-行业算法常见问题 ...

产品简介

产品简介 阿里巴巴通义实验室千寻搜索算法,基于达摩院长期积累的自然语言处理技术,专注企业统一搜索场景,提供精准的多源异构搜索,以PaaS服务形式提供离线数据处理和搜索服务API。同时支持公有云、专有云、基于云原生的基础架构下混合云...

网络资源

网络资源还需要提供高带宽、低延迟和稳定的网络连接,以确保节点之间的通信和数据传输的效率和可靠性。网络资源是流量入口和数据交互的基础设施,常见的网络资源风险点如下:网络带宽不足 指网络连接的带宽无法满足系统或应用程序的需求,...

DCDN企业版为政企提供加速和安全一站式服务

开启 国密算法:支持基于BABASSL标准的国密算法加密机制。开启 离线模式:支持源站故障过程,边缘节点可基于自身缓存内容进行响应,为源站恢复争取时间。开启 防篡改:支持源站分发内容防恶意篡改,保证内容传输过程中的一致性。开启 源站...

政企安全加速

开启 离线模式:支持源站故障过程,边缘节点可基于自身缓存内容进行响应,为源站恢复争取时间。开启 防篡改:支持源站分发内容防恶意篡改,保证内容传输过程中的一致性。开启 源站防护:提供SCDN回源节点的IP地址信息,便于用户在源站或源...

PAI灵骏智算服务概述

阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...

什么是应用监控

智能洞察 对于应用服务响应时间突增、错误率突增等常见的问题,ARMS提供了智能洞察能力,您无需做任何设置,智能洞察将会基于应用历史数据并结合智能算法完成巡检,给出具体的根因分析和建议,同时支持订阅告警,帮助您一键触达问题根因。...

Tair集群无感扩缩容

扩缩容过程平滑 Tair 集群版通过优化实例内部的线程调度算法,对迁移任务进行细粒度控制,从而最大化提升线程执行效率,线程执行效率可从原先的10%提升到80%(可配置),实现在不影响业务服务的情况下最大化提升数据迁移速度。同时,Tair ...

数据脱敏

常见的可逆脱敏算法和方式如下:替换脱敏:部分可逆算法,适用于证件号等构成规则固定的字段脱敏。使用替换码表进行映射替换(可逆Tokenization),或使用随机区间进行随机替换(不可逆),实现字段整体或者部分内容的脱敏。加密脱敏:可逆...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

什么是故障

故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、协同,基于统一视角协同处理故障,提升故障处理效率故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上...

产品简介

AB 测试是蚂蚁科技提供的一项用来验证产品新功能效果的科学在线测试方法,它能够通过对实际实验数据进行统计分析从而...测试不同算法效率、准确率等指标。测试不同的交互逻辑或页面布局的流量转化率。相关链接 功能特性 基础术语 快速开始

应用场景

故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。故障改进:支持对...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

诊断规则

故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则提供多种诊断能力,包括巡检、监控告警、变更查询。新建诊断规则 登录高可用管理控制台。在左侧...

故障管理

故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、协同,基于统一视角协同处理故障,提升故障处理效率故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

技术分析函数

技术分析的函数将广泛使用的算法应用在您的数据中。虽然这些函数主要应用在金融和投资领域,但是它们也适用于其它行业和用例。本文档主要介绍了技术分析函数的语法结构、语法说明以及使用示例。通用参数说明 除了 field key 参数,技术分析...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

实时算法编排

本文为您介绍如何使用智能制造平台AICS实时算法编排模块。实时算法编排流程 新建画布。算法流程搭建。算法试运行与调试。算法发布与周期运行。参数趋势查看。新建画布 登录 工业大脑智能制造平台AICS。左侧导航栏单击 实时控制优化>实时...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

云盒计算资源配置最佳实践

冗余的算力配置,可以大幅提升硬件风险应对能力 云盒提供的IaaS层稳定性,依赖于云上提前预测硬件故障算法能力,以及宕机迁移和热迁移能力。这些能力可以有效提升云盒IaaS层的故障和风险应对能力,但也需要一定的冗余资源,以便在硬件...

产品优势

主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警;大幅降低事务性操作:完善的事件分派、通知机制,避免重复事务性操作,...

LightGBM

它可以说是分布式的,高效的,有以下优势:更快的训练效率 低内存使用 更高的准确率 支持并行化学习 可以处理大规模数据 与常见的机器学习算法对比,速度是非常快的。计算逻辑原理 LightGBM 通过叶分裂(Leaf-wise)策略来生长树。每次从当前...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 轻量应用服务器 智能开放搜索 OpenSearch 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用