通用环境变量列表

DLC为TensorFlow训练配置的通用环境变量如下:环境变量名 描述 TF_CONFIG TensorFlow分布式网络拓扑信息,示例如下:{"cluster":{"worker":["dlc1y3madghd*-worker-0.t1612285282502324.svc:2222","dlc1y3madghd*-worker-1.t...

查看应用拓扑关系

查看应用拓扑图 进入分布式链路跟踪控制台页面,左侧导航栏中选择 应用分析。在应用拓扑图的左上方,您可以选择时间范围,或者设置自定义的时间范围。默认时间范围为最短 15 分钟,最长时间间隔为 7 天。您可以勾选想要查看的指标数据,...

容器资产全景

背景信息 云安全中心会每分钟自动刷新 容器资产全景 页面的容器网络拓扑图和集群的安全风险信息,以确保您查看到最新的网络拓扑图和安全风险信息。版本限制 仅云安全中心的旗舰版支持该功能,其他版本不支持。购买和升级云安全中心服务的...

网络拓扑概述

网络拓扑图可以清晰地展示网络中资源的连接和关系,可视化网络结构,帮助您快速了解您的云上网络架构,进行网络配置验证、网络问题排查和云网络资源统一运维。背景信息 当前阿里云上网络资源类型丰富,功能形态各异,大量网络资源分散在...

开始监控除Java之外的应用

可观测链路 OpenTelemetry 版 具备分布式调用链追踪和汇总、应用性能实时汇总和分布式拓扑动态发现等能力,帮助您全方位监控应用。背景信息 可观测链路 OpenTelemetry 版 可以帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提高微...

云资产全景

云资产全景为您提供云上资产全景...支持您按照可用区查看云上资产的网络拓扑图,在左侧列表中单击 可用区 可查看该可用区的风险统计情况,单击具体可用区,即可查看对应可用区的资产网络拓扑图。单击云产品名称可查看该云产品的风险统计情况。

资源清单

完成资源调研后,需要对所调研的资源进行核对...即可进入资源详情页查看资源的详细信息 拓扑查看 在 控制台->准备->资源清单 中批量勾选需要查看的资源,点击“展示拓扑”,通过“网络部署图”和“网络拓扑图”的形式完成对于资源的拓扑分析。

查看应用拓扑图

应用拓扑 页面分别以列表和拓扑图的形式展示当前监控的所有业务系统及其相关的性能指标数据。默认情况下,系统以拓扑图的形式展示。拓扑概述 拓扑是对应用间调用关系和依赖关系的可视化展示。链路拓扑图中,每个图标元素代表一个节点,即...

分布式链路概述

Trace ID 代表唯一一次请求的 ID,此 ID 一般由集群中第一个处理请求的系统产生,并在分布式调用下通过网络传递到下一个被请求系统。Span 代表本次请求的完整信息,包括调用是否成功、调用类型、调用耗时等。其中最核心是 Span ID,代表了...

Java应用监控和诊断方案

调用拓扑图 您可以在ARMS中看到应用的调用关系拓扑图,例如应用被哪些服务依赖、依赖了哪些下游服务等。如图所示,我们可以清楚地看到未知应用对被监控应用的调用是瓶颈所在,其平均耗时超过3000 ms。慢服务/SQL报表 进入该应用的SQL分析...

基础术语

SOFATracer SOFATracer 是一个用于分布式系统调用跟踪的组件,通过统一的 traceId 将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的。这些日志可用于故障的快速发现,服务治理等。TraceID TraceId 指的是 ...

基本概念

服务拓扑 通过拓扑图的形式直观的了解不同服务间的相互调用关系及相关性能数据。高速服务框架 高速服务框架HSF(High-speed Service Framework)是一款面向企业级互联网架构的分布式服务框架,以高性能网络通信框架为基础,提供了诸如服务...

什么是蚂蚁链分布式身份服务 DIS

蚂蚁链分布式身份服务 DIS(Decentralized Identity Service),是一种基于区块链的身份管理方案,提供实体身份的创建、验证和管理等一整套功能,实现更规范化地管理和保护实体数据,同时保证信息流转的真实性和效率,解决了跨机构的身份...

版本功能对比

拓扑图 自动发现应用或接口之间的调用关系,并生成实时拓扑图。应用详情 概览 自动发现应用或接口之间的调用关系,并生成实时拓扑图。JVM监控 用于监控堆内存指标、非堆内存指标、直接缓冲区指标、内存映射缓冲区指标、GC(垃圾收集)累计...

什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本,AIACC-ACSpeed基于模块化的解耦优化设计方案,实现了分布式训练在兼容...

查看链路详情

功能入口 在左侧导航栏上,单击 分布式链路>链路查询。在 链路查询 页,设置查询项。详情请参见 查询调用链路。在查询结果列表中,单击目标链路的 Trace ID 进入链路详情页。链路:链路详情页默认显示该链路的链路。详情请参见 链路...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

什么是AI通信加速库DeepNCCL

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。产品简介 DeepNCCL基于NCCL(NVIDIA Collective ...

GPU拓扑感知调度

Kubernetes对节点的GPU拓扑信息不感知,调度过程中对GPU的选择...关于GPU拓扑感知调度如何使用,请参见以下文档:GPU拓扑感知调度概述 安装GPU拓扑感知组件 Tensorflow分布式训练使用GPU拓扑感知调度 Pytorch分布式训练使用GPU拓扑感知调度

GPU拓扑感知调度概述

GPU拓扑分布为NVLink连接8个Tesla V100的混合立体网络拓扑。每块V100 GPU有6个NVLink通道,8块GPU间无法做到全连接,2块GPU间最多只能有2条NVLink连接。其中GPU0和GPU3,GPU0和GPU4之间有2条NVLink连接,GPU0和GPU1之间有一条NVLink...

什么是Deepytorch Training(训练加速)

产品优势 训练性能显著提升 Deepytorch Training通过整合分布式通信和计算编译的性能特点,可以实现端到端训练性能的显著提升,使得模型训练迭代速度更快,不仅减少了资源的使用成本,还缩短了迭代的时间成本,为您带来低成本体验。...

基本概念

发起方 Initiator,分布式事务的发起方负责启动分布式事务,通过调用参与者的服务,将参与者纳入到分布式事务当中,并决定整个分布式事务是提交还是回滚。一个分布式事务有且只能有一个发起方。分组标识 用于在网关上做全局的唯一标识,...

可观测概述

在微服务架构中,服务之间的通信通过网络进行,因此需要采用分布式追踪技术来对服务之间的调用关系进行跟踪和监控。在Istio中,可以使用Jaeger、Zipkin等分布式追踪工具来实现这个功能。在分布式追踪里,存在Trace和Span两个重要概念。Span...

使用GPU拓扑感知调度(Tensorflow版)

arena logs-f tensorflow-4-resnet50 预期输出:total images/sec:745.38 性能对比 基于以上4个测试用例性能对比结果如下:基于对比,可知经过GPU拓扑感知调度后,TensorFlow分布式训练的效果有了很大的提升。重要 本文提供的性能数据仅...

分布式任务调度 SchedulerX

SchedulerX是阿里巴巴自研的基于Akka架构的分布式任务调度平台,兼容开源XXL-JOB、ElasticJob、K8s Job、Spring Schedule,支持Cron定时、一次性任务、任务编排、分布式数据处理,具备高可用、可视化、可运维、低延时等能力。

拓扑图

本文介绍拓扑图的相关配置。简介 拓扑图是一种全局系统级别的观测视图,用于直观地描述模块或应用之间的依赖关系以及总体概况信息。日志服务采集到拓扑数据后,会解析数据并将其结构化,拓扑数据样例如下图所示。您可以通过 child、parent ...

概述

分布式事务 DTX(Distributed Transaction-eXtended)是蚂蚁集团自主研发的金融级分布式事务中间件,用来保障在大规模分布式环境下业务活动的最终一致性。在蚂蚁集团内部被广泛地应用于交易、转账、红包等核心资金链路,服务于亿级用户的...

基础术语

发起方 initiator 分布式事务的发起方负责启动分布式事务,通过调用参与者的服务,将参与者纳入到分布式事务当中,并决定整个分布式事务是提交还是回滚。一个分布式事务有且只能有一个发起方。参与者 participant 参与者提供分支事务服务。...

服务拓扑

服务拓扑图 在服务拓扑图中,您可以获取以下信息:应用服务的名称及版本号 应用服务间的调用关系 服务的请求量(RPS)服务的响应时间(ms)服务的错误率(%)在服务拓扑图中,单击一个节点图标,即可查看该节点的详细信息。节点上下游相关...

分布式链路配置

功能入口 在左侧导航栏上,单击 分布式链路>应用拓扑。单击配置图标,进入链路采样配置页面。链路关键字段采集配置 默认采集链路每个 span 的全字段,如需节约存储资源,可开启开关,将仅采集部分关键字段,比如调用路径、调用返回码等。...

功能特性

分布式事务(Distributed Transaction-eXtended,简称 DTX)是蚂蚁集团自主研发的金融级分布式事务中间件,支持跨数据库、跨服务以及混合的方式处理分布式应用,具备多种接入模式和金融级配套功能,本文将主要介绍分布式事务的功能特性。...

开通SchedulerX

背景信息 阿里云分布式任务调度SchedulerX已于2021年09月01日正式商业化。操作步骤 登录 分布式任务调度平台。首次使用并登录分布式任务调度平台,在弹出的对话框中单击 开通。在 分布式任务管理 页面,单击 立即购买。在 确认订单 页面 ...

开通服务

本节介绍如何开通分布式事务服务。前提条件 已注册阿里云账号,并完成实名认证。操作步骤 开通 SOFAStack 产品服务。使用阿里云账号登录 阿里云官网。在上方菜单栏选择 产品与服务>中间件>金融分布式架构 SOFAStack。在 SOFAStack 产品主页...

功能特性

数据访问代理兼容 MySQL 协议和语法,支持分库分表、平滑扩容、服务升降配、透明读写分离和分布式事务等特性,具备分布式数据库全生命周期的运维管控能力。分库分表 支持 RDS、OceanBase、MySQL 的分库分表。在创建分布式数据库后,只需...

金融分布式架构

SOFAStack 包含构建金融级云原生架构所需的各个组件,提供微服务应用开发部署、监控运维、项目管理、容灾高可用等全栈式解决方案,助力各类应用轻松转型分布式云原生架构。

应用场景

分布式事务可应用在多个涉及数据库操作的领域,尤其在金融领域可以做到全场景的覆盖与落地验证,包括:支付与转账、账务:对于吞吐量有很高的要求 金融与理财:往往涉及的金额较大,所以对于产品的稳定性要求非常高 保险与监管报送:参与方...

什么是分布式任务调度SchedulerX

分布式任务调度SchedulerX是阿里巴巴基于Akka架构自研的新一代分布式任务调度平台,提供定时调度、调度任务编排和分布式批量处理等功能。您可以在控制台配置、管理您的定时调度任务、查询任务执行记录和运行日志,还可以通过工作流进行任务...

开通SchedulerX

背景信息 阿里云分布式任务调度SchedulerX已于2021年09月01日正式商业化。操作步骤 首次使用并登录分布式任务调度平台,在弹出的对话框中单击 开通。在 分布式任务管理 页面,单击 立即购买。在 确认订单 页面 服务协议 区域,选中 我已...

分布式序列问题

分布式序列是否全局唯一 单库单表的分布式序列可以保证生成的序列 ID 全局唯一。分库分表的分布式序列仅保证单个分片的序列 ID 唯一,如果需要确保分库分表的分布式序列全局唯一,可以在序列 ID 中拼接分库分表位,以此保证全局唯一。分布...

企业级分布式应用服务

企业级分布式应用服务EDAS(Enterprise Distributed Application Service)是一个应用托管和微服务管理的PaaS平台,提供应用开发、部署、监控、运维等全栈式解决方案,支持Spring Cloud、Dubbo等微服务运行环境,助力您的应用轻松上云。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 高速通道 云企业网 弹性公网IP 负载均衡 短信服务
新人特惠 爆款特惠 最新活动 免费试用