企业级状态后端存储介绍

说明 Nexmark 属于第三方搭建的网站,访问时可能会存在无法打开或访问延迟的问题。结果显示GeminiStateBackend对作业整体效能(单核吞吐能力)的优化效果十分显著,具体数据如下表所示。CaseName Gemini TPS/Core RocksDB TPS/Core Gemini ...

算法说明

例如监控网站流量异常,分析流量异常时是哪些地域的访问或者哪些渠道的访问异常导致的。参数配置 您可以在 创建下探分析作业 配置向导的 算法配置 步骤中,完成算法配置。具体操作,请参见 创建作业。参数 说明 观测长度 表示最近时序数据...

使用Python依赖

您可以在Flink Python作业中使用自定义的Python虚拟环境、第三方Python包、JAR包和数据文件等,本文为您介绍如何在Python作业中使用这些依赖。背景信息 本文通过以下场景为您介绍如何使用Python依赖:使用自定义的Python虚拟环境 使用第三...

作业智能诊断

Flink Advisor作业智能诊断服务能够帮您监控作业健康状况,分析和诊断错误日志、异常运行和风险情况,并提供可理解和可操作的诊断建议,全面保障您的业务稳定可靠运行。本文为您介绍如何使用作业智能诊断服务。背景信息 Flink Advisor作业...

工作原理

例如网站访问流量时序数据可以按照不同的维度进行划分。如果按照访问用户的城市划分,可以分为来自上海的访问流量和来自北京的访问流量等;如果按照访问渠道划分,可以分为来自移动端的流量和来自PC端的流量等。网络流量异常可能是由于某个...

迁移方案

本文为您介绍从原有集群(线下IDC自建集群或ECS自建)迁移Flink作业到DataFlow集群的整体流程,包括准备工作,如何迁移作业,以及常见问题等。背景信息 EMR集群的基础信息,请参见 集群规划。准备工作 集群规划 创建DataFlow集群时,集群...

计算资源使用

作业类型取值如下:SQL:SQL作业 SQLRT:查询加速SQL作业 SQLCost:SQL预估作业 LOT:MapReduce作业 CUPID:Spark或Mars作业 AlgoTask:机器学习作业 作业优先级 输入需要配置到规则里的作业优先级。输入 0-9 优先级区间,如:[0,3]表示...

Apache Log4j 0Day安全漏洞公告说明

相关链接 Advise on Apache Log4j Zero Day(CVE-2021-44228)Apache Log4j Security Vulnerabilities Remote code injection in Log4j Apache Log4j2远程代码执行漏洞 说明 以上链接属于第三方搭建的网站,访问时可能会存在无法打开或访问...

大数据实时计算性能调优服务

基于运行情况中出现的反压,进行作业调优,直至数据能稳定健壮运行起来,涉及 DDL的调优:检查客户异常作业代码的DDL建表语句,通过增加批量参数等方法,优化作业任务性能。作业代码调优:重点针对去重、groupby等窗口、聚合场景识别热点...

访问RDS MySQL数据源

通过ENI访问RDS MySQL数据 上传驱动程序及Spark作业依赖的Jar包 编写访问RDS MySQL表的示例程序(即Spark作业依赖的Jar包),并进行编译打包。本文生成的Jar包名称为 rds_test.jar。示例代码如下:package ...

缓存 Tomcat session 变量

This is(TOMCAT1),SESSION ID:CAC189E5ABA13FFE29FCB1697F80182B-OCS 注意:在网站负载较低情况下,能正常使用 Memcache 来缓存 tomcat session。如果负载较高,即发现 session 频繁失效,需要升级 Memcache 规格才能正常使用。

2023年

GetRunningJobs-获取运行态的作业列表 2023-08-24 新增GetJobResourceUsage-获得作业执行者级别的资源使用列表 新说明 指定时间范围内,针对已结束的全部作业进行统计,以“天”为级别展示作业执行者级别的资源使用总量。...

使用成本优化功能实现降本增效

典型场景一:包年包月计算资源闲置,计算成本高 某公司在数仓建设初期,公司预算充足,且为了确保凌晨一批重要作业在上午八点产出,购买了 包年包月预留 计算资源 200CU 供作业使用,每天有520个作业固定运行在这些资源上,每天作业都可以...

认识MaxCompute Studio

作业管理 作业状态说明 全部活动作业 等待:作业提交后等待进入队列。排队中:作业进入队列,等待分配资源。运行中:作业正在执行中。全部历史作业 成功:作业运行成功。失败:作业运行失败。取消:作业被人手工取消执行。编译作业 单击SQL...

操作指导

如何配置作业运行参数?如何开启GC日志?如何查找引发告警的作业?如何查看工作空间ID等信息?如何查看AccessKey ID和AccessKey Secret信息?如何查看当前作业的Flink版本?如何关闭系统自动开通的Prometheus监控服务?网络连通性 如何设置...

基本概念

您可以在NIS服务器上建立用户,当新节点加入到NIS中时,便可以使用NIS服务器中的用户来登录这个节点,而不需要在每个节点上都建立同样的用户。LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用来对...

集群概述

对于不同规模的集群,建议的管控节点配置和作业执行数量如下:集群规模 管控节点配置建议 作业建议 计算节点数≤100个 vCPU≥16核 内存≥64 GiB 排队作业数量条 未完成作业数量条 计算节点数≤500个 vCPU≥32核 内存≥128 GiB 排队作业数量...

2023-06-21版本

平台侧将进行多项常用功能的改版,主要集中在审计日志、Kerberos支持、监控告警增强等能力的建设,优化了部分页面的展示和体验。我们将在两周内在全网进行分步骤的灰度,灰度完毕后的客户和区域平台能力将完成升级,并且可以在作业选择引擎...

自定义标量函数(UDSF)

说明 python_demo-master 属于第三方搭建的网站,访问时可能会存在无法打开或访问延迟的问题。在PyCharm中,单击 file>open,打开刚才解压缩完成的 python_demo-master。双击打开 \python_demo-master\udx\udfs.py 后,根据您的业务,修改 ...

CREATE TABLE AS(CTAS)语句

此类场景可以使用宽容模式同步,即在CTAS作业启动时在下游系统建立类型更加宽泛的表,在列类型变更发生时判断该类变更下游Sink是否可以接受来实现宽容的列类型变更支持,详情请参见 示例八:CTAS语句使用字段类型宽容模式同步数据到...

统计MaxCompute TOPN费用账号及耗时作业

数据开发者在使用MaxCompute开发过程中,需要统计MaxCompute项目中账号的费用以及作业的耗时情况,助力合理规划和调整作业。本文为您介绍如何通过MaxCompute元数据(Information Schema)统计TOP费用账号及耗时作业,同时通过钉钉推送到...

自定义聚合函数(UDAF)

说明 User-defined Functions 和下文中的 ASI_UDX_Demo 属于第三方搭建的网站,访问时可能会存在无法打开或访问延迟的问题。UDAF开发 说明 Flink为您提供了UDF示例,便于您快速开发业务。Flink UDF示例中包含UDSF、UDAF和UDTF的实现,示例...

授予RAM账号细粒度访问DLA的权限

被授权用户无权进行如下操作:查看其他用户作业的详细日志信息。终止其他用户提交的作业。提交代码给其他用户的交互式作业。策略内容如下:{"Version":"1","Statement":[{"Action":["openanalytics:ConsolePermission","openanalytics:...

SQL其他常见问题

由于复杂结构的超大字段在数据开发和分析中会严重影响计算性能,因此建议根据数据仓库建设规范来设计您的数据架构,避免出现超大字段:具有复杂结构的原始数据,作为ODS层,最好以压缩的方式归档。定时(例如每天)对ODS层的增量数据做数据...

Blink和Flink常见问题及诊断

其他使用连接的场景 作业启动过程中,需要建立连接用于表元数据的验证等工作,可能会暂时使用3至6个连接,作业正常运行后会释放。Flink全托管支持Hologres Catalog、CTAS以及CDAS等功能,使用这些功能也会占用连接数。默认情况下,一个使用...

上下游存储

Flink和Kafka客户端(Flink Kafka Connector)之间建立连接分为两个步骤:Kafka客户端拉取Kafka服务端(Kafka Broker)元信息,包括Kafka服务端所有Broker的网络地址。Flink使用Kafka客户端拉取下拉的Kafka服务端网络地址来消费或者写入...

视频DNA

应用场景 视频查重 建立独立视频DNA库,在该库中对样本视频完成快速比对,实时召回重复视频或重复片段。防止内容分发和个性化推荐时,出现过多相同或相似视频而影响用户体验。原创识别 准确识别是否为原创视频、编辑变换后视频、自媒体再...

准备数据源和计算源

在使用Dataphin前,您需要选择符合业务场景需求的数据库或数据仓库作为数据源,用于读取原始数据和写入数据建设过程中的数据;同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源,为数据的研发提供计算资源。准备数据源 ...

功能发布记录

2023-10-23版本 2023.06.21 进行多项常用功能的改版,主要集中在审计日志、Kerberos支持、监控告警增强等能力的建设,优化了部分页面的展示和体验。2023-06-21版本 2023.04.13 进行多项常用功能的改版,更改了产品控制台的一级目录和作业...

Paimon外部表

MaxCompute支持通过创建Paimon外部表来与存储在OSS上的Paimon表目录建立映射关系,并访问其中的数据。本文将介绍如何创建Paimon外部表并通过MaxCompute访问Paimon外部表。背景信息 Apache Paimon是一种流批一体的湖存储格式,具备高吞吐的...

准备数据源和计算源

在使用Dataphin前,您需要选择符合业务场景需求的数据库或数据仓库作为数据源,用于读取原始数据和写入数据建设过程中的数据;同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源,为数据的研发提供计算资源。准备数据源 ...

核心概念的层次结构

部门B创建了项目B,项目B没有开启按Schema存储,所以项目下直接存储了表3、表4、视图1和资源1,关联了默认后付费Quota,部门B的用户B被授予了项目B数据的访问权限,并且可以发起作业,所有作业默认使用的计算资源为默认后付费Quota。

管理工作流

工作流是通过拖拽任务节点并建立任务节点之间的关联来创建可视化的DAG(有向无环图)。如果您需要安排任务在指定的时间运行,可以创建工作流并在工作流中定义调度节点以及调度策略。本文为您介绍如何创建和运行工作流。使用限制 仅已部署的...

大数据上云及巡检服务内容说明

根据乙方提供的需求调研表格,提供现有业务概况,如所用组件,数据源类型,数据源数量,迁移作业数,作业类型,作业运行方式,了解用户迁移所用阿里云组件,数据迁移方式(存量迁移方式/增量迁移方式),作业迁移方式,一致性校验标准等作为...

2022年

如Project内某些作业占用大量资源会影响整体项目作业时效(如数据回刷作业占大量资源但时效要求不高、某些占用大量资源且时效要求高的算法作业),需要进行Quota隔离指定资源进行计算,可以通过Use Quota功能直接指定,无需单独创建Project...

API概览

InsertMediaToSearchLib 插入媒资到搜索库 插入媒资到搜索库,需要提前建立好搜索库。UpdateMediaToSearchLib 更新媒资到搜索库 在搜索库中更新媒资信息。DeleteMediaFromSearchLib 删除媒资从搜索库 在搜索库中删除指定媒资。...

简介

渲管建立在阿里云 BatchCompute、OSS 和 ECS 的三个云产品基础之上的。详细介绍请参考官网,在使用渲管前,请确保已开通此三产品。BatchCompute 是阿里云上的批量计算服务,可以帮助用户进行大规模并行计算。OSS 是阿里云上的对象存储服务...

创建集群模板

在使用数据开发工作流完成作业任务时,如果您只关注作业任务是否完成,可以使用集群模板功能来快速建立集群,调度系统会在工作流启动时按照模板创建一个集群,然后将作业下发到该集群上执行。当工作流结束后,调度系统会自动释放该集群。...

通用环境变量列表

PyTorch环境变量 在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。在DLC中,一系列环境变量被用于同步关键信息,例如将Master的地址和端口号传递给Worker。DLC为PyTorch训练配置的一些通用环境变量...

视频DNA

视频查重:建立独立视频DNA库,在该库中对样本视频完成快速比对,实时召回重复视频或重复片段。防止内容分发和个性化推荐时,出现过多相同或相似视频而影响用户体验。快速审核:通过维护违规视频库或自定义黑库,对增量视频,快速进行DNA...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
智能数据建设与治理 Dataphin 实时计算 Flink版 批量计算 开源大数据平台 E-MapReduce 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用