错误码定义

表达名由以英文字母开头的数字、英文字母或下划线组成,长度不超过 30 个字符 Formula.InvalidParameter.NameEmpty 2105 表达名称为空 Formula.InvalidParameter.Meta 2109 表达式格式错误 Formula.OutOfRange.MetaLength 2110 表达...

MaxCompute近实时增全量一体化架构介绍

在大数据开源生态领域,针对这些问题已经出现了一些典型的解决方案,其中最典型的是Spark、Flink、Trino等开源数据处理引擎,它们深度集成了Hudi、Delta Lake、Iceberg、Paimon等开源数据湖,并以开放统一的计算引擎和数据存储理念为基础,...

错误码定义

表达名由以英文字母开头的数字、英文字母或下划线组成,长度不超过 30 个字符 Formula.InvalidParameter.NameEmpty 2105 表达名称为空 Formula.InvalidParameter.Meta 2109 表达式格式错误 Formula.OutOfRange.MetaLength 2110 表达...

机器学习开发示例

本文介绍如何使用阿里云 Databricks 数据洞察的Notebook进行机器学习开发。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 控制台创建存储...

配置OpenGauss输出组件

同步其他数据源的数据至OpenGauss数据源的场景中,完成源数据源的信息配置后,需要配置OpenGauss输出组件写入数据的目标数据源。本文为您介绍如何配置OpenGauss输出组件。前提条件 已创建OpenGauss数据源,如何创建,请参见 创建OpenGauss...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中,完成源数据源的信息配置后,需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件 已创建TiDB数据源,如何创建,请参见 创建TiDB数据源。进行TiDB输出组件...

上海新能源汽车车辆基础数据

方案亮点:PB级新能源车辆基础数据、高性能采集入库、高效数据分析、低成本运营。客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品,有效解决了我们平台存储和计算的横向动态扩容瓶颈,...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中,完成源数据源的信息配置后,需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件 已创建TiDB数据源,如何创建,请参见 创建TiDB数据源。进行TiDB输出组件...

配置ArgoDB输出组件

配置ArgoDB输出组件,可以将外部数据库中读取的数据写入到ArgoDB,或从大数据平台对接的存储系统中将数据复制推送至ArgoDB,进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

视频个性化推荐(协同过滤)

本案例将 以视频社交平台的'猜你喜欢'和'详情页相关推荐'为例,通过推荐算法为用户呈现最符合其兴趣的视频内容为背景,为您介绍在DataWorks中如何使用阿里云PAI的协同过滤算法 挖掘深层次的数据关联性,实现视频的个性化推荐。背景信息 ...

快速入门

城市三维场景构建器组件提升了组件的易用性、渲染视效、支持更多精准时空数据、扩大城市基础数据资产库,真正降低“数字孪生城市”的构建门槛,使得“数字孪生城市”成为一项技术普惠。本文为您演示如何在DataV产品内使用城市三维场景构建...

配置ClickHouse输出组件

同步其他数据源的数据至ClickHouse数据源的场景中,完成源数据的信息配置后,需要配置ClickHouse输出组件写入数据的目标数据源。本文为您介绍如何配置ClickHouse输出组件。前提条件 在开始执行操作前,请确认您已完成ClickHouse数据源及...

配置MySQL输出组件

同步其他数据源的数据至MySQL数据源的场景中,完成源数据源的信息配置后,需要配置MySQL输出组件的目标数据源。本文为您介绍如何配置MySQL输出组件。前提条件 已创建MySQL数据源,详情请参见 创建MySQL数据源。进行FTP输出组件属性配置的...

数据库画像

数据库画像是数据库评估的基础数据,可以帮助您更好地了解自己的源数据库,在数据库迁移、改造等阶段,可以快速查找源数据库信息,指导迁移与改造。新建画像 登录 数据管理DMS 5.0。在顶部菜单栏中,选择 集成与开发(DTS)>异构数据库迁移...

使用Simple存储策略

因此Ganos扩展了一种简单的存储策略,即Simple存储策略,它允许用户将数据采用自定义的压缩算法压缩后存储,并尽可能将压缩后的数据存储在基础表内,从而达到节约存储成本的同时又尽可能减小对查询性能的影响。使用方法 设置GUC参数,该...

使用Simple存储策略

因此Ganos扩展了一种简单的存储策略,即Simple存储策略,它允许用户将数据采用自定义的压缩算法压缩后存储,并尽可能将压缩后的数据存储在基础表内,从而达到节约存储成本的同时又尽可能减小对查询性能的影响。使用方法 设置GUC参数,该...

算法说明

哈希聚类算法 哈希聚类算法基于日志聚类功能,日志聚类功能对日志数据进行在线聚类,哈希聚类算法在 日志聚类 结果的基础上进行二次聚类,同时持续分析、监控日志数据。哈希聚类算法不依赖外部日志模板库。相似度匹配算法 相似度匹配算法...

表设计规范

在表设计阶段,需要特别注意区分数据的场景(批量数据写入、流式数据写入、周期性条式数据插入)。合理使用非分区表和分区表。建议采用分区表来设计日志表、事实表和原始采集表等,并按照时间进行分区。注意表和分区的限制条件。表数据存储...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典,制定并管理平台遵循的统一数据标准,为数据元、指标、维度的值域设置中引用数据字典提供数据基础,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典,制定并管理平台遵循的统一数据标准,为数据元、指标、维度的值域设置中引用数据字典提供数据基础,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

数据服务:低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述 作为数据仓库与上层应用系统间的...

操作流程

新建数据字典并物理化 通过新建并维护数据模型中使用的数据字典,制定并管理平台遵循的统一数据标准,为数据元、指标、维度引用数据字典提供数据基础,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作,请参见 新建...

操作流程

新建数据字典并物理化 通过新建并维护数据模型中使用的数据字典,制定并管理平台遵循的统一数据标准,为数据元、指标、维度引用数据字典提供数据基础,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作,请参见 新建...

什么是工业大脑AICS

基于云+AI的开放物联网控制优化系统,集成了阿里巴巴集团数十年发展沉淀的计算能力、人工智能算法以及完备的互联网安全体系架构,提供强大的建模、仿真、优化、控制基础能力,通过输出“供、研、产、销”全链路智能算法服务,激活工业...

人气模型

人气模型是什么 人气模型属于离线计算的模型,是淘宝搜索最基础的排序算法模型。人气模型会计算量化出每个商品的静态质量及受欢迎的程度的值,这个值称之为商品人气分。虽然人气模型来自淘宝搜索业务,但其实这个模型对于其他的搜索场景也...

扩展性与弹性

原地扩容在原有实例的基础上增加计算节点,这种方式通过一致性hash算法来挪动数据,扩容时挪动的数据量相对较少,扩容速度更快。而迁移扩容则是通过新建一个实例,然后将原有实例数据迁移过去的方式实现扩容,这种方式相对于原地扩容成本较...

实时Top Key统计

热Key 云原生内存数据库Tair 以最近最少使用算法LRU(Least Recently Used)为基础,经过高效的排序以及统计算法识别出当前实例的热点Key。说明 Tair 同一时间最多统计50个热点Key。通常情况下,当某个Key的QPS大于3,000时会被记录为热点...

查询历史热点Key

背景信息 云原生内存数据库Tair 以最近最少使用算法LFU(Least Frequently Used)为基础,经过高效的排序以及统计算法识别出当前实例的热点Key。说明 当某个Key的QPS大于3,000时会被记录为热点Key。本文通过审计日志查询热点Key的历史记录...

Key分析

热Key 云数据库Redis以最近最少使用算法LRU(Least Recently Used)为基础,经过高效的排序以及统计算法识别出当前实例的热点Key。说明 Redis社区版实例同一时间最多统计20个热点Key,Redis企业版同一时间最多统计50个热点Key。通常情况下...

查询历史热点Key

背景信息 云数据库Redis以最近最少使用算法LFU(Least Frequently Used)为基础,经过高效的排序以及统计算法识别出当前实例的热点Key。说明 当某个Key的QPS大于3,000时会被记录为热点Key。本文通过审计日志查询热点Key的历史记录,如需...

实时Top Key统计

热Key 云数据库Redis以最近最少使用算法LRU(Least Recently Used)为基础,经过高效的排序以及统计算法识别出当前实例的热点Key。说明 Redis社区版实例同一时间最多统计20个热点Key,Tair(Redis企业版)同一时间最多统计50个热点Key。...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台,作为数据库和数据应用之间的“桥梁”,DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力,帮助用户统一管理面向内外部的API服务。例如,您可以将...

压缩测试

本文介绍 云原生多模数据库 Lindorm 在不同场景下与开源HBase、开源MySQL和开源MongoDB之间压缩能力的对比结果。背景信息 Lindorm除多模超融合、开放兼容和云原生弹性等能力外,还具备了高效的数据压缩能力。Lindorm不仅支持深度优化的ZSTD...

概览

集群管理系统的概览页面提供了 云原生多模数据库 Lindorm 实例宽表引擎中所有表的详细信息,包括表的大小、分片情况、数据预览、表结构、限流信息等。本文介绍如何通过集群管理系统管理宽表。前提条件 已登录目标实例的集群管理系统,具体...

概述

Row-oriented AI NL2BI:用自然语言实时查看BI报表 典型解决方案 ID-Mapping在游戏领域的解决方案 通义千问大模型数据推理和交互 核心算法 LightGBM算法 DeepFM算法 K均值聚类算法(K-Means)随机森林回归算法(Random Forest Regression)...

Python内置资源包

numpy 无 算法基础处理。pandas 无 算法基础处理。psycopg2>=2.7.4 连接操作PostgreSQL。pyhdfs>=0.2.1 Hadoop计算引擎下,使用PostgreSQL。pyhs2>=0.6.0 连接并操作HDFS。pyodps>=0.7.16 ODPS操作,适用ODPS。pyspark>=2.3.1 Hadoop计算...

Python内置资源包

numpy 无 算法基础处理。pandas 无 算法基础处理。psycopg2>=2.7.4 连接操作PostgreSQL。pyhdfs>=0.2.1 Hadoop计算引擎下,使用PostgreSQL。pyhs2>=0.6.0 连接并操作HDFS。pyodps>=0.7.16 ODPS操作,适用ODPS。pyspark>=2.3.1 Hadoop计算...

数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所...

数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所...

列存索引中TopK算子的实现

由于内存算法和磁盘算法采用相同的数据组织格式,因此回退机制并不需要对数据进行重新组织,开销较小。另外,内存算法只会过滤非结果集的数据,因此直接使用内存算法已积累的sorted run参与磁盘算法的计算过程不会有正确性的问题。其他 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据传输服务 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用