什么是大数据算法-什么是大数据算法文档介绍内容-阿里云

概述

数据探索的算子分为三大类：脚本算子：由程序语言编写，通常不具备可解释性，例如一个Jar包、一个算法镜像等。连接器：关联现实世界中的某种资源，例如读取MaxCompute表等。抽象算子：使用了表达式规范和关系描述符的可解释算子。表达式...

如何处理Tair集群数据倾斜

为什么会产生数据倾斜 Tair 集群架构作为一个分布式系统，整个数据库空间会被分为16384个槽（Slot），每个数据分片节点将存储与处理指定Slot的数据（Key），例如3分片集群实例，3个分片分别负责的Slot为：[0,5460]、[5461,10922]、[10923,...

如何处理Redis集群数据倾斜

为什么会产生数据倾斜 Redis 集群架构作为一个分布式系统，整个数据库空间会被分为16384个槽（Slot），每个数据分片节点将存储与处理指定Slot的数据（Key），例如3分片集群实例，3个分片分别负责的Slot为：[0,5460]、[5461,10922]、[10923,...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

数据源权限管理

什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的移除、关联情况？分享数据源后，其资源组的连通状态是否会被同步分享？分享数据源后，引用过该数据源的任务关联信息是否会被同步分享？哪些角色可以...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

基于向量分析的个性化推荐系统

insert into news(news_id,create_time,title,content,keywords,click_times,two_hour_click_times)values(1,now(),'什么是云原生数据仓库AnalyticDB MySQL版','云原生数据仓库AnalyticDB MySQL版是融合数据库、大数据技术于一体的云原生...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据传输DTS：数据传输服务（Data Transmission Service）DTS支持关系型数据库、NoSQL、大数据（OLAP）等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下，...

分区表常见问题

如：大租户的数据量多，但大租户少；中小租户多但数据量少；或者随时会新增小租户，无法在建表时全部枚举出来。在这种场景下，您可以在一张分区表中同时使用两种分区：大租户单独使用LIST分区，或多个大租户组合使用一个LIST分区。分区个数...

负载均衡调度算法介绍

负载均衡会根据配置的调度算法，将来自客户端的请求按照对应的算法规则转发至...相关文档您可参考下列文档了解相应的负载均衡产品及差异：负载均衡SLB产品家族介绍 什么是应用型负载均衡ALB 什么是网络型负载均衡NLB 什么是传统型负载均衡CLB

秒级加字段（Instant Add Column）

本文介绍了什么是秒级加字段功能及如何使用。传统方法给表中增加列时，存储节点上需要重建所有物理分片数据，会占用大量系统资源。PolarDB-X 新增的秒级加字段（Instant Add Column）功能，在加列操作时只需变更表定义信息，无需修改已有...

数据加工过程卡点校验

数据在数据仓库中进行清洗、加工、整合、算法和建模等一系列运算后，再通过同步工具输出到数据产品中进行消费。整个流程中，先有数据加工，才有数据仓库模型和数据仓库代码的建设。因此，保障数据加工过程中的质量是保障离线数据仓库整体...

常见问题

使用场景如何使用产品形态使用频次公安、保安、司法、交通、新零售使用VCS产生的视频结构化数据和向量比对接口专有云、公共云每天[视觉计算服务]和现有的产品/解决方案比起来带给客户的最大价值是什么？序号用户场景与现有产品/...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

按时间戳冷热分离

注意事项若某一行数据同时包含热数据和冷数据，例如更新了部分列导致一行数据中既存在热数据又存在冷数据的场景，开启查询热数据优先功能会导致该行的查询结果分两次返回，即Scanner返回的Result集合中，对于同一个Rowkey会有两个对应的...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如，Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks ...

PolarDB for AI NL2SQL正式商业化，欢迎免费体验！

NL2SQL商业化开始日期 2023年10月1日 什么是PolarDB for AI和NL2SQL PolarDB for AI 是基于 PolarDB MySQL版的一个数据库内的分布式机器学习组件。其基于云原生的体系架构，通过SQL语句的方式提供了支持机器学习的一系列MLOps，包括：创建...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入，由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议，使数据库服务具备自动扩展存储和计算资源的能力。背景信息为业务应用选择一个合适的数据库计算...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

文档检索和LLM集成

AnalyticDB PostgreSQL特别适合处理大规模数据集，支持实时分析和决策支持，是企业进行数据挖掘、商业智能（BI）、报告和数据可视化的有力工具。作为一种托管服务，它简化了数据仓库的管理和运维，让用户能够专注于数据分析而不是底层基础...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

AUTO模式核心特性及典型场景

如果 PolarDB-X 能通过DDL的方式删除历史数据，将极大的提高清理数据的速度，基于这种思路 PolarDB-X 在AUTO模式下开发出了TTL的功能，可以快速的删除历史数据，详情请参见 什么是TTL功能。若在建表时使用TTL相关语法，则将创建一张TTL表。...

导入与导出

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

RDS MySQL通过专线接入金融云DBS

更多详情请参见 什么是VPN网关。IPsec-VPN：IPsec-VPN是一种基于路由的网络连接技术，提供灵活的流量路由方式，方便您配置和维护VPN策略，适用于在企业本地数据中心或企业办公网络与VPC之间建立网络连接。场景示例某企业在金融云华东1...

性能优化与诊断简介

在RDS MySQL日常运维中，您可以通过数据库自治服务DAS...例如，授予RAM账号只读权限：{"Action":["hdm:Get*","hdm:Describe*","hdm:Query*","hdm:Support*"],"Effect":"Allow","Resource":"acs:rds:*:*:*"} 相关文档 什么是数据库自治服务DAS

概述

为什么需要冷启动通常推荐系统通过协同过滤、矩阵分解或是深度学习模型来生成推荐候选集，这些召回算法一般都依赖于用户-物品行为矩阵。在真实的推荐系统中，会有源源不断的新用户、新物品加入，这些新加入系统的用户和物品由于缺乏足够...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的 ...

创建AnalyticDB for MySQL 2.0数据源

更多云原生数仓AnalyticDB MySQL信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源...

C100售前支持相关问题

数据库审计和其他产品的区别数据库审计产品相对于自己安装Packetbeat抓取流量审计和RDS数据库自带的SQL洞察功能，有以下区别：支持的数据库协议：数据库审计产品是专注于数据库协议解析的，支持的数据库协议更丰富，解析的粒度更细。数据...

A100使用指南

支持审计10个数据库实例 12,000元/月 144,000元/年企业版吞吐量峰值：30,000条SQL/秒 800万/小时入库速率 10亿条在线SQL语句存储 350亿条归档SQL语句存储支持审计25个数据库实例 20,000元/月 240,000元/年说明可以通过需要使用的数据...

类目预测功能介绍

什么是类目预测搜索引擎效果优化在查询意图理解阶段有语义理解、命名实体识别、词权重分析、拼写纠错等手段，在排序阶段有文本相关度、人气模型、类目预测等手段。通过配置查询分析策略和调整排序公式，搜索效果优化有很大的提升空间，再...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源...

AUTO模式数据库与DRDS模式数据库

本文介绍了什么是AUTO模式数据库与DRDS模式数据库，以及这两者模式的区别。PolarDB-X数据库模式概述从 PolarDB-X 5.4.13版本开始，新增支持AUTO模式的数据库（也称为自动分区数据库）。AUTO模式的数据库支持自动分区，即创建表时无需指定...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

应用场景

例如，在一个典型的社交网络中，常常会存在“谁认识谁，谁上过什么学校，谁常住什么地方，谁喜欢什么餐馆”等查询，传统关系型数据库对于超过3张表关联的查询往往会很低效甚至无法支持，但图数据库从基因层面提供了解决方案，轻松应对社交...

文档更新动态（2022年）

更新说明 什么是Dataphin 添加派生指标和衍生指标新建注册上挂标签 2022年07月19日增加回收站功能可以将删除的数据处理任务还原。新增说明管理回收站的资源对象 2022年07月19日实时研发新增支持Ververcia Flink引擎支持Flink SQL流批...

什么是大数据算法

新品推荐