大数据用的算法-大数据用的算法文档介绍内容-阿里云

时序异常检测

数据服务提供时序异常检测算法，采用智能时序算法，实时分析设备时序数据，准确感知设备异常现象。查看基本信息在物联网平台控制台的实例概览页面，单击目标企业版实例卡片。...算法的使用流程创建算法实例配置算法实例查看实例运维

DBMS_CRYPTO

ENCRYPT 函数 ENCRYPT 或存储过程 ENCRYPT 使用用户定义的算法、键及可选的初始化向量来对RAW、BLOB或CLOB数据加密。函数 ENCRYPT 的语法如下：ENCRYPT(src IN RAW,typ IN INTEGER,key IN RAW,iv IN RAW DEFAULT NULL)RETURN RAW 存储过程 ...

列存索引中TopK算子的实现

在海量数据上求TopK是一个很经典的问题，特别是衍生出的深翻页查询，给分析型数据库带来了很大的挑战。本文将介绍 PolarDB MySQL版的列存索引（In Memory Column Index，IMCI）特性如何应对这样的挑战。背景业务系统中普遍存在这样一种...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们离职、换部门了怎么办？这其中很有可能出现权限蠕变、过度...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

客户案例

数据体系整体上云，使用少量组件即可实现流批一体、湖仓一体，完成从数据驱动到数智驱动，极大发挥数据价值。视频介绍社交媒体行业：欢聚时代大规模数据湖建设客户简介欢聚时代成立于2005年，是全球领先的社交媒体企业，旗下运营多款...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

外部表概述

创建好的外部表可以像普通的MaxCompute表一样使用（大部分场景），充分利用MaxCompute SQL的强大计算功能。说明使用外部表功能时，外部表的数据不会复制一份存在MaxCompute上并产生存储费用。外部表支持全量搜索。Tunnel功能及Tunnel SDK...

创建Impala数据源

使用限制 Dataphin的Impala数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。仅当连接E-MapReduce 5.x版本的Impala数据源时，才支持使用DLF获取元数据。...

创建Impala数据源

使用限制 Dataphin的Impala数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。仅当连接E-MapReduce 5.x版本的Impala数据源时，才支持使用DLF获取元数据。...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

独享资源组

独享资源组使用场景独享调度资源组使用场景独享数据集成资源组使用场景独享资源组网络配置独享资源组访问VPC环境下数据的前提条件是什么？如何查看数据源的网络环境？添加独享资源组白名单独享资源组商业化行为如何对资源组进行续费...

数据模型架构规范

数据处理流程架构数据划分及命名空间约定请根据业务划分数据并约定命名，建议针对业务名称结合数据层次约定相关命名的英文缩写，这样可以给后续数据开发过程中，对项目空间、表、字段等命名做为重要参照。按业务划分：命名时按主要的业务...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

敏感数据访问及导出情况

数据访问页面为您展示基于配置规则识别出的敏感数据的访问量、访问趋势、导出量和导出明细等，帮助您掌控每一次访问敏感数据的情况。该页面E-MapReduce计算引擎的操作数据展示暂只支持上海region。前提条件阿里云主账号已授权开通数据保护...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

数据质量教程概述

数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。前提条件在开始本教程前，请您首先完成搭建互联网在线运行分析平台教程，详情请参见业务场景与开发流程。业务场景 ...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

SQL查询

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。支持查询的数据源 SQL查询支持的数据源包含MaxCompute、Hologres、EMR Hive、EMR Spark SQL...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

使用DataWorks

当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的数据导出至其他数据源。背景信息数据集成的导出方式有如下两种：向导模式：创建离线同步节点后，...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

A100使用指南

12,000元/月 144,000元/年企业版吞吐量峰值：30,000条SQL/秒 800万/小时入库速率 10亿条在线SQL语句存储 350亿条归档SQL语句存储支持审计25个数据库实例 20,000元/月 240,000元/年说明可以通过需要使用的数据库实例的数量来选择需要...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

人群预测

新建预测任务说明新建预测任务时将使用状态为训练成功的唯一算法模型，请确保本空间当前有训练成功的算法模型，否则不能新建预测任务。可预测用户范围为算法模型使用的行为数据集涉及的用户，且用户在该行为数据集中必须在近1年内有购买...

设置列存数据压缩算法

col1、col2和col3列的数据都使用LZ4算法进行压缩。表 t13 未设置表的压缩算法，col1单独配置为不开启压缩；col2未设置 codec_opt，将使用参数 imci_default_codec 配置的压缩算法，使用LZ4算法压缩；col3设置 codec_opt={ZSTD}，由于列的...

EncDB SDK

如果您希望使用全密态功能对数据库表中的被保护数据列进行加密，并且使用Java应用程序访问数据库，可以使用全密态客户端Java SDK模块EncDB SDK接入全密态数据库，接入操作便捷，能够降低使用全密态功能的成本。本文介绍如何通过EncDB SDK...

EncJDBC

如果您希望使用全密态功能对数据库表中的被保护数据列进行加密，并且使用Java应用程序访问数据库，可以使用全密态客户端驱动程序EncJDBC接入全密态数据库，接入操作便捷，能够降低使用全密态功能的成本。本文介绍如何通过EncJDBC访问全密态...

高效向量检索（PASE）

在大数据量的情况下，使用HNSW算法的性能提升相比其他算法更加明显，但邻居点的存储会占用一部分存储空间，同时召回精度达到一定水平后难以通过简单的参数控制来提升。HNSW的算法原理请参见下图。算法流程说明：构造多层图，每层图都是下层...

高维向量检索（PASE）

在大数据量的情况下，使用HNSW算法的性能提升相比其他算法更加明显，但邻居点的存储会占用一部分存储空间，同时召回精度达到一定水平后难以通过简单的参数控制来提升。HNSW的算法原理参见下图。算法流程说明：构造多层图，每层图都是下层图...

高维向量检索（PASE）

在大数据量的情况下，使用HNSW算法的性能提升相比其他算法更加明显，但邻居点的存储会占用一部分存储空间，同时召回精度达到一定水平后难以通过简单的参数控制来提升。HNSW的算法原理参见下图。算法流程说明：构造多层图，每层图都是下层图...

开发环境场景画布概览

计算节点：在场景画布中添加的包含处理数据代码的算法节点，仅适用于当前场景。公共节点：在公共节点管理界面中添加的算法节点，在多个场景中可复用。说明公共节点和计算节点的区别：公共节点：即计算节点封装，可以保存，以便后续有相同...

开发环境场景画布概览

计算节点：在场景画布中添加的包含处理数据代码的算法节点，仅适用于当前场景。公共节点：在公共节点管理界面中添加的算法节点，在多个场景中可复用。说明公共节点和计算节点的区别：公共节点：即计算节点封装，可以保存，以便后续有相同...

地图数据格式

本文档为您介绍DataV地图组件主要使用的GCJ-02坐标系和GeoJSON地理数据格式，以及通过坐标拾取器快速获取基于GCJ-02坐标位置的方法。GCJ-02坐标系目前，DataV的地图组件主要使用GCJ-02坐标系。GCJ-02是由中国国家测绘局（G表示国家Guojia...

大数据用的算法

新品推荐