大数据算法交易平台-大数据算法交易平台文档介绍内容-阿里云

X-Engine如何支撑钉钉跃居AppStore第一

在Link-Bench和阿里巴巴内部交易业务两个数据集上测试了X-Engine的存储空间效率。在测试中，对比开启压缩的InnoDB引擎，X-Engine有着2倍空间优势；对比未开启压缩的InnoDB，X-Engine则有着3~5倍空间优势。X-Engine如何实现低成本 X-Engine...

自定义召回模型

智能推荐算法平台已经将包含数据和完整使用链路的推荐召回案例内置于模板业务节点中。在画布左上角的“商品推荐召回模型”，右键从模板创建。会生成如下图所示的实验，先点击运行按钮执行实验。右键数据源，点击查看数据。数据源：本数据源...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

产品特点

可适配用户任何的车上系统输出的数据格式不绑定算法供应商，用户可自行上传预标注、数据预处理、格式转换等算法在平台上运行不绑定工具链内各模块，用户可以根据自身需要决定使用其中几个部分云原生支持在云上大规模调度仿真软件如VTD...

视频个性化推荐（协同过滤）

本案例将以视频社交平台的'猜你喜欢'和'详情页相关推荐'为例，通过推荐算法为用户呈现最符合其兴趣的视频内容为背景，为您介绍在DataWorks中如何使用阿里云PAI的协同过滤算法挖掘深层次的数据关联性，实现视频的个性化推荐。背景信息 ...

模型配置

算法模型的优劣依赖于训练数据，数据质量越高，数据量越大，算法效果越好。算法模型使用的行为数据集的数据要求与一般数据集有所不同，请参见行为数据集样例准备数据。数据存储于ADB3.0类型的数据源中，且数据源已接入Quick Audience，请...

什么是开放平台

阿里云工业开放平台是基于阿里云大数据的一体化计算平台，通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集，并借助图像、视频识别、机器学习和人工智能算法，来激活海量数据价值。...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

产品优势

云计算大数据能力标准化、高可用、弹性可扩展的大数据与云计算的平台能力。支持云和端一体化，在“云”上提供了海量数据处理能力，为庞大复杂的工业产线提供数据挖掘分析，并实现复杂算法模型训练。训练好的智能服务能够以轻量级模式在...

产品概述

AIRec智能推荐阿里云智能推荐AIRec（Artificial Intelligence Recommendation，简称AIRec）基于阿里巴巴大数据和人工智能技术，结合在电商、内容、新闻资讯、视频直播和社交等多个行业领域的积累，为全球企业及开发者提供个性化推荐服务。...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

列存索引中TopK算子的实现

在海量数据上求TopK是一个很经典的问题，特别是衍生出的深翻页查询，给分析型数据库带来了很大的挑战。本文将介绍 PolarDB MySQL版的列存索引（In Memory Column Index，IMCI）特性如何应对这样的挑战。背景业务系统中普遍存在这样一种...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

基本概念

该系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法等，结合云原生多模数据库 Lindorm 宽表引擎强大的分布式存储能力以及DAL Spark分析平台，可以广泛应用于空间或时空存储、查询、分析和数据挖掘场景...

测试数据构建

数据管理DMS的测试数据构建功能拥有强大的算法引擎，支持批量生成各类随机值、地区名、虚拟IP地址等信息，可以大大减轻准备测试数据的负担。本文介绍构建测试数据的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

数据服务简介

DataWorks离线数据集成物联网平台数据服务中的平台系统表、产品属性时序表、产品事件表和自定义存储表数据，可以集成到阿里云大数据开发治理平台（DataWorks）中构建数据仓库，以提升数据应用效率。实时数据集成（Flink版）物联网平台数据...

什么是工业大脑AICS

通过输出“供、研、产、销”全链路智能算法服务，激活工业海量数据的价值，帮助工业生态伙伴快速、低成本构建行业解决方案，最终实现把人工智能与大数据技术接入到传统的生产线中，帮助生产企业实现数据流、生产流与控制流的协同，提高生产...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

选型指导

基于大数据开发实践，我们建议的选型为：序号模块/用途云服务 1 建模、数据清洗、任务调度等机器学习PAI、大数据开发治理平台DataWorks、云原生大数据计算服务MaxCompute 2 模型存储对象存储OSS 3 实时特征存储引擎图计算GraphCompute...

产品优势

提高开源组织版本管理效率，快速支持业务创新更多开源软件支持更高软件版本支持覆盖从边缘到AI全场景企业级的服务支持，降低运维成本，缩短故障处理时间来自阿里云和Cloudera的7*24小时大数据专家服务支持快速定位使用中遇到的问题，...

什么是数据资源平台

协同数据同步：数据同步可实现离线、实时多源异构数据的便捷同步或接入，系统可提供完善的数据接入配置、数据模板配置、数据同步任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

什么是DataTrust

优质供给随着全域群体智能兴起，各大平台在积极探索与生态伙伴的合作，进行数据、场景、业务共创，以推动行业的发展。DataTrust，作为阿里官方隐私计算平台，以安全合规的方式支持数据生态联通，帮助阿里和生态伙伴更好的进行业务创新，...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

什么是个性化算法开发平台

个性化开发平台（The Personalization Platform，简称TPP)，面向算法和工程同学，支持召回、在线预测等业务编排的开发平台，专注于推荐、搜索、广告行业。提供成熟的工程框架，帮助算法从资源管理、运维中解放出来，专注业务逻辑开发、业务...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

JindoCache概述

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

大数据算法交易平台

新品推荐