MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案,DBS沙箱功能提供原始数据库SQL接口,不需要开发人员编写离线分析脚本,并由于使用快照存储机制,存储成本也更低。费用说明 更多信息,请参见 DBS沙箱费用。后续步骤 自建MySQL应急恢复...

基于MaxCompute进行大数据BI分析

方案介绍 基于MaxCompute进行大数据BI分析的流程如下:通过数据集成同步业务数据和日志数据至MaxCompute。通过MaxCompute、DataWorks对数据进行ETL处理。同步处理后的结果数据至AnalyticDB MySQL。通过Quick BI可视化建立用户画像。方案...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将...MaxCompute处理业务数据和日志数据后,可以通过Quick BI快速地以可视化方式展现数据处理结果,详情请参见 基于MaxCompute的大数据BI分析。

HTAP中的行列混存查询优化

即先按照各个谓词的选择率排序,之后按照如下公式计算选择率:该算法在基于现实数据部分数据集中能有效地减少估计误差。优化效果评估 在TPCH 1 TB数据集上测试开启/关闭IMCI查询优化的性能。如下图所示:由上图可以看出,对于Q8和Q9的...

2020年

基于MaxCompute的大数据BI分析最佳实践 2020-04-03 新增MaxCompute支持限制单SQL消费功能。新说明 介绍Project级别和Session级别的单SQL限制消费。消费监控告警消费控制 2020年3月更新记录 时间 特性 类别 描述 产品文档 2020-03-27 支持三...

客户案例

同时,OceanBase 还为报表平台量身定制了近似计算的功能,对于一些超大结果集的运算,OceanBase 会筛选出一些精度影响较大的数据,然后基于这些数据进行汇总计算,在超大的数据计算的情况下,能够快速的得出一个离正确结果相差不大的近似...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路,DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力,基于“I(Identify)P(Protect)D(Detect)R(Respond)”理论框架,从资产识别、安全防护、行为检测、...

文档修订记录

Check节点 2024.1.12 新增功能 最佳实践 新增DataWorks大数据安全治理实践新增指南,为您介绍数据安全治理的常见思路、DataWorks产品的安全能力,以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

发展历程

2017年 TPC的benchmark适配MaxCompute,进行了全球首次基于公共云的BigBench大数据基准测试,数据规模拓展到100 TB,成为首个突破7000分的引擎,性能达到7830 QPM。获得中国国际软件博览会金奖。中国电子学会科技进步特等奖(被业界誉为...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

外部表概述

但这两种方法都有不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太,还需要考虑如何并发来加速,无法充分利用MaxCompute的规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...

数据分析概述

DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势 与本地数据分析相比...

数据标准概述

标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据为新建系统提供支撑,提升应用...

数据标准概述

标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据为新建系统提供支撑,提升应用...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时,您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

列存索引(IMCI)发布说明

PolarDB MySQL版 重磅推出的列存索引(In-Memory Column Index,简称IMCI)面向OLAP场景大数据量复杂查询。通过列存索引,PolarDB MySQL版 实现了一体化的实时事务处理和实时数据分析的能力,成为一站式HTAP数据库产品解决方案。通过一套...

概述

PolarDB MySQL版 重磅推出的列存索引(In-Memory Column Index,简称IMCI)面向OLAP场景大数据量复杂查询。通过列存索引,PolarDB MySQL版 实现了一体化的实时事务处理和实时数据分析的能力,成为一站式HTAP数据库产品解决方案。通过一套...

2022年

基于MaxCompute的智能推荐解决方案 基于MaxCompute+开放搜索的电商、零售行业搜索开发实践 基于MaxCompute+PAI的用户增长方案实践 基于MaxCompute的实时数据处理实践 基于MaxCompute分布式Python能力的规模数据科学分析 基于MaxCompute+...

什么是EMR on ACK

当ACK集群准备就绪后,EMR将基于ACK的资源安装部署大数据服务组件,并在容器内运行。EMR on ACK优势 优势 描述 节省成本 您无需为大数据服务单独购买ACK集群,通过简单的配置即可在已有的ACK集群上执行大数据作业,成本低廉。复用现有ACK...

客户案例

大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(“基于用户ID...

使用ETL分析实时订单

应用场景 为满足企业处理实时数据的需求,ETL提供了流式数据抽取、加工和加载功能,能够高效整合海量实时数据,支持拖拽式操作和低代码开发方式,帮助企业轻松完成商业决策分析、报表提速、实时数据计算等。企业在数字化转型过程中,涉及...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

整体架构

AnalyticDB MySQL版 是基于数据数据一体化的理念和趋势,在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB MySQL版 采用云原生架构,计算存储分离、冷热数据分离,支持高吞吐实时写入和数据强一致,兼顾高并发查询和吞吐批...

简介

数据工作站可以结合语言模型给业务开发、数据开发、分析师和数据运营同学赋能,提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息,以文档的形式进行交付,并在交付后,希望有可以替您...

Data Copilot智能助手

DMS Data Copilot是 DMS 基于阿里云模型构建的数据智能助手。其结合了 DMS 熟练的数据管理、数据使用能力,可帮助开发、运维、产品、运营、分析师和数据库管理员,更高效、规范地使用和管理数据。本文为您介绍如何使用DMS Data Copilot。...

功能特性

数据分析概述 访问数据分析功能 管理数据集 仪表盘 Copilot Copilot是DMS基于阿里云模型构建的数据智能助手。其结合了DMS熟练的数据管理、数据使用能力,可帮助开发、运维、产品、运营、分析师和数据库管理员,更高效、规范地使用和管理...

Napatech案例

基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过Lindorm存储,在数据的存储和索引性能方面得到极大的提升,同时也极大地降低整个系统的运维成本。客户价值 支持多个100G数据流量采集点的数据包元数据存储...

典型场景

基于湖构建数据平台,支持BI、挖掘等业务 对象存储OSS可以作为湖存储,DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖 实时数据湖:支持DB的CDC与消息数据(如Kafka)入湖,构建...

数据分析整体趋势

随着Google等互联网企业崛起,以Hadoop为代表的基于传统x86服务器集群的大数据技术迅速发展,同时开源分布式数据库如Greenplum等也成为相应替代方案,为广大中小企业,尤其是互联网行业大大降低了数据分析的技术和成本门槛,还有分布式技术...

使用DataHub(实时数据传输)

DataHub 是MaxCompute提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用。DataHub同样提供流式数据归档的功能,支持流式数据归档至...

面临的业务挑战

这些不同来源、不同格式的数据,各自又有不同的访问和分析方式,而大量传统企业基于关系数据库构建自己的业务系统,已经非常熟悉按SQL的方式去使用数据,这无疑增加了企业存储和使用数据的成本。分析不实时 企业运营的形式越来越多样化,...

管理数据

注意事项 数据分析后续所有的分析工作、仪表盘制作和大屏制作都是基于数据集进行的,因此在进行其他功能前,必须先创建数据集。创建数据集 方式一:通过控制台顶部菜单栏操作创建数据集 登录 数据管理DMS 5.0。在顶部菜单栏中,选择 集成与...

创建DataHub项目

阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。前提条件 您已经完成了 创建RDS MySQL数据库表。操作...

通用数据开发

说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...

羲和分析计算引擎

比如:利用数据分布,直接进行基于特定数据的计算,避免分布式系统中数据和命令流交互的开销。利用数据存储的能力,下推谓词、聚合等计算,实现近存储的计算加速。利用数据模型中的范式依赖,数据数值类型等进行查询执行算法优化。

计费逻辑说明

资源费用明细:智能监控 数据服务 数据服务支持基于数据源封装API,或将已有API添加至平台,通过该方式对外提供服务。DataWorks将根据数据服务调用量计费,您可选择包年包月的独享数据服务资源组,或按量付费的公共数据服务资源组进行API...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 DBS 云数据库 Redis 版 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用