大数据计算服务

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
  • 目前MaxCompute后付费只有SQL作业收费(不包括UDF),UDF/MR/Graph/PAI等作业是公测状态。近期将启动收费计划详情请关注官网公告。

产品概述

产品功能

数据通道

批量、历史数据通道

Tunnel是MaxCompute向用户提供的数据传输服务。该服务水平可扩展,支持每天TB/PB级别的数据导入导出。特别适合于全量数据或历史数据的批量导入。Tunnel提供了Java SDK,并且在MaxCompute的客户端工具中,有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

另一方面,针对实时数据上传的场景,我们提供了另一套名为DataHub的服务。该服务具有延迟低、使用方便的特点,特别适用于增量数据的导入。Datahub还支持多种数据传输插件,例如:Flume, Fluentd, Sqoop等。

存储

以二维表格式存储数据

所有数据均以表格式存储,不暴露文件系统。并采用列压缩存储格式,极高的数据压缩比极大节省了用户成本。通常情况下,MaxCompute存储具备5倍压缩的能力。

计算

SQL

MaxCompute SQL采用标准的SQL语法。更高效的计算框架支持SQL计算模型,执行效率比普通的MapReduce模型更高。需要注意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作。

MapReduce

MaxCompute提供的Java MapReduce编程模型。值得注意的是,由于MaxCompute并没有开放文件接口,用户只能通过它所提供的Table读写数据,因此MaxCompute的MapReduce模型与开源社区中通用的MapReduce模型在使用上有一定的区别。我们相信,这样的改动虽然失去一定的灵活性,例如:不能够自定义排序及哈希算法,但却能够简化开发流程,免除很多琐碎的工作。更为重要的是,MaxCompute还提供了基于MapReduce的扩展计算模型, 即MR2。在该模型下,一个Map函数后,可以接入连续多个Reduce函数。

Graph

对于某些复杂的迭代计算场景,例如:K-Means,PageRank等,如果仍然使用MapReduce来完成这些计算任务将是非常耗时的。MaxCompute提供的Graph模型能够非常好的完成这一类计算任务。

安全

MaxCompute是一个多租户的计算平台。默认情况下,各租户间数据不共享,彼此隔离,但用户可以通过MaxCompute提供的授权机制将数据共享给其他人。

产品优势

优势 描述

超大规模计算及存储

适用于100GB以上规模的存储及计算需求,最大可达EB级别。

多种计算模型与一身

支持丰富的计算模型。支持比MapReduce更高级的有向无环图计算逻辑,计算更高效。目前支持的计算功能包括:SQL,MapReduce,Graph以及MPI迭代类的算法。

高稳定性

在阿里巴巴集团内稳定运行达三年以上,支撑阿里巴巴集团几乎全部离线分析业务。每天支持10万以上的计算任务,处理上百PB的数据。

极大降低企业使用成本

与企业自建私有云相比,成本更低。更高效的计算及存储能力能够降低企业20%~30%的采购成本。

安全可靠

多层沙箱防护及监控系统有效保障用户数据安全。功能强大的授权功能使企业内部数据分享更加便利。

应用场景

应用场景与解决方案

  • 云上数据集成
  • 大数据仓库
  • 商业智能分析
  • 个性化推荐
  • 提供可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展的数据传输交互服务,有效帮助您解 决云环境、个人站点环境下异构数据存储系统的数据互通难题,让您数据不再成为孤岛!助您实现大 数据分析和实时商务智能。
    云上数据集成解决方案主要针对用户的数据所在的不同环境,提供相应的数据集成通道,帮助用户针对自己的数据环境快速的将数据导入到大数据计算服务MaxCompute中。
    本方案集中解决本地环境的本地数据库、本地日志,阿里云环境的ECS日志,以及类似RDS、OSS、OTS、DRDS等的云数据库数据导入MaxCompute的问题,并提供相应的工具、方法支持。
    云上数据集成解决方案详解

基于我们的优势,众多客户信任并使用阿里云的大数据计算服务,处理海量数据:

帮助与文档

开发者资源

  • 命令行工具

    基于Java SDK建立的客户端命令行工具,可以帮助您轻松、便捷的使用MaxCompute。

    下载 介绍
  • 数据导入工具

    MaxCompute提供多种数据导入导出方式:直接在客户端使用Tunnel命令 或者通过 TUNNEL 提供的SDK自行编写Java工具。同时支持业内主流的数据传输工具,例如:Fluentd、OGG等。

    Fluentd OGG
  • 开发插件

    为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,MaxCompute 提供了Eclipse开发插件。 该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能

    说明文档
  • SDK

    MaxCompute提供了Java/Python SDK。同时,提供了官方JDBC驱动,向Java程序提供了一套执行SQL任务和获取结果的接口。

    Java SDK说明文档 官方JDBC驱动 Python SDK
  • MaxCompute Studio

    MaxCompute Studio是一套基于 IntelliJ IDEA 开发插件,为开发者提供了良好的开发及项目管理体验,支持 MaxCompute 项目空间浏览、SQL 脚本和 UDF 编辑和智能提示、作业执行状态展示等功能

    点击下载 使用说明
  • 处理非结构化数据

    MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在其上实现与各种数据源的互通,对于打通各类数据具有重要意义。MaxCompute依托MaxCompute2.0系统架构,引入了非结构化数据处理框架:通过外部表,为各种数据在MaxCompute上的计算处理提供了入口。

    处理存储在OSS上的数据