低成本历史库

大数据生态 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。典型应用 用户交易记录通过App写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态...

行业趋势与背景

数据库系统是一切应用软件的数据处理及交换核心,是所有基础软件进行数据存储、查询、分析处理的中心。数据库系统运行性能是否高效稳定、接口语言是否通用,直接决定了上层应用能否给用户提供好的性能,同时直接影响开发人员效率。根据全球...

解决方案与客户案例

案例架构 客户基于本方案,整合了TP/AP场景的多活能力,借助RDS、PolarDB-X、ADB、DTS、DMS、MSHA等产品,有效实施了异地多活容灾能力,达到国标6级容灾能力要求:RDS、PolarDB-X承载TP(Transaction Processing,事务型处理)类数据处理,...

数据归档概述

当线上数据库中的历史数据(访问率很低的数据)越来越多,占用的存储越来越,以至于会影响数据库的查询性能与业务运转,此时您可以使用 数据管理DMS 的数据归档功能,周期地将指定表的数据归档至其他数据库或存储服务中。同时,该功能...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎,具有高性能、易用和普遍等特点,可用于进行复杂的内存分析,构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点,便于您在DataWorks上进行Spark任务的开发和周期调度。本文为您介绍...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

2023年

MaxCompute服务不可用赔付案例说明 2023-07-25 新增MaxCompute停止服务规格转换操作指引 新说明 阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务,您需要将这些版本的计算资源转换为...

高效数据治理实施指南

背景信息 在多人协作的数据团队中,数据治理是重要且繁琐的工作,在解决“如何制定客观的数据治理目标”、“如何高效推动团队达成治理目标”的过程中,通常包含以下挑战:问题难定位:传统数据治理方式难以快速、完整、精准地定位潜在问题...

2020年

Kafka Partition同步策略说明 从RDS同步至自建Kafka集群 DTS产品接入至云监控平台,可以对实例重要的监控指标设置报警规则,让您及时得知指标数据发生异常,帮您迅速定位处理故障。通过云监控平台为DTS任务设置报警规则 周期全量数据迁移...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明 当前MaxCompute MaxFrame功能...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能 上传与下载 DataWorks的上传与下载模块,提供了便捷的数据上传功能,支持将多种来源(例如,本地文件、OSS文件)的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作,致力于为您...

产品优势

亿级设备规模,自动扩展,保证连接稳定,设备消息到平台处理时长在50ms以内。需要搭建基础设施,联合嵌入式开发人员与云端开发人员共同开发。开发工作量、效率低。架构上难以支撑百万级的设备规模,设备并发连接很多时难以保证平台稳定...

权限管理与规范化数据开发

其中生产环境的MaxCompute访问身份即调度访问身份,是开发任务发布到生产环境进行周期调度运行时所使用的身份,通常情况下为保证调度任务顺利进行,比起开发者自己的身份来,调度访问身份往往拥有较大数据范围读写权限。生产环境...

应用场景

EMR Serverless Spark不仅集成了任务调度系统,使得您能够便捷地构建与管理数据ETL流程,轻松实现自动化及周期性数据处理,而且还内置了先进的版本控制机制。这一机制确保了开发与生产环境的彻底隔离,确保符合企业级用户在研发和发布流程...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...,赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

权限自查建议

随着项目的不断演进,人员的权限也会更新迭代,您需要及时审视人员权限合理,提升项目数据安全。本文为您介绍权限查询要点,并提供调整建议供参考。背景信息 在项目创建初期,为了提升业务处理效率,通常在用户和权限管理上相对宽松。...

产品简介

产品简介 阿里巴巴通义实验室千寻搜索算法,基于达摩院长期积累的自然语言处理技术,专注企业统一搜索场景,提供精准的多源异构搜索,以PaaS服务形式提供离线数据处理和搜索服务API。同时支持公有云、专有云、基于云原生的基础架构下混合云...

同步 OceanBase 数据库的数据至 Kafka

背景信息 Kafka 是目前广泛应用的高性能分布式流计算平台数据传输支持 OceanBase 数据库两种租户与自建 Kafka 数据源之间的数据实时同步,扩展消息处理能力,广泛应用于实时数据仓库搭建、数据查询和报表分流等业务场景。前提条件 数据...

功能发布记录 2022年之前

DataWorks的数据治理中心从全局视角、工作空间视角、个人视角,自动发现并量化平台使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题,并通过健康分模型进行统计,以治理报告及治理排行榜的形式呈现治理...

什么是EMR Serverless Spark

它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark,企业可以更专注于数据分析和价值提炼,提高工作效率。产品特性 构建企业级全托管的数据...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备,应用...

客户案例

价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

产品优势

AnalyticDB MySQL版 提供融合数据库、大数据技术于一体的云原生企业级数据仓库服务,高度兼容MySQL,支持毫秒级更新,亚秒级查询。无论是数据湖中的非结构化或半结构化数据,还是数据库中的结构化数据,您都可使用 AnalyticDB MySQL 构建...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

升级数据库版本

本文介绍云数据库MongoDB支持升级的数据版本以及如何升级数据版本。注意事项 升级分片集群实例的数据版本时,实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行,升级过程中会自动对实例进行2~3次重启,请在业务低...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理EMR集群,从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS,您可以快速创建、管理和运维EMR集群,同时也能够更加高效地使用计算和...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品服务等级协议

2.服务可用 2.1 服务可用计算公式 服务可用以单个实例为维度,按照如下方式计算:服务可用=(服务周期总分钟数-服务不可用分钟数)/服务周期总分钟数╳100%2.2 服务可用承诺 数据资源平台服务可用不低于99.95%,如数据资源平台...

选型配置说明

Utility工具节点在集群中扮演很重要的角色,存储了大量的集群元数据,并且维护了CDP的管控平台,因此Utility工具节点的可用至关重要,Utility工具节点的存储仅支持云盘存储,以保证数据的可靠。Core节点的选型 Core节点主要用于数据...

什么是自动驾驶开发平台

数据管理提供自动驾驶采集数据在云上数据预处理、预标注、管理、检索、重组、回放、输出到仿真或训练系统中的能力:非结构化数据处理针对非结构化数据处理提供DAG调度和并行计算能力,构建自动调度的10倍加速的自动驾驶数据工作流 多模态...

使用场景

业务流程自动化 结合DMS任务编排的调度和依赖管理功能,可以实现业务流程的自动化处理,提高工作效率和数据处理的准确数据治理与数据管控 DMS任务编排提供了数据源的配置和管理功能,支持对数据源进行统一管理和控制,保证数据的安全性...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

数据标准概述

通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。应用场景 DataWorks的数据标准包含 字段标准、标准代码、度量单位、...

Transaction Table2.0概述

现状分析 当前典型的数据处理业务场景中,对于时效要求低的规模数据全量批处理的单一场景,直接使用MaxCompute足以很好的满足业务需求,对于时效要求很高的秒级实时数据处理或者流处理,则需要使用实时系统或流系统来满足需求。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用