HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

数据传输费用(公网下载)

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费,并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单,您可以进入 费用中心 查看。下载计费规则如下。计费公式 价格 说明 一次下载...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件 导入导出数据使用MaxCompute Tunnel,因此要求MaxCompute ...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

配置跨库Spark SQL节点

大数据量处理:支持快速处理较大规模的数据(十万条以上数据)。Spark SQL语法:基于Spark 3.1.2版本部署,提供该版本所有语法特性和原生函数。原生函数包括聚合函数、窗口函数、数组函数、Map函数、日期和时间处理函数、JSON处理函数等。...

公开数据集概述

TPC-H 10GB性能测试集 TPC-H 100GB性能测试集 TPC-H 1TB性能测试集 TPC-H 10TB性能测试集 tpch_10g tpch_100g tpch_1t tpch_10t TPCx-BB TPCx-BB Express Benchmark BB(TPCx-BB)是一个大数据基准测试,衡量基于Hadoop的大数据系统的性能...

兼容性概述

商业智能(BI)分析工具可以将复杂的数据转换成图表、仪表盘等形式,以直观的方式展示分析结果,使您能够快速把握业务状态。BI分析工具连接MaxCompute,能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源,为您带来更高效的数据...

DataWorks On Hologres使用说明

类别 描述 相关文档 OpenAPI DataWorks开放平台的OpenAPI功能,为您提供开放API能力,通过开放API实现本地服务和DataWorks服务的交互,提升企业大数据处理效率,减少人工操作和运维工作,降低数据风险和企业成本。开放API(OpenAPI)开放...

离线同步并发和限流之间的关系

在一些数据同步场景,脏数据的出现会导致任务同步效率下降,以关系数据库写出为例,默认是执行batch批量写出模式,在遇到脏数据时会退化为单条写出模式(以找出batch批次数据具体哪一条是脏数据,保障正常数据正常写出),但单条写出效率会...

常见问题

数据同步过程中,可以修改源表中的字段类型,目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改,并且只能将取值范围小的数据类型更改为取值范围数据类型,或者将单精度数据类型更改为双精度数据类型。整型数据类型:支持...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时,您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

管理健康报告

该健康报告提供了前一天(T+1)的数据,并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告 进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Serverless>StarRocks。在顶部菜单栏处,...

数据归档

RDS MySQL实例数据量较时,存储成本会随之增高。业务数据通常分为冷数据和热数据,将对象存储(OSS)作为归档冷数据的存储介质,能够大幅降低用户的存储成本。功能简介 在开启RDS MySQL通用云盘的数据归档OSS功能后,用户可通过执行下面...

代码智能推荐

用户可以在对话框中描述数据处理的需求,并支持对推荐的代码内容进行修改。前提条件 已登录DataV控制台 已进入画布编辑器页面 操作步骤 在当前数据看板中随机添加一个组件(例如:柱状图)。单击右侧配置面板中的 数据源。在 数据源 配置...

准备数据

数据准备阶段,您需要同步原始数据至MaxCompute。前提条件 已完成 准备环境。已新增MaxCompute数据源。详情请参见 创建MaxCompute数据源。准备数据源 通过RDS创建MySQL实例,获取RDS实例ID。详情请参见 快速创建RDS MySQL实例。在RDS控制...

文档修订记录

Check节点 2024.1.12 新增功能 最佳实践 新增DataWorks大数据安全治理实践新增指南,为您介绍数据安全治理的常见思路、DataWorks产品的安全能力,以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

基于AnalyticDB构建企业数仓

同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过,给源库造成太的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。错误记录数 错误记录数,表示脏数据的最大容忍条数。独享数据集成资源组 选择任务运行的...

常见问题

推荐您阅读 从开源到云原生,你不得不知的大数据实战。MaxCompute作为大数据平台,对业务数据是否有好的监控手段?MaxCompute仅支持通过DataWorks的数据质量功能 配置数据监控规则。无法监控外部数据源的字段变化。MaxCompute的项目发挥...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述 主流的三大分布式计算框架...

大数据安全治理的难点

同时,大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点,存在诸多安全治理难点。数据安全治理的关键问题 数据安全治理能否清楚、准确地回答如下问题,将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护?您有...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息,请参见 行业客户案例...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介 亿海蓝是中国的航运大数据公司,做为中国最大的AIS数据服务运营商,发展目标是通过大数据技术推动全球航运物流与互联网的融合,加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务,客户涵盖港口...

DataWorks产品安全能力介绍

备份与恢复:云原生底层存储天然支持三份副本备份,同时,大数据计算服务MaxCompute提供数据备份与恢复功能,您可对保留周期内的数据进行快速恢复,避免因错误操作丢失数据。安全销毁:阿里云上落盘的数据一经删除,永久不可恢复;同时,...

概述

DataWorks的安全中心作为云上大数据体系的安全门户,致力于向您提供面向数据安全生命周期全过程的安全能力,同时在符合安全规范要求的前提下,提供各类安全诊断的最佳实践。其核心功能如下:数据权限管理 安全中心为您提供精细化的数据权限...

内存型

Sketches Bloom RedisBloom TairBloom兼容RedisBloom,支持动态扩容,同时通过64位的Hash算法降低Hash碰撞率,显著降低大数据的冲撞率。最佳实践:推荐系统、爬虫系统,更多信息请参见 Bloom。Cpc 无 TairCpc是基于CPC(Compressed ...

推荐场景

个性化推荐基于用户的历史行为习惯,商品、电影本身的属性等数据集,这些数据之间相互关联,应用推荐策略时需要利用这些数据之间复杂的关联关系,因此使用图数据库来存储这些数据是非常合适的。建模 本文以书籍的个性化推荐举例,来说明...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

整体架构

AnalyticDB MySQL版 是基于数据库大数据一体化的理念和趋势,在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB MySQL版 采用云原生架构,计算存储分离、冷热数据分离,支持高吞吐实时写入和数据强一致,兼顾高并发查询和大吞吐批...

通过RAM角色授权模式配置数据

因此,云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole,并限制可以使用角色的人员为大数据团队的相关人员,实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为 阿里云账号、角色名称为 BigDataOssRole 的自定义...

ListDoctorHiveTables-批量获取Hive表分析结果

数据指的是 7 日内没有访问的数据,但是 30 日以内有访问的数据。coldDataSize:冷数据数据量大小。冷数据指的是 30 日内没有访问的数据,但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

数据指的是 7 日内没有访问的数据,但是 30 日以内有访问的数据。coldDataSize:冷数据数据量大小。冷数据指的是 30 日内没有访问的数据,但是 90 日以内有访问的数据。freezeDataSize:极冷数据数据量大小。极冷数据指的是 90 日以内...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

Transaction Table2.0概述

针对这些问题近几年大数据开源生态也推出了各种解决方案,最流行的就是Spark/Flink/Presto开源数据处理引擎,深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客,践行统一的计算引擎和统一的数据存储思想来综合提供解决方案,解决Lamdba...

风险识别管理(新版)

规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10000时命中该规则。周一至周五:22:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询相似...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎,为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能 描述 Dataphin全托管 全托管又称公共云多租户模式,只需购买...

表设计规范

数据存储规范 按数据层规划数据的生命周期:源表ODS层:每天从业务系统同步过来的数据,全部保留,生命周期定义永久保存。当下游数据受损时,可以从ODS恢复数据。若ODS每天同步过来的是全量表,则可以通过全表拉链的方式来压缩存储。数据...

实时同步任务延迟解决方案

说明 实时同步任务从一个系统读数据,并将数据写入另一个系统,当写数据比读数据慢时,则读数据一侧的系统会受到反压,导致速度变慢。即造成瓶颈的系统可能会由于反压导致另一侧系统的一些异常,此时要优先关注造成瓶颈的系统的异常情况。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 云原生大数据计算服务 MaxCompute 云数据库 RDS 数据传输服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用