关于大数据的入门书籍推荐-关于大数据的入门书籍推荐文档介绍内容-阿里云

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

配置跨库Spark SQL节点

大数据量处理：支持快速处理较大规模的数据（十万条以上数据）。Spark SQL语法：基于Spark 3.1.2版本部署，提供该版本所有语法特性和原生函数。原生函数包括聚合函数、窗口函数、数组函数、Map函数、日期和时间处理函数、JSON处理函数等。...

公开数据集概述

TPC-H 10GB性能测试集 TPC-H 100GB性能测试集 TPC-H 1TB性能测试集 TPC-H 10TB性能测试集 tpch_10g tpch_100g tpch_1t tpch_10t TPCx-BB TPCx-BB Express Benchmark BB（TPCx-BB）是一个大数据基准测试，衡量基于Hadoop的大数据系统的性能...

兼容性概述

商业智能（BI）分析工具可以将复杂的数据转换成图表、仪表盘等形式，以直观的方式展示分析结果，使您能够快速把握业务状态。BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据...

DataWorks On Hologres使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

管理健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>StarRocks。在顶部菜单栏处，...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

代码智能推荐

用户可以在对话框中描述数据处理的需求，并支持对推荐的代码内容进行修改。前提条件已登录DataV控制台已进入画布编辑器页面操作步骤在当前数据看板中随机添加一个组件（例如：柱状图）。单击右侧配置面板中的数据源。在数据源配置...

准备数据

在数据准备阶段，您需要同步原始数据至MaxCompute。前提条件已完成准备环境。已新增MaxCompute数据源。详情请参见创建MaxCompute数据源。准备数据源通过RDS创建MySQL实例，获取RDS实例ID。详情请参见快速创建RDS MySQL实例。在RDS控制...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

基于AnalyticDB构建企业数仓

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。独享数据集成资源组选择任务运行的...

常见问题

推荐您阅读从开源到云原生，你不得不知的大数据实战。MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute仅支持通过DataWorks的数据质量功能配置数据监控规则。无法监控外部数据源的字段变化。MaxCompute的项目发挥...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介亿海蓝是中国的航运大数据公司，做为中国最大的AIS数据服务运营商，发展目标是通过大数据技术推动全球航运物流与互联网的融合，加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务，客户涵盖港口...

DataWorks产品安全能力介绍

备份与恢复：云原生底层存储天然支持三份副本备份，同时，大数据计算服务MaxCompute提供数据备份与恢复功能，您可对保留周期内的数据进行快速恢复，避免因错误操作丢失数据。安全销毁：阿里云上落盘的数据一经删除，永久不可恢复；同时，...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

内存型

Sketches Bloom RedisBloom TairBloom兼容RedisBloom，支持动态扩容，同时通过64位的Hash算法降低Hash碰撞率，显著降低大数据的冲撞率。最佳实践：推荐系统、爬虫系统，更多信息请参见 Bloom。Cpc 无 TairCpc是基于CPC（Compressed ...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

整体架构

AnalyticDB MySQL版是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批...

通过RAM角色授权模式配置数据源

因此，云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole，并限制可以使用角色的人员为大数据团队的相关人员，实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为阿里云账号、角色名称为 BigDataOssRole 的自定义...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据的数据量大小。极冷数据指的是 90 日以内...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

Transaction Table2.0概述

针对这些问题近几年大数据开源生态也推出了各种解决方案，最流行的就是Spark/Flink/Presto开源数据处理引擎，深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客，践行统一的计算引擎和统一的数据存储思想来综合提供解决方案，解决Lamdba...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

表设计规范

表数据存储规范按数据层规划数据的生命周期：源表ODS层：每天从业务系统同步过来的数据，全部保留，生命周期定义永久保存。当下游数据受损时，可以从ODS恢复数据。若ODS每天同步过来的是全量表，则可以通过全表拉链的方式来压缩存储。数据...

实时同步任务延迟解决方案

说明实时同步任务从一个系统读数据，并将数据写入另一个系统，当写数据比读数据慢时，则读数据一侧的系统会受到反压，导致速度变慢。即造成瓶颈的系统可能会由于反压导致另一侧系统的一些异常，此时要优先关注造成瓶颈的系统的异常情况。...

关于大数据的入门书籍推荐

新品推荐