关于大数据的来源-关于大数据的来源文档介绍内容-阿里云

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

数据质量保障原则

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。例如，从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要...

数据保护伞概述

数据保护伞是一款数据安全管理产品，为您提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等多种功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文为您介绍数据保护伞的使用流程、使用限制等内容。使用流程...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据脱敏

配置脱敏数据的来源文件信息，并单击下一步。脱敏源为 RDS表/PolarDB-X表/MaxCompute表/PolarDB表/OceanBase表/ADB-MySQL表时配置项说明脱敏源配置项是否必填配置描述数据存储类型是选择脱敏文件的数据存储类型。支持的存储类型包括...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

数据组织优化

Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入，高流量场景下可能会导致增量小文件数量膨胀，从而引发存储访问压力大、成本高，并且大量的小文件还会引发Meta更新以及分析执行慢，数据读写I/O效率低下等问题，...

OSS数据离线同步至MaxCompute

配置数据来源：OSS侧参数配置离线同步节点的数据来源相关参数。本实践将OSS数据增量同步至MaxCompute，数据来源为OSS文件，配置要点如下所示。配置项配置要点数据源选择上述新建的OSS数据源。文本类型选择您要同步的文件类型，目前...

OSS数据离线同步至MaxCompute

配置数据来源：OSS侧参数配置离线同步节点的数据来源相关参数。本实践将OSS数据增量同步至MaxCompute，数据来源为OSS文件，配置要点如下所示。配置项配置要点数据源选择上述新建的OSS数据源。文本类型选择您要同步的文件类型，目前...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

数据质量风险监控

ODS层表中的数据来源于OSS上的日志文件，作为源头表，您需要尽早判断此表分区中是否有数据。如果这张表中没有数据，则后续任务运行无意义，需要阻止后续任务运行。进入数据质量页面。在数据开发页面，单击左上角图标，选择数据质量。...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

数据质量风险监控

ODS层表中的数据来源于OSS上的日志文件，作为源头表，您需要尽早判断此表分区中是否有数据。如果这张表中没有数据，则后续任务运行无意义，需要阻止后续任务运行。进入数据质量页面。在数据开发页面，单击左上角图标，选择数据质量。...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

PolarDB Serverless实现了哪些突破

整个IDC形成一个多租户的大数据库，其全部的CPU、内存和存储构成三个独立的资源池。在资源池未耗尽的情况下，任何一个用户（租户）都可以任意的弹性扩展任何一种资源到任何一个规格，用户为其SQL动态消耗的CPU、内存和存储买单，不需要预置...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

设计阶段

设计工作包含数据探查和系分设计两部分：数据探查旨在了解来源数据的数据形态，例如数据质量、数据分布等。结合业务场景，帮助分析和判断需求实现的可行性以及找出潜在的数据问题和风险。系分设计则包括表设计、Mapping设计和调度设计等最...

Kafka增量数据同步至MaxCompute

配置数据来源：Kafka侧参数配置离线同步节点的数据来源相关参数。本实践将Kafka数据增量同步至MaxCompute，数据来源为Kafka数据，配置要点如下所示。说明通用的Kafka数据来源的配置项介绍可查看 Kafka Reader 文档，以下为本次实践的配置...

Kafka增量数据同步至MaxCompute

配置数据来源：Kafka侧参数配置离线同步节点的数据来源相关参数。本实践将Kafka数据增量同步至MaxCompute，数据来源为Kafka数据，配置要点如下所示。说明通用的Kafka数据来源的配置项介绍可查看 Kafka Reader 文档，以下为本次实践的配置...

配置数据源

使用数据服务创建API前，需先将您的数据库或数据仓库添加为DataWorks数据源，以此作为数据服务API的数据来源。开发数据服务API时，数据服务将访问该数据源获取数据表的Schema信息，帮助您进一步设置请求和返回参数。本文为您介绍如何配置...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

兼容性概述

商业智能（BI）分析工具可以将复杂的数据转换成图表、仪表盘等形式，以直观的方式展示分析结果，使您能够快速把握业务状态。BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据...

DataWorks On Hologres使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

公开数据集概述

TPC-H 10GB性能测试集 TPC-H 100GB性能测试集 TPC-H 1TB性能测试集 TPC-H 10TB性能测试集 tpch_10g tpch_100g tpch_1t tpch_10t TPCx-BB TPCx-BB Express Benchmark BB（TPCx-BB）是一个大数据基准测试，衡量基于Hadoop的大数据系统的性能...

Oracle同步至Tablestore

本实践以Oracle作为来源数据源，以Tablestore作为去向数据源，因此您需要在DataWorks的工作空间的数据源管理页面新增Oracle数据源和Tablestore数据源，两个数据源支持的数据同步能力请参见 Oracle数据源、Tablestore数据源。已购买独享...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

全增量同步任务运维

全量离线同步和实时同步区域展示当前查看的全增量同步任务中，全量离线同步或实时同步子任务同步的来源数据源、当前同步速率、同步数据、同步数据的延迟情况及所使用资源组的详细信息。执行步骤区域展示当前查看的全增量同步任务，...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

管理健康报告

一般来说，变异系数越大，这个分区越有可能存在数据倾斜的情况。导入任务该页面展示导入任务的统计信息，并从多个角度对导入任务进行分析。说明目前系统仅能支持统计和分析存算一体实例下的导入任务情况。Top导入热表潜在小文件分析针对...

同阿里云主账号访问

在进行数据同步前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据源的网络连通性。本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据...

Kafka单表实时入湖OSS（HUDI）

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

关于大数据的来源

新品推荐