大数据都是什么-大数据都是什么文档介绍内容-阿里云

确认表血缘

确认表血缘同空间下确认上游表血缘节点周期写入某张表某个分区的数据，大部分场景都是采用调度参数来动态实现，您可参考调度参数，了解调度参数的替换原理。若您需要依赖同工作空间某节点，则可检查其调度参数的配置情况。开发环境确认...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

高压缩引擎（X-Engine）介绍

挑战和诉求：历史数据归档历史数据归档的挑战大部分业务数据的读写特征，都是最新产生的数据会被更频繁地读取或更新，而更久之前的数据（如1年前的聊天记录或订单信息）很少被访问。随着业务发展，数据库系统中会积累大量访问频率很低...

什么是数据库自治服务DAS

缺少数据支撑，问题排查靠猜数据库的问题排查和性能优化一直都是数据库领域的专业问题，但是即使最专业的DBA在面对一些问题的时候，也往往耗费了很长时间，但是仍然无法定位到根因，主要的难点有三个：获取信息难，问题诊断和性能优化都...

透明数据加密概述

什么是透明数据加密透明数据加密指对数据文件执行实时I/O加密和解密。通过在数据库层执行静态数据加密，阻止可能的攻击者绕过数据库直接从存储中读取敏感信息。经过数据库身份验证的应用和用户可以继续透明地访问应用数据（不需要更改应用...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加、配置及管理...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加Dataphin成员。...

创建Aliyun HBase数据源

更多信息，请参见 什么是云数据库HBase。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见附录：数据源白...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

创建ClickHouse数据源

阿里云数据库ClickHouse的更多信息，请参见 什么是云数据库ClickHouse。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体...

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

ListDoctorHiveTables-批量获取Hive表分析结果

极冷数据指的是 90 日以内都没有访问的数据。totalDataSize:总数据量大小。hotDataRatio:热数据的数据量大小占比。热数据指的是 7 日内有访问的数据。warmDataRatio:温数据的数据量大小占比。温数据指的是 7 日内没有访问的数据，但是 30 ...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

极冷数据指的是 90 日以内都没有访问的数据。totalDataSize:总数据量大小。totalFileDayGrowthCount:总文件个数日增量。largeFileDayGrowthCount:大文件个数日增量。大文件指的是 1 GB 以上大小的文件。mediumFileDayGrowthCount:中文件...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

数据源权限管理

什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的移除、关联情况？分享数据源后，其资源组的连通状态是否会被同步分享？分享数据源后，引用过该数据源的任务关联信息是否会被同步分享？哪些角色可以...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

常见问题

为什么实时同步任务延迟较大？实时同步任务延迟解决方案。实时同步任务为什么不建议使用公网？实时同步字段格式问题。实时同步数据时，如何处理TRUNCATE？如何提高实时同步的速度和性能？实时同步是否支持在界面运行？实时同步MySQL数据...

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

什么是PolarDB MySQL企业版

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大地降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受...

索引优化

大数据集场景下优先考虑稀疏索引：如果您的数据量非常地大，并且您的查询限定条件为<、、=、>=、>，需要从大数据量的表中取出少于50%的数据，那么使用稀疏索引（BRIN Index或者AOCS表的metascan）可以极大地减少无效数据的加载。...

常见问题

云数据库Redis版与Redis是什么关系？云数据库Redis版是否存在CPU处理能力、带宽和连接数等限制？单个实例有多少个数据库？云数据库Redis版是否都有主从节点？云数据库Redis版能否配置从节点数量？云数据库Redis版是否开放了从节点？云数据...

确定需求

建议您思考下列问题，对后续的数据建模将有巨大的帮助：业务数据是根据什么（维度、粒度）汇总的，衡量标准是什么？例如，成交量是维度，订单数是成交量的度量。明细数据层和汇总数据层应该如何设计？公共维度层该如何设计？是否有公共的...

确定需求

建议您思考下列问题，对后续的数据建模将有巨大的帮助：业务数据是根据什么（维度、粒度）汇总的，衡量标准是什么？例如，成交量是维度，订单数是成交量的度量。明细数据层和汇总数据层应该如何设计？公共维度层该如何设计？是否有公共的...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

常见问题

每种开发语言通过SDK连接云数据库ClickHouse对应的端口是什么？Go、Python语言对应推荐什么SDK？如何处理客户端工具连接集群时报错：connect timed out？为什么MySQL、HDFS、Kafka等外表无法连通？为什么程序无法连接ClickHouse？如何处理...

产品概述

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

什么是数据管理DMS

AnalyticDB MySQL版：云原生数据仓库AnalyticDB MySQL版是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。AnalyticDB MySQL版支持高吞吐的数据实时增删改、低延时地实时分析复杂ETL（Extract Transform Load），兼容上下游生态...

产品概述

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

产品概述

什么是全密态数据库全密态数据库是达摩院数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

什么是数据库网关

使用指引如果您是第一次使用数据库网关，您可以参考下述步骤开始使用：准备工作新建数据库网关添加数据库为什么选择数据库网关数据库网关提供安全可靠、低成本的数据库接入服务，通过数据库网关您可以安全且低成本地将第三方云或本地...

数据库代理常见问题

什么是数据库代理？数据库代理是位于数据库服务端和应用服务端之间的网络代理服务，用于转发应用服务端访问数据库时的所有请求，提供读写分离、事务拆分等高级功能，具有高可用、高性能、可运维、简单易用等特点。更多信息，请参见 什么是...

大数据都是什么

新品推荐