大数据具体是什么-大数据具体是什么文档介绍内容-阿里云

导入MongoDB数据

背景信息有关大数据开发治理平台DataWorks，具体请参见什么是DataWorks。注意事项将MongoDB的离线数据迁移至Lindorm宽表时，需要将MongoDB嵌套的JSON数据展开成水平结构，并且不涉及数据的变换。说明如果迁移过程中需要对某些数据进行...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

数据迁移与同步FAQ

DTS的数据迁移与数据同步工作原理是什么？DTS的数据迁移与数据同步有什么区别？使用DTS遇到预检查报错，如何解决？什么是数据迁移、数据同步？数据迁移：将Redis数据库中的数据（即键值对）迁移至另一个Redis数据库中。通常迁移完成后即可...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

实时同步常见问题

写端延迟大目标数据库性能、负载等问题当数据库负载较高时，单一的调整同步任务并发并不能解决问题，您需要联系数据库管理员寻求相关帮助。读写端延迟大使用公网同步，网络问题导致同步任务延迟。公网同步无法保障实时同步时效性，建议...

什么是数据传输服务DTS

数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建...

常见问题

Q：数据什么时候进入冷存储？A：Lindorm通过 compaction 机制异步将冷数据从热存储归档至冷存储，系统触发时间默认为冷热分界线的一半，最小为1天，最大为 major compaction 周期的一半，major compaction 周期默认为20天。例如，冷热分界...

配置备份计划

数据库所在位置待备份数据库实例的所在位置，支持类型如下：RDS实例有公网IP:Port的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能网关接入的自建数据库 PolarDB 无公网IP:Port的自建数据库(通过数据库网关DG接入)说明本示例为...

账单数据订阅及查询分析

相关介绍，请参见什么是MaxCompute、什么是DataWorks、数据分析概述。费用说明订阅及查询分析账单数据会产生如下费用：存储费用（MaxCompute收取）：账单数据会写入指定的MaxCompute表，产生存储费用。详情请参见计费项与计费方式概述。...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

冷数据归档常见问题

冷数据文件的格式是什么？目前支持CSV、IBD 和ORC格式。如何判断当前表或分区是否归档成功？归档完成后，您可以通过以下两种方式来查看表或分区是否归档成功：执行 SHOW CREATE TABLE table_name;命令查看表结构信息，以此来确认表或者分区...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

常见问题

数据安全中心DSC根据为不同行业预先定义的敏感数据关键字段，扫描MaxCompute、OSS、阿里云数据库服务（RDS、PolarDB-X、PolarDB、OceanBase、表格存储等）和自建数据库中的数据，通过敏感数据规则，判断和打标敏感数据，为数据安全审计、...

数据扫描和识别

DSC对结构化数据（例如MaxCompute）的扫描机制是什么？DSC是否会登录到数据库内获取数据？目前存在哪些触发重新扫描的场景？数据扫描会影响我的数据库性能吗？数据安全中心（Data Security Center，简称DSC）采用全量扫描、增量扫描和定时...

通过DMS连接StarRocks实例

数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息，即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维，极大提升数据管理体验及操作效率。...

确定需求

建议您思考下列问题，对后续的数据建模将有巨大的帮助：业务数据是根据什么（维度、统计粒度，简称“粒度”，是维度或维度组合）汇总的，衡量标准是什么？例如，“省份”或者“类目”是维度，订单数是原子指标。基于上个问题，进一步思考...

离线同步并发和限流之间的关系

问题三：为什么数据同步任务运行速率有时候相较限速阈值有较大差距？同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，...

确定需求

建议您思考下列问题，对后续的数据建模将有巨大的帮助：业务数据是根据什么（维度、粒度）汇总的，衡量标准是什么？例如，成交量是维度，订单数是成交量的度量。明细数据层和汇总数据层应该如何设计？公共维度层该如何设计？是否有公共的...

确定需求

建议您思考下列问题，对后续的数据建模将有巨大的帮助：业务数据是根据什么（维度、粒度）汇总的，衡量标准是什么？例如，成交量是维度，订单数是成交量的度量。明细数据层和汇总数据层应该如何设计？公共维度层该如何设计？是否有公共的...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

分区表常见问题

如：大租户的数据量多，但大租户少；中小租户多但数据量少；或者随时会新增小租户，无法在建表时全部枚举出来。在这种场景下，您可以在一张分区表中同时使用两种分区：大租户单独使用LIST分区，或多个大租户组合使用一个LIST分区。分区个数...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

常见问题

为什么数据写入后不可见？为什么optimize任务很慢？为什么optimize后数据仍未主键合并？为什么optimize后数据TTL仍未生效？为什么optimize后更新删除操作没有生效？如何进行DDL增加列、删除列、修改列操作？为什么DDL执行慢，经常卡住？...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据传输DTS：数据传输服务（Data Transmission Service）DTS支持关系型数据库、NoSQL、大数据（OLAP）等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下，...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

如何处理Tair集群数据倾斜

为什么会产生数据倾斜 Tair 集群架构作为一个分布式系统，整个数据库空间会被分为16384个槽（Slot），每个数据分片节点将存储与处理指定Slot的数据（Key），例如3分片集群实例，3个分片分别负责的Slot为：[0,5460]、[5461,10922]、[10923,...

常见问题

数据迁移和数据同步的区别如下表所示：对比项数据迁移数据同步适用场景主要用于上云迁移，例如将本地数据库、ECS上的自建数据库或第三方云数据库迁移至阿里云数据库。主要用于两个数据源之间的数据实时同步，适用于异地多活、数据灾备...

如何处理Redis集群数据倾斜

为什么会产生数据倾斜 Redis 集群架构作为一个分布式系统，整个数据库空间会被分为16384个槽（Slot），每个数据分片节点将存储与处理指定Slot的数据（Key），例如3分片集群实例，3个分片分别负责的Slot为：[0,5460]、[5461,10922]、[10923,...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

磁盘型

特性高兼容性：兼容Redis社区版6.0大部分的数据结构和命令，具体限制请参见 Tair命令支持与限制。低成本：最低为Redis社区版的15%。性能：约为Redis社区的60%，更多信息请参见磁盘（ESSD）型性能白皮书。磁盘存储：数据分布在ESSD或SSD中...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

磁盘型

云原生内存数据库Tair 推出磁盘（ESSD/SSD）型实例，均兼容Redis核心数据结构与接口，可提供大容量、低成本、持久化的数据库服务。适用于兼容Redis、需要大容量且访问性能较高的温冷数据存储场景。背景信息传统Redis基于内存属于易失性...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

常见问题

离线同步常见问题离线同步任务运维常见问题为什么数据源测试连通性成功，但是离线同步任务执行失败？如何切换数据集成任务执行资源组？脏数据如何排查和定位？如何查看脏数据？如果离线同步传输数据时，脏数据超出限制，是否所有数据都...

补数据

补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据选择业务时间昨天和今天，也会出现等待时间的情况？为什么补数据选择补0点~1点生成...

大数据具体是什么

新品推荐