大数据需要的专业知识-大数据需要的专业知识文档介绍内容-阿里云

迁移数据库账号

手动在目标库创建账号需要有相关数据库的专业知识、耗费时间较多、容易遗漏等缺点，可能会导致业务受阻。前提条件配置任务使用的源和目标库账号满足要求，具体要求请参见数据库账号所需权限。使用DTS同步或迁移数据的库表结构。即在配置...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品，可以实现互联网、电商网站的...可视化编辑：在图形化的编辑页面，通过拖拽即可完成专业级的大数据可视化。方案详情方案的详情请参见互联网、电商行业离线大数据分析和大屏展示。

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

索引优化

在大部分传统的TP型数据库中，索引可以极大的提高数据的访问效率。但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

常见问题

MaxCompute的用户经常咨询和关注的一些问题如下：使用MaxCompute需要具备什么专业技能？如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取...

Cost-based SQL诊断引擎

测试案例设计需要专业知识且信息量大，例如对于单一测试案例设计也需要专业知识且测试案例中携带的信息量大，如索引推荐测试案例，它包括：schema设计：如表、已有索引、约束等。各类统计信息数据。环境参数等等。如何构建大规模的诊断服务...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例，通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理，并同步至分析型数据库MySQL（AnalyticDB MySQL）进行实时分析，再通过Quick BI进行可视化展示。背景信息 MaxCompute：用于进行大规模数据计算，详情请...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

配置MySQL输出组件

同步其他数据源的数据至MySQL数据源的场景中，完成源数据源的信息配置后，需要配置MySQL输出组件的目标数据源。本文为您介绍如何配置MySQL输出组件。前提条件已创建MySQL数据源，详情请参见创建MySQL数据源。进行FTP输出组件属性配置的...

配置Hive输出组件

同步其他数据源的数据至Hive数据源的场景中，完成源数据源的信息配置后，需要配置Hive输出组件写入数据的目标数据源。本文为您介绍如何配置Hive输出组件。使用限制 Hive输出组件支持写入文件格式为 orc、parquet、text、iceberg（iceberg...

创建数据流

在数据管理DMS离线集成中，可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。本文介绍创建数据流和配置的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、PolarDB...

ETL工作流快速体验

GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成数据开发基础版基于GitHub Archive公开数据集，通过DataWorks 数据集成模块获取过去1小时GitHub中提交次数最多的代码语言数据，在DataStudio 数据开发模块通过函数...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

导出数据元

您可以通过导出数据元功能，搭配导入功能，快速实现工作组间的数据元数据迁移。本文介绍如何导出数据元。...说明若只需要导出部分数据元信息，在数据元管理页面，选中需要的数据元，单击导出，即可导出需要的数据元信息。

导出数据元

您可以通过导出数据元功能，搭配导入功能，快速实现工作组间的数据元数据迁移。本文介绍如何导出数据元。...说明若只需要导出部分数据元信息，在数据元管理页面，选中需要的数据元，单击导出，即可导出需要的数据元信息。

创建RDS MySQL数据订阅通道

如果订阅的源数据库还处于其他任务中（例如该数据库还存在于某个正在运行的数据迁移任务中），您可能会订阅到订阅对象以外的数据，此类场景中，您需要手动在订阅客户端中过滤掉不需要的数据。操作步骤购买数据订阅通道，详情请参见购买...

识别任务说明

扫描速度不同类型数据库的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为1000列/分钟。...

编辑数据源

数据源添加完成之后，您可以根据大屏展示的需要，编辑数据源的内容。推荐在画布编辑页面编辑数据源。除了可以编辑数据源，还可以在该页面完成数据映射、添加过滤器和设定数据自动更新时间。操作步骤登录 DataV控制台。参考使用模板...

Iceberg概述

删除或更新数据大部分数仓都难以实现较为高效的行级数据删除或更新，通常需要启动离线作业把整个表原始数据读取出来，然后变更数据后，写入到一个原始表。而Iceberg成功把变更的范围从表级别缩小到了文件级别，从而可以通过局部变更来完成...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

功能简介

洞察是一款自助式数据挖掘分析型，面向业务管理者、运营、业务分析师等人员提供低使用门槛的智能、自动化、全面、精准的数据诊断和分析能力，智能发现数据规律或异常，实现从数据到知识的提取，辅助业务决策。几乎每个业务每天都存在业务...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能，本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。支持的版本支持阿里云ClickHouse的20.8、21.8内核版本。您需要确认驱动和您的ClickHouse服务之间的兼容能力，...

可视分析创作间和传统BI软件差异比较

预定义的报告需要行业数据经验专家，搭建数据报表分析过程需要理解：维度、度量、数据类型等统计知识可视化数据的图表配置也需要专业数据分析人员支持支持二次分析不支持二次分析数据分析结果数据集产生的所有见解，提炼在数据...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

大数据需要的专业知识

新品推荐