大数据线索优选解决方案使用指引-大数据线索优选解决方案使用指引文档介绍内容-阿里云

常见术语

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop方案...

金融大数据

架构优势：提供了结构化与非结构化数据的融合方案满足了同时存在离线、在线、流数据的业务场景解决了大数据平台的集成问题为大数据平台的开发与管理提供了高效方案金融风险控制方案金融风险控制解决方案通过大数据画像、机器学习、...

敏感数据溯源

解决方案：使用数据水印功能生成的水印信息需要提供充足的数据量，才能保证通过溯源任务还原出可靠的水印信息，进而定位出可能的数据泄露责任人。建议您使用数据量大于500条，并且不包含重复数据的文件进行溯源。原因二：被泄漏的数据非...

概览

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统，可统一管理企业内...

大数据用户画像解决方案

进入互联网，特别是移动互联网时代，用户随时随地都会在...多维度&复杂查询：原生全局二级索引、Lindorm Search满足多维度查询需求方案详情&专家服务 解决方案详情参见：基于Lindorm的大数据用户画像解决方案 任何问题，欢迎联系技术支持。

SQL调优

解决方案：使用如下命令调大单个并发处理的数据大小。set odps.stage.mapper.split.size=;set odps.stage.reducer.num=<并发数>;Instance数量设置方法读表的Task 方法1：通过设置参数调整并发度。设定一个map的最大数据输入量，单位MB-...

如何解决Redis内存使用率突然升高

解决方案 请依次排查内存使用率突然升高的原因，并参考对应的解决方案解决问题。排查是否写入大量新数据排查方法：查看 Redis 性能监控的入流量与写QPS。如果入流量与写QPS的趋势与内存使用率的趋势一致，说明大量的数据写入导致内存...

IoT数据自动化同步至云端解决方案

下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行读取，详情请参见 OSS Reader。选择数据去向进行写入，本文以 MaxCompute...

排查Redis实例内存使用率高的问题

解决方案 检查是否存在大Key，并拆分大Key 查找大Key 通过离线全量Key分析找出大Key。更多找出大Key的方法，请参见发现并处理Redis的大Key和热Key。拆分大Key 例如将含有数万成员的一个HASH Key拆分为多个HASH Key，并确保每个Key的成员...

客户案例

解决方案 玩物得志基于阿里云DataWorks+MaxCompute框架搭建大数据平台，使用其核心存储、计算等组件、上层可视化及业务查询能力，在开源方案的基础上进行了二次开发。解决方案架构如下。详细案例信息，请参见玩物得志案例。互联网社交案例...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

Spark作业异常排查及处理

解决方案：已使用Spark导入的数据，如果需要被Hive或Impala使用，建议在EMR控制台中Spark服务配置页面的 spark-defaults.conf 页签下，增加 spark.sql.parquet.writeLegacyFormat=true 配置后重新导入数据。Shuffle报错 java.lang....

如何在较大结果集中使用ORDER BY

本文介绍在数据量较大的结果集场景中Lindorm SQL ORDER BY的使用解决方案以及最佳案例。使用场景常见Lindorm SQL的ORDER BY语法使用场景如下：在数据量较小（10万内的数据量）的结果集场景中，使用ORDER BY可以在内存中计算，没有任何使用...

数据正确性

例如，如果将batchsize设置为1，说明处理完一条数据，就会请求一次数据库，大数据场景下会导致数据库压力大。检查下游RDS，是否存在死锁 解决方案：请参见写MySQL（TDDL/RDS）时，出现死锁（DeadLock）。说明您可以使用print结果表，将...

发展历程

2018年 MaxCompute的多个客户案例荣获“2017大数据优秀产品和应用解决方案案例”奖。基于公共云的BigBench在100 TB规模上，MaxCompute的性能指标较2017年10月提升了一倍，达到18176.71 QPM（Queries Per Minute）。此外，在超小型10 TB规模...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

与标准SQL的主要区别及解决方法

解决方案请参见在执行MaxCompute SQL过程中，使用NOT IN后面接子查询，子查询返回的结果是上万级别的数据量，但当IN和NOT IN后面的子查询返回的是分区时，返回的数量上限为1000。在必须使用NOT IN的情况下，该如何实现此查询？如果业务上...

数据管理DMS解决方案系列

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 数据安全解决方案 数据开发解决方案 更多...

Presto FAQ

本文汇总了使用DLA Presto的常见问题及解决方案。高频问题在哪些情况下，共享集群（Public）不计费？共享集群（Public）的算力是多大？在控制台执行SELECT语句为什么会有Limit 500的限制？能够突破这个限制吗？阿里云子账号可以在哪里执行...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

常见问题

本文汇总了云数据库ClickHouse 的常见问题及解决方案。选型与购买云数据库ClickHouse和官方版本对比多了哪些功能和特性？购买实例时，推荐选择哪一个版本？单双副本实例各有什么特点？购买链路资源时显示“当前区域资源不足”，应该如何...

大数据上云及巡检服务内容说明

本服务包含四项子服务，客户可以结合自身业务需求进行购买：大数据迁移方案设计服务（可选）大数据迁移方案实施基础服务（可选数据迁移、任务迁移两种子服务其中之一）大数据迁移方案实施增补服务（可选）服务注意事项如下：本SOW在一次...

DataV读取数据源超时

解决方案 执行以下操作，通过优化查询时间的方式进行解决：使用SQL查询的业务数据表数量太大针对查询条件所使用的字段添加索引，减少扫描行数。在数据库中增加定时任务，定时计算所需要的业务指标并更新结果表。DataV组件直接查询结果表的...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

自媒体：易撰

自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构解决方案。...

图扑案例

Lindorm 针对工业物联网数据高并发写入，实时存取等特点，创新性地融合时序、索引、宽表等多模引擎能力，为存储、分析低价值密度、高通量、高实时性的工业物联网监控数据提供了高性价比的最优解决方案，大幅度降低了数据存储和存储系统运维...

工业质检解决方案

在生产制造过程中，为了提升缺陷检测效率，PAI提供了工业质检解决方案。该解决方案借助人工智能算法，帮助您快速构建端到端的质检服务。本文为您介绍该解决方案的使用流程。背景信息缺陷检测是生产制造过程中必不可少的一步，广泛应用于...

数据开发概述

您可通过目录树创建所需对象，或使用业务流程可视化面板拖拽组件，快速构建数据加工流，并支持通过解决方案对业务流程进行进一步的管理。对象管理：支持使用可视化方式创建及管理节点、表、资源及函数。更多详情请参见创建业务流程、任务...

部分地域升级迁移指引

创建和管理高可用虚拟IP GA：添加和管理加速区域 VPC：使用VPC搭建IPv4专有网络 大数据（Elasticsearch、Dataworks、MaxCompute）如果受影响的地域包含您的大数据组件，您可以使用如下的方案进行迁移。对于Elasticsearch 的迁移，您可以...

创建解决方案

数据开发模式全面升级，包括工作空间>解决方案>业务流程三级结构，抛弃陈旧的目录组织方式。背景信息 DataWorks对数据开发模式进行全面升级，按照业务种类组织相关的不同类型的节点，让您能够更好地以业务为单元、连接多个业务流程进行开发...

企迈云商

解决方案 企迈使用阿里云DAS数据库自治服务，支持多种数据库类型、多个数据库实例的批量管理，提供巡检评分、监控大盘等能力，能够快速定位到异常实例。DAS通过 7*24小时异常检测，自动检测到实例出现异常，并触发根因分析，定位异常的...

使用DataWorks（离线与实时）

最佳实践数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

独享数据集成资源组

在数据集成任务高并发执行且无法错峰运行的情况下，需要专有的计算资源组来保障数据快速、稳定的传输时，建议您选择使用DataWorks的独享数据集成资源组。本文为您概要介绍独享数据集成资源组。功能介绍独享数据集成资源组的功能亮点如下：...

RDS搭配异构数据库实现数据多样化存储

RDS可以和OSS搭配使用，组成多类型数据存储解决方案。例如，当业务应用为论坛时，RDS搭配OSS使用，论坛用户的图像、帖子内的图像等资源可以存储在OSS中，以减少RDS的存储压力。RDS和OSS搭配使用相关案例请参见多结构数据存储。

常见问题

具体插件报错原因及解决方案 添加MongoDB数据源时，使用root用户时报错。离线同步常见问题读取MongoDB时，如何在query参数中使用timestamp实现增量同步？MongoDB同步至数据目的端数据源后，时区加了8个小时，如何处理？读取MongoDB数据...

RDS MySQL物理备份文件恢复到自建数据库

应用场景如果您未来一段时间不再使用RDS MySQL，可以使用本方案，将RDS MySQL数据库的物理备份恢复到本地自建数据库，从而保留RDS MySQL中的数据。如果您的实例已释放无法找回，而您又保存有下载好的物理备份文件，可使用本方案，将RDS ...

应用场景

相较于原有解决方案，我们的解决方案运维更加简单，并且使用MySQL协议，可以对接各种BI工具，从而实现数据的快速分析和处理。实时数据分析场景解决方案 步骤如下：实时摄入：通过直接读取Kafka数据来实现。提供了Flink-Connector来支持...

大数据线索优选解决方案使用指引

新品推荐