大数据分析软件平台-大数据分析软件平台文档介绍内容-阿里云

设置运行时属性

本文介绍基因分析平台支持的运行时属性，并比较阿里云与其他计算后端的差别。基因分析平台目前使用WDL作为分析应用标准，用户可以通过每个Task中的runtime来定义计算作业所需要消耗的平台资源。平台支持的运行时属性重要基因分析平台运行...

基因实体表格

基因实体表格介绍基因数据除测序文件（如FASTQ，BAM等）外，还需要包括临床、样本、实验等相关元数据信息，这些组合在一起，才能形成生物医学多组学的大数据。除使用阿里云对象存储OSS为基因数据文件提供安全、可靠、无限的存储空间外，...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

Serverless Spark概述

解决方案 Serverless Spark是云原生数据湖团队基于Apache Spark打造的服务化的大数据分析与计算服务。方案架构图如下所示：Serverless Spark将Spark、Serverless、云原生技术，深度整合到一起，相对于传统开源Spark集群版方案，具体以下...

准备环境

前提条件 大数据开发治理平台DataWorks：购买DataWorks，详情请参见购买指引。说明因本示例提供的数据资源都在华东2（上海），建议购买时选择地域为华东2（上海）。对象存储OSS：已开通OSS服务，具体步骤，请参见开通OSS服务。步骤一：...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

互联网行业实时BI分析

本文以某互联网公司为例，介绍如何将DB...客户价值 1小时短平快即可实现实时数据分析平台建设，无需掌握Hadoop\Spark\Flink\Presto\Impala等复杂的大数据技术。操作简单快捷，全程拖拽式配置，无需编码。业务实时指标数据延时在1分钟以内。

StarRocks概述

具体的业务场景如下所示：OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

Quick BI如何接入TSDB

Quick BI是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。通过对数据源的连接和数据集的创建，对数据进行即时的分析与查询；通过电子表格或仪表板功能，以拖拽的方式进行数据的可视化呈现。连入成功后，您可以在...

创建集群

旧版数据湖：用于构建大规模数据处理框架和管道，适用于大数据分析，支持Apache Hive、Spark和Presto等开源框架。支持的集群类型如下：Hadoop：提供最丰富的开源组件列表，完全兼容Hadoop生态。可应用于大数据离线处理、实时处理和交互式...

减灾与应急时空解决方案与案例

公司主营OpenRIS灾害风险大数据平台提供了海量灾害数据的快速地图展示、统计查询、切割下载、上传数据定制化在线分析等功能，实现了灾害数据与模型一体化云服务。在数据与系统上云过程前，遇到了如下挑战：长期积累的时空数据类型多、数据...

概述

背景信息 Quick BI中的组织用户类型及角色如下：用户类型在组织层面，有三种用户类型：开发者：企业IT人员、数据分析师和数据运营人员等。分析师：需要进行业务分析、且对技术能力要求不高的业务人员。分析师通过创建仪表板、电子表格等...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。...数据展现与分享：数据提取成功后，可以通过报表、地理信息系统等多种展现方式，展示与分享大数据分析、处理后的成果。

上海新能源汽车车辆基础数据

客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品，有效解决了我们平台存储和计算的横向动态扩容瓶颈，同时借助其产品中间件LTS实现了我们平台数据的冷热分离，有效降低了数据存储成本，...

实体表达式

基因分析平台通过基因实体表格来管理基因数据文件，举例来说，某个生物样本（S001），其拥有多个属性值。FASTQ1单元格里的值，即为该样本存在对象存储OSS的原始序列文件。同时表格之间通过引用关系，来定义生物样本所从属的病人（NO...

计费逻辑说明

软件费用明细：增强分析增强分析使用包年包月计费模式，根据您在数据分析产品内创建的报告数量及购买时长进行计费。您可以根据需要购买指定数量的报告，详情请参见增强分析计费说明。资源费用明细：数据集成使用DataWorks的数据集成模块...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

查询报错问题

查询时报错，提示 scanRows exceed limit 分析型数据库MySQL版查询时报错，错误信息为：ErrMsg:ErrCode:2001 ErrType:QUERY_EXCEED_LIMIT ErrMsg:scanRows exceed limit:xxx>为避免用户输入的SQL误写或性能较差，从而导致扫描表的大量数据...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

什么是EMR Serverless Milvus

和阿里云上下游产品集成与阿里云存储、大数据产品集成对接，方便产品间数据调用，为AI应用场景的数据工程提供最大程度的便利。产品计费公测期间您可以免费试用Milvus，免费试用结束后，实例将开始收费。相关文档快速创建Milvus实例 ...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

数据大屏

应用场景场景描述预期效果场景一：授予数据大屏编辑权限让分析师A（分析师A与资源在同一空间）可以在工作空间下编辑数据大屏。场景二：授予数据大屏的查看权限让访问者B（访问者B与资源不在同一空间）可以在工作空间下查看数据大屏。...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

使用平台公共应用

本文介绍如何使用平台公共应用进行基因数据分析。基因分析平台的应用仓库提供了不同研究领域和分类的公共应用，这些都是权威的、经过验证的行业最佳实践，并且提供了常见的运行参数，真正的帮助用户实现开箱即用的基因数据分析。浏览公共...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

实时大盘

查看数据分析实时大盘的步骤如下：登录控制台，单击产品与服务>移动开发平台 mPaaS，选择应用。在导航栏左侧，单击移动分析>数据概览。在右侧页面，单击实时大盘标签，进入实时大盘页面。选择平台、版本、渠道，以查看对应的细分数据。...

权限自查建议

数据随意在各个项目之间流动，不但会导致云平台数据架构混乱，同样也会导致数据泄露。所以，针对大部分项目需要限制数据流动。例如，通过MaxCompute层面限制数据只能流动到指定的项目或者指定的位置，从而规避未知数据流动带来的风险。如果...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

数据洞察

DataWorks数据洞察是指通过深度数据分析和解读来获取深刻的数据理解和发现，它支持数据探索和可视化。您可以通过数据洞察了解数据分布，创建数据卡片，并组合成数据报告。此外，数据洞察结果能够通过长图形式的报告进一步分享。该功能利用...

账单数据订阅及查询分析

您可在用户中心订阅不同类型的账单数据，例如，计费项明细账单、计费项账单按天汇总等。订阅成功后，账单数据将会定时同步至MaxCompute，您...相关文档 大数据分析工具的常见问题和解决方法，详情请参见 大数据分析工具的常见问题和解决方法。

基于SLS+OSS+DLA构建海量、低成本日志分析方案

方案介绍对于数据分析人员、开发人员或者运维人员而言，日志数据对分析和诊断问题以及了解系统活动等有着非常重要的作用，日志都是其工作过程中必不可缺的数据来源。为了节约成本，通常情况下日志会被设定一定的保存时间，此类日志称之为...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

网易有数BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入网易有数BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用网易有数BI连接MaxCompute项目，并进行可视化数据分析。背景信息网易有数BI是新一代敏捷数据可视化分析平台，是包含...

典型应用

用户画像分析随着数据时代的发展，各行各业数据平台的体量越来越大，用户个性化运营的诉求也越来越突出，用户标签系统，做为个性化千人千面运营的基础服务，应运而生。如今，几乎所有行业（如互联网、游戏、教育等）都有实时精准营销的...

查询加速

本章将详细介绍如何在云数据库 SelectDB 版实例中进行查询优化和数据分析，云数据库 SelectDB 版提供了多种分析SQL和优化方案，帮助您提升查询速度并实现高效的数据分析。概述云数据库 SelectDB 版采用了MySQL网络连接协议，兼容标准...

大数据分析软件平台

新品推荐