开源数据分析工具-开源数据分析工具文档介绍内容-阿里云

E-MapReduce本地盘实例大规模数据集测试

需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行大数据分析和性能对比测试的用户。最佳实践概述为了满足大数据场景下的存储需求，阿里云在云上推出了本地盘D1机型。本地盘D1机型使用本地盘而非云盘作为存储，解决了之前...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间，为进一步帮助EMR老用户平滑过渡到EMR新平台，EMR老用户新购*和续费数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、自定义集群（Custom）等新集群类型，EMR...

开源支持

Data Collector是MaxCompute主要开源数据采集工具的集合，包括：Flume插件 OGG插件 Sqoop Kettle插件 Hive Data Transfer UDTF Flume和OGG插件是基于DataHub的SDK实现，而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。...

低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

Lindorm实时入湖建仓分析

在 SQL执行页面，系统已经选中了目标库，您可以直接输入SQL语句进行数据分析。Lindorm与DLA的字段类型转换表目前支持的字段类型转换如下。Lindorm字段类型 DLA字段类型 long、usigned_long、short、unsigned_short、int、unsigned_...

配置自定义软件

数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，需要包含后缀。例如，文件名称为 yarn-site.xml。旧版数据湖（hadoop），不需要后缀。例如，文件名称为 yarn-site...

低成本RDS历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

应用场景：低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过APP写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

为RAM用户授权

在EMR Serverless StarRocks中，RAM的典型使用场景如下：用户：如果您购买了EMR Serverless StarRocks实例，您的组织里有多个用户（例如运维、开发或数据分析）需要使用这些实例，您可以创建一个策略允许部分用户使用这些实例。避免了将同...

什么是EMR Serverless Milvus

它包含了数据分区分片、持久化、增量摄取、混合查询等高级功能，同时支持time travel操作，提供了直观的API和多语言SDK，适用于推荐系统、图像检索、视频分析、自然语言处理等多个AI领域。产品优势云原生极速向量检索服务集成了Vector...

Kafka实时入湖建仓分析

在 SQL执行页面，系统已经选中了目标库，您可以直接输入SQL语句进行数据分析。（可选）OSS数据存储管理。在湖仓列表页签单击存储路径下的OSS路径链接。在OSS控制台查看已经从Kafka数据源同步过来的库表路径以及表文件。数据库路径：/...

为RAM用户授权

在E-MapReduce中，RAM的典型使用场景如下：用户：如果您购买了多台E-MapReduce集群实例，您的组织里有多个用户（如运维、开发或数据分析）需要使用这些实例，您可以创建一个策略允许部分用户使用这些实例。避免了将同一个AccessKey泄露给...

HBase数据源

本文介绍如何使用HBase数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING hbase OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建HBase表时，无需显式地定义表的字段信息，示例...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

管理尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、机器学习（Data Science）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的运单分析金融行业...

Druid数据源

本文介绍如何使用Druid数据源进行数据分析或者交互式开发。建表语法 create table tbName using druid options(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建Druid数据表时，无需显式地定义表的字段信息，...

冷热分层

在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据分析和快速的事务更新写入，又能有效地降低冷热数据分离的成本。更多介绍请参见结构...

Kafka数据源

本文介绍如何使用Kafka数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING kafka OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);配置参数说明 ...

什么是Quick BI

Quick BI是一款全场景数据消费式的BI平台，秉承全场景消费数据，让业务决策触手可及的使命，通过智能的数据分析和可视化能力帮助企业构建数据分析系统，您可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

语义挖掘工具

注：语义分析会将数据分析到现有意图中，现有意图可以在意图管理中进行管理。系统单次挖掘的数据上限为1000条。语义分析点击语义挖掘工具列表数据右侧的查看详情即可进入到语义分析页面。【分析结果】数据总量：表示进行语义挖掘的数据...

数据上云工具

具体示例请参见 Logstash+DataHub+MaxCompute和StreamCompute 进行实时数据分析。OGG（DataHub通道系列）OGG的DataHub插件可以支持将Oracle数据库的数据实时地以增量方式同步到DataHub中，并最终归档到MaxCompute表中。详情请参见基于OGG ...

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具，主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

StarRocks概述

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

实时数据消费概述

为您提供了一个强大的工具，用于结合流处理和批处理的数据分析。更多信息，请参见实时数据源集成。使用场景构建实时分析报表及其他实时分析应用。结合增量实时物化视图构建流批一体的实时数仓。在采用SQL方式写入数据（UPSERT或UPDATE）...

Github公开事件数据

由于公开数据集项目支持按Schema存储，未开启租户级别Schema语法的用户无法在DataWorks数据分析提供的公开数据集中直接查看，但您依旧可以通过我们提供的SQL语句进行查询。使用MaxCompute探索GitHub公开事件数据前提条件已开通MaxCompute...

快速入门

通过各个组件及服务的结合，阿里云Elasticsearch可以应用于实时日志处理、全文搜索和数据分析等领域。更多产品相关信息，请参见什么是阿里云Elasticsearch。产品使用 Elasticsearch Elasticsearch作为实时分布式搜索和分析引擎，可以...

概述

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

数据传输服务（上传）场景与工具

本文为您介绍如何将数据上传至MaxCompute或从MaxCompute下载数据，包括服务连接、SDK、工具和数据导入导出、上云等常见操作。背景信息 MaxCompute提供了多种数据上传下载的通道支持，方便您在各种场景下进行技术方案选型时参考。批量数据...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，为您提供对实例内数据的管理、诊断与分析，以及安全权限配置等能力。前提条件已创建StarRocks实例，详情请参见创建实例。操作流程步骤一：进入...

什么是EMR Serverless StarRocks

StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致的性能和丰富的OLAP场景模型，包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。StarRocks介绍 StarRocks是新一代极速全场景MPP（Massively Parallel Processing）...

管理健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>StarRocks。在顶部菜单栏处，...

功能特性

功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 DQL操作 DQL操作 DQL操作函数开发内建函数 MaxCompute提供丰富的内建函数，方便用户进行数据分析和数据加工。内建函数自定义函数 MaxCompute支持...

Transaction Table2.0概述

针对这些问题近几年大数据开源生态也推出了各种解决方案，最流行的就是Spark/Flink/Presto开源数据处理引擎，深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客，践行统一的计算引擎和统一的数据存储思想来综合提供解决方案，解决Lamdba...

管理审计日志

StarRocks将所有审计日志存储在本地文件 fe/log/fe.audit.log 中，并且这些日志无法通过系统内部数据库访问。启用审计日志功能将安装AuditLoader插件，该插件能够从本地文件中读取日志，并通过HTTP PUT方法将其导入StarRocks数据库，方便您...

概览

支持自建SQL Server同步至AnalyticDB PostgreSQL 数据传输服务DTS（Data Transmission Service）支持将自建SQL Server同步至 AnalyticDB PostgreSQL版，帮助您轻松实现数据的传输，用于实时数据分析。支持自建PostgreSQL同步到云原生数据...

测试结果分析

本文介绍云原生多模数据库 Lindorm 与开源HBase的吞吐量对比、毛刺率对比和压缩率对比的测试结果。前提条件基于以下环境配置，性能测试工具和测试方法分析本文的测试结果。环境配置的详情请参见测试环境。性能测试工具的使用请参见性能...

产品概述

通过PostGIS插件支持地理信息数据分析，MADlib库内置超过300个机器学习算法库。数据互联互通支持通过DTS、DataWorks等工具，同多种数据源同步；支持高并行访问OSS，构筑数据湖分析。产品架构云原生数据仓库 AnalyticDB PostgreSQL 版 ...

开源数据分析工具

新品推荐