开源统计软件-开源统计软件文档介绍内容-阿里云

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Superset（仅对存量用户开放）

您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin，请您登录后及时修改密码。说明首次登录后默认是英文界面。在Superset页面，单击右上角的图标，选择 ...

创建项目

在项目中您可以进行任务的编辑和工作流的调度。文为您介绍如何在EMR Workflow上...单击项目名称：进入项目概览页，包含该项目的任务状态统计、流程状态统计、流程定义统计等信息。单击导入项目：可以使用其他项目导出的JSON文件进行导入。

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

TriggerCondition

Tag Statistics string 统计量名称。必填参数。取值范围：MAX：最大值。MIN：最小值。AVG：平均值。AVG ComparisonOperator string 比较符。必填参数。取值范围：EQ：等于。NE：不等于。GT：大于。LT：小于。GE：大于等于。LE：小于等于。...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）开源Flink的上下游存储，请参见 DataStream Connectors。...

什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook，您可以通过文件导入、导出的方式实现开发工具的自由切换，从而降低了使用门槛。产品功能交互式编程环境支持逐步执行SQL和Python代码，并根据运行结果调整后续代码。多种数据源类型支持...

概述

Flink（VVR）是基于Apache Flink（以下简称Flink）开发的商业版，VVR引擎接口完全兼容Flink开源版本，且提供GeminiStateBackend等高增值功能，以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布...

释放集群

当集群不再使用时，您可以释放集群以删除对应的Namespace以及该Namespace下的所有软件服务，但不会释放实际的物理资源。本文为您介绍如何释放集群。前提条件请确保待释放集群的状态是创建中、运行中或空闲中。操作步骤登录 EMR on ACK。...

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理页面的“健康检查”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化提供有力的信息...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

访问Web UI

访问开源组件的Web UI。单击上方的访问链接与端口页签。在访问链接与端口页面，单击服务所在行的链接，即可正常的访问Web UI页面。常见问题问题描述：ACK集群未安装Ingress组件，该如何处理？解决方法：访问Web UI，需要ACK集群具备...

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。说明使用Knox访问UI的前提条件是，Master节点必须具备公网IP地址，并且只允许对Catalogd和...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

SmartData 3.5.x版本简介

Hive支持JindoTable冷度统计，以统计Hive表访问频次，详情请参见 JindoTable表或分区访问冷度收集。JindoFS工具集增强JindoDistcp，支持通过阿里云监控（CloudMonitor）服务监控告警失败任务、移除了对AVX指令集的依赖、并新增使用冷归档...

什么是EMR Serverless Spark

高性能基于Fusion Engine(Spark Native Engine)，性能体验最高可达开源Spark的2倍。高扩展性基于阿里云Serverless底座，提供资源弹性能力，满足ETL作业突发高峰的同时，进一步降低实际计算资源成本。高扩展性提供资源和任务实例级别的可...

Trino概述

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

SmartData 3.2.x版本简介

SmartData组件是EMR Jindo...Presto支持JindoTable访问热度统计，统计Hive表访问频次。JindoFS生态支持 Spark写入OSS文件时，支持配置 spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false，允许作业不生成_SUCCESS 文件。

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

Delta Lake概述

与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性，并对比EMR-Delta Lake与开源Delta Lake（0.6.1）。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

导出和导入服务配置

阿里云E-MapReduce（简称EMR）提供的导出服务配置...在软件配置的高级设置区域，打开软件自定义配置开关。复制导出的JSON格式服务配置中的内容到配置框中。单击下一步：硬件配置，继续创建集群。创建集群的具体操作，请参见创建集群。

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

Presto概述

与EMR软件栈完美结合，支持DLF和OSS或OSS-HDFS。无需运维，EMR提供一站式服务。基本概念数据模型数据模型即数据的组织形式。Presto使用Catalog、Schema和Table三层结构来管理数据。Catalog：一个Catalog可以包含多个Schema，物理上指向...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

EMR-3.35.x版本说明

修复统计聚合函数行为和Hive不一致的问题。修复读取Hive ORC表char类型数据正确性的问题。HDFS 支持国密SM4加密算法。Hue 升级Hue至4.9.0版本。Alluxio 升级Alluxio至2.5.0版本。Druid 升级Druid至0.20.1版本。增强了安全性。Livy 升级Livy...

配置自定义软件

如果您需要调整这些服务的配置项，则可以在集群创建时使用软件自定义配置功能，以修改现有配置或添加新的配置项。使用限制软件配置操作仅在集群创建时执行一次。操作步骤登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域 ...

创建工作空间

工作空间类型说明对比项基础版专业版主要特点 100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。内置Celeborn来增强Spark在计算过程中的...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

E-MapReduce Serverless服务等级协议（SLA）

2023年6月1日起，E-MapReduce Serverless服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

可视化弹性成本分析

节点昨日花费弹性成本费用统计，这些花费为本集群的弹性资源的账单成本统计。由于账单出账周期为 T+1，因此周一将没有本周累计花费的数据，每月第一日也将没有本月累计花费的数据。花费日环比为昨日集群成本与前一天之间的环比。本周累计...

云监控指标说明

serverless_starrocks_fe_query_latency_ms 瞬时值查询延迟的百分位统计信息，可通过quantile标签查看不同百分位点（例如0.75、0.95等）的延迟情况。单位：ms。serverless_starrocks_fe_qps 累计值每秒执行的Query数。serverless_...

配置集群管理密码

说明这些命令和软件包的具体使用方式可能因系统版本和配置而有所不同，建议您根据实际情况使用。单击保存。在弹出的对话框中，输入执行原因，单击保存。重启Presto服务。单击上方的服务详情页签。在组件列表区域，单击 ...

开源统计软件

新品推荐