开源统计软件-开源统计软件文档介绍内容-阿里云

克隆集群

集群创建后，您在EMR控制台修改的服务配置目前不会克隆到新集群，但创建集群时自定义软件配置中配置的参数，则会克隆最新的修改值到新集群。创建集群后，您手动在集群机器上修改的文件或内容，例如JAR包等，无法克隆到新集群。注意事项在...

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用...

EMR-3.29.x版本说明

Ranger 升级软件包至1.2.0-1.5.0。支持Presto 338。配置文件增加Description。HDFS 自适应配置datanode reserved空间大小。Knox 适配Impala、高版本Flink和PAI。Druid 升级至0.18.1版本。SmartData 升级至2.7.301版本。

管理用户

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

提交作业和查看作业信息

查看Query统计详情单击Query的 Run ID，在Streaming Query Statistics页面可以查看当前Query的运行统计信息，包括Input Rate、Process Rate、Input Rows的时序变化，以及每个批次的Duration堆栈图，包括WalCommit、QueryPlanning、...

Catalog概述

说明本文图片和部分内容来源于开源StarRocks的概述。Internal Catalog：内部数据目录，用于管理StarRocks所有内部数据。例如，执行 CREATE DATABASE 和 CREATE TABLE 语句创建的数据库和数据表都由Internal Catalog管理。每个StarRocks...

查看弹性伸缩活动

集群core时统计查看所选时间段内集群每小时按量付费和抢占式实例核数的变化情况。集群弹性伸缩总览查看所选时间段内集群每小时通过弹性伸缩功能创建和释放节点数的变化情况。弹性伸缩成功/失败伸缩活动数量查看所选时间段内集群每小时...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致...

SmartData 3.7.x版本简介

特性描述 JindoFS支持展示统计信息 SmartData 3.7.2及后续版本支持该特性。JindoFS服务收集汇总了一些重要的指标信息，例如OSS读写吞吐、缓存读写吞吐、缓存使用率等，可用于对接Prometheus，进行可视化监控。JindoFS分层存储支持冷归档 ...

spark-sql>CREATE TABLE loghub_table_intput_test(content string)>USING loghub>OPTIONS>(.)离线处理SLS数据，统计截止当前数据条数。spark-sql>CREATE SCAN loghub_table_intput_test_batch>ON loghub_table_intput_test>USING BATCH;...

HBase Thrift Server

背景信息 Thrift是一个可伸缩，跨语言服务RPC框架，集成了强大的软件堆栈及代码生成引擎，使得各种语言做到无障碍，高效通信，目前支持C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Go、Cocoa、JavaScript、Node.js和...

Spark对接MNS

本文介绍如何通过Spark Streaming消费消息服务MNS（Message Notification Service）中的数据，并统计每个Batch内的单词个数。Spark接入MNS 示例代码如下。val conf=new SparkConf().setAppName("Test MNS Streaming")val batchInterval=...

流式读写

例如，对于（id LONG,date DATE,name STRING,sales DOUBLE）这张表，您可以统计每个人的总销售额，将统计结果写入目标表，每个批次更新一次。Spark Structured Streaming读写 spark.readStream.format("delta").load("/tmp/delta_table")....

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

选型配置说明

Flink、Kafka、YARN OLAP 数据分析场景，其中核心组件ClickHouse是一个面向联机分析处理（OLAP）的开源的面向列式存储的DBMS，与Hadoop和Spark相比，ClickHouse更轻量级。ClickHouse支持线性扩展，简单方便，具有高可靠性和高容错。...

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能，您可以快速一键创建EMR集群。使用限制同一地域下最多可...

SmartData 3.0.x版本简介

JindoManager系统管理支持通过UI来查看JindoFS存储系统上的系统状态、文件统计和缓存系统上的缓存指标统计。JindoTools工具集改进Jindo DistCp工具的分发机制，针对EMR集群内使用场景和非EMR集群环境使用场景，分别使用不同的发行包。...

EMR-3.33.x版本说明

本文介绍EMR-3.33.x发行版本的发布日期和更新内容等信息。发布日期 EMR-3.33.0 2021年1月15...EMRHook 新增软件服务。hive-hook：支持Hive元数据和作业运行信息输出至DataWorks。spark-hook：支持Spark元数据和作业运行信息输出至DataWorks。

实例类型

当您需要查看集群上服务的运行情况时，您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时，您可以登录主实例节点，然后通过命令行直接提交作业。登录主节点的具体步骤请参见登录集群。核心实例节点（Core）核心实例节点是被...

安装第三方插件

EMR集群中Flume的软件安装目录为/opt/apps/FLUME/flume-current/lib。方式三：上传第三方的JAR包至$FLUME_HOME/plugins.d/目录下。相关的目录：$FLUME_HOME/plugins.d/lib：插件本身的JAR包。FLUME_HOME/plugins.d/libext：插件依赖的JAR包...

EMR-4.9.x版本说明

修复统计聚合函数行为和Hive不一致的问题。修复读取Hive ORC表char类型数据正确性的问题。HDFS 支持国密SM4加密算法。Hue 升级Hue至4.9.0版本。Alluxio 升级Alluxio至2.5.0版本。Livy 升级Livy至0.7.1版本。发行版本信 Hadoop集群服务 ...

Python使用说明

EMR-2.10.0和EMR-3.10.0之前版本默认不支持Python 3版本，您需要自行下载安装，步骤如下：下载Python 3软件包：Python-3.6.4.tgz。使用文件传输工具（SSH Secure File Transfer Client），上传JAR包至Master节点的/usr/local 目录。解压...

管理资源队列

应用环境开发：开发者编写、测试和调试代码的地方，通常包括IDE（集成开发环境）、版本控制系统和各类调试工具，用于开发者进行软件的构建与调试。生产：供用户使用的实际运行环境，提供稳定、高效和安全的服务。修改并发上限在队列管理...

EMR对接外部KDC

在创建集群的软件配置阶段，打开高级设置区域的 Kerberos身份认证开关。单击外部KDC。默认是本群自建KDC，即当前集群为您创建KDC。使用您外部自建的KDC，需要填写以下信息。参数描述 KDC Hosts KDC的IP地址和端口。多个IP地址时，...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

Impala概述

当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时，StateStore确保将状况结果通知其他Impalad进程，当有新的查询请求时，Impalad进程将不会发送查询请求到该不可用的节点。Catalogd 部署在Master节点的master-1-1...

迁移方案

基于Flink on YARN的部署模式，在未设置 yarn.provided.lib.dirs 参数的情况下，Flink作业在YARN集群中运行时所使用的Flink Runtime为提交作业的客户端所使用的Flink（例如，开源Flink 1.13等）。因此如果您想使用特定的Flink版本运行作业...

访问HBase

HBase配置您可以在创建HBase集群的软件配置页面，利用高级设置的软件自定义配置功能，结合使用场景，修改HBase的默认参数，示例如下。{"configurations":[{"classification":"hbase-site","properties":{"hbase.hregion.memstore....

AI开源项目

阿里云开源的AI及大数据相关开源项目，如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等，您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往阿里云大数据&AI开源项目。

EMR Kafka配置说明

KAFKA_HOME Kafka Broker软件安装目录。LOG_DIR_ROOT EMR集群服务日志根目录。KAFKA_ZOOKEEPER EMR Kafka ZooKeeper访问路径。例如，master-1-1.c-0e6a8cxxxxxxxxxx.cn-hangzhou.emr.aliyuncs.com:2181/emr-kafka。KAFKA_CONF_DIR Kafka ...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

登录集群

此外，您还可以使用SSH连接创建隧道，以便通过Web浏览器查看开源组件的Web页面。本文为您介绍如何在Windows和Linux环境中使用SSH方式（SSH密钥对或SSH密码方式）登录集群。前提条件已在EMR on ECS创建集群，详情请参见创建集群。确保本地...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时，当您希望能够解决各种稳定性痛点（例如消息堆积、脑裂等问题）、实现高并发、分布式、灵活扩缩容时，您可以将开源RabbitMQ集群迁移至云消息队列 RabbitMQ 版，本文介绍迁移上云的前提条件、操作步骤、注意事项...

查看集群列表与详情

软件信息该区域为您展示集群版本、集群类型、软件信息和Hive元数据类型等信息。网络硬件该区域为您展示可用区、专有网络和硬件配置等信息。安全该区域为您展示密钥对、ECS实例角色、集群安全组和集群服务角色等信息。相关文档查看集群...

创建Data Science集群

产品版本默认最新的软件版本。组件版本展示集群类型下的组件及组件版本信息。ACK集群选择已有的ACK集群，或者在容器服务ACK控制台新建ACK集群。说明 Data Science集群会使用如下命名空间（Namespace），包括anonymous、cert-manager、...

EMR-5.2.x版本说明

优化CBO（Cost-Based Optimization）、DPP（DynamicPartitionPruning）以及Z-Order等功能，性能比开源Spark 3版本提升50%。支持阿里云Log Service、DataHub和消息队列RocketMQ版（简称ONS）等数据源。Tez 优化Tez默认参数，以提升作业性能...

EMR-3.42.x版本说明

修复了timestamp字段无法收集统计信息的问题。支持optimize和vacuum命令返回指标信息。Hudi 升级至0.11.1版本。HadoopCommon 新增组件，解决HDFS、YARN和JindoSDK配置相互覆盖的问题。YARN 弹性功能增强。Ranger 同时支持Spark2和Spark3。...

开源统计软件

新品推荐