大数据安全开源-大数据安全开源文档介绍内容-阿里云

SparkSQL自适应执行

而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，例如reduce阶段要处理的数据可能是10 MB，也有可能是100 GB，如果使用同一个值对实际运行效率会产生很大影响，例如10 MB的数据一个task就可以解决，...

什么是EMR Serverless Milvus

和阿里云上下游产品集成与阿里云存储、大数据产品集成对接，方便产品间数据调用，为AI应用场景的数据工程提供最大程度的便利。产品计费公测期间您可以免费试用Milvus，免费试用结束后，实例将开始收费。相关文档快速创建Milvus实例 ...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

产品优势

访问安全：基于阿里云账号体系，利用SASL机制对用户身份进行认证，并利用SSL对通道进行加密传输，确保数据在传输过程中不被窃取或篡改，保证您的数据安全。阿里云VPC：除公网访问方式外，云消息队列 Kafka 版还支持专有网络VPC。您可以...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

整体架构

在周边生态上，提供数据迁移、数据同步、数据管理、数据集成、数据安全等配套工具，方便使用，使您能更加专注于业务发展。湖仓版（3.0）在数仓版（3.0）基础上，同时满足低成本离线处理和高性能在线分析的湖仓一体化版本，称为湖仓版（3....

功能特性

完整自主知识产权 OceanBase 数据库由蚂蚁集团完全自主研发，不基于 MySQL 或者 PostgreSQL 等开源数据库，技术可靠，不会存在基于开源数据库产品的技术限制问题。高性能 OceanBase 数据库作为准内存数据库，通常只需要操作内存中的数据，...

什么是EMR Serverless Spark

EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless ...

OSS数据安全防护最佳实践

本文介绍如何使用 数据安全中心（DSC），对OSS中存储的敏感数据进行识别、分类分级和保护。背景信息敏感数据主要包括个人隐私信息、密码、密钥、敏感图片等高价值数据，这些数据通常会以不同的格式存储在您的OSS Bucket中，一旦发生泄漏，...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明版本号说明 2021-03-20 推荐使用。接入点说明根据实例所在的地域，选择对应的服务接入点地址，...

数据防泄漏典型案例

使用数据安全中心可以监测和防范各类数据泄露风险，例如身份盗用、越权操作、违规操作、操作失误、基础设施缺陷以及数据故意泄密等。检测到异常行为并触发异常告警后，您需要仔细分析审计日志，从而评估被记录操作的正当性，并采取相应的...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

HBase版本选择

本文介绍HBase的各个版本信息以及...功能详情 HBase版本云数据库HBase增强版云数据库HBase标准版 HBase开源版性能优化全局二级索引全文检索（兼容Solr）冷热分离企业级备份主备容灾主备双活跨机房强一致智能诊断与管理 大数据生态

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

Delta Lake概述

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

Attu工具管理

Attu是一款专为Milvus向量数据库打造的开源数据库管理工具，提供了便捷的图形化界面，极大地简化了对Milvus数据库的操作与管理流程。阿里云Milvus集成了Attu，以便更加高效地管理数据库、集合（Collection）、索引（Index）和实体（Entity...

Serverless Spark概述

传统Spark集群版的方案架构图如下所示：但是对于传统Spark集群版，用户首先需要部署一套开源大数据基础组件：Yarn、HDFS、Zookeeper等，可能会存在以下问题：使用门槛高：开发者需要同时熟悉多种大数据组件，才能完成开发与运维相关工作，...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

AliPG优势

AliPG兼容PostgreSQL开源数据库，于2015年正式商用，目前支持10及以上的大版本，已稳定运行多年，支撑了大量阿里巴巴集团内部以及云上的客户业务。采用AliPG的阿里云数据库产品 RDS PostgreSQL 支持的版本 PostgreSQL 10及以上优势 AliPG...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

自研内核

AliPG兼容PostgreSQL开源数据库，于2015年正式商用，目前支持10及以上的大版本，已稳定运行多年，支撑了大量阿里巴巴集团内部以及云上的客户业务。相比开源版本PostgreSQL，AliPG具有如下特点：更快速度图像识别、向量相似搜索场景，相比...

创建EMR Studio集群

高级设置添加用户添加访问开源大数据软件Web UI的账号。权限设置通过RAM角色为在集群上运行的应用程序提供调用其他阿里云服务所需的必要权限，无需调整，使用默认即可。服务角色：用户将权限授予EMR服务，允许EMR代表用户调用其他阿里云...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

快速使用EMR Notebook

EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务，同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例，为您介绍如何使用EMR Notebook。前提条件已完成系统角色...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

创建DataFlow Kafka集群

由于业务场景差异很大，所以无法给出通用的集群规划，您需要根据您的实际环境创建集群。通常，建议您选择机型时考虑以下配置：Broker机型的CPU和内存配比为1：4。选择云盘作为数据存储盘。充分考虑云盘的IO吞吐率以及网卡带宽之间的关系。...

DataWorks on EMR快速入门

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点，实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能，为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。...

Lindorm for Cassandra应用实践

Lindorm For Cassandra特性更强性能：相比开源Cassandra，Lindorm For Cassandra在大规模数据下吞吐量更高，延迟更低。同等规格，20亿行数据下Lindorm与开源Cassandra的性能对比如下：说明以下数值仅供参考，具体以实际场景为准。单行读...

功能特性

数据安全中心功能集功能功能描述参考文档数据分类分级数据资产接入支持自动发现并接入阿里云上的数据资产。支持通过一键连接或账密连接方式连接数据库，一键接入支持：RDS、PolarDB、PolarDB-X（原DRDS）、Redis、OSS、TableStore、...

产品优势

数据安全中心DSC（Data Security Center）可扫描和识别海量数据，帮您实时获取数据的安全状态。本文介绍 数据安全中心的产品优势。合规性使用数据安全中心产品，可以帮助企业满足等保2.0对“云计算环境下安全审计”及“个人信息保护”的...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

支持的数据库类型

数据安全中心DSC（Data Security Center）为您提供敏感数据识别、数据安全审计、数据脱敏、数据风险检测等安全能力。本文介绍 DSC 支持的数据库类型。说明下表用到的标识说明：表示当前数据库类型支持该功能。表示当前数据库类型不支持该...

大数据安全开源

新品推荐