内容社区行业

数据接入 开放搜索支持用户通过数据源将数据接入搜索,也支持无数据源,通过API/SDK/控制台上传文件的方式导入数据详情如下:RDS数据源配置 MaxCompute(原ODPS)数据源配置 PolarDB数据源配置 API/SDK数据导入 内容社区行业模板配置 功能...

安全防护

企业数据安全管理者可以通过自适应的脱敏解决方案,完成各类不同场景的数据脱敏分发,例如定期从生产环境向开发测试环境脱敏,不同数据类型(如OSS中的csv向RDS的数据表)之间的异构脱敏,数据库层面的原库/原表脱敏等等。防护重点3:动态...

小程序场景

搜索“3岁以下宝宝咳痰怎么治疗”,专业性较强对搜索结果相关性要求更加精准 五、开放搜索解决方案 搭建需求 开放搜索 环境搭建 购买应用即可开始接入配置 数据接入 支持RDS、ODPS、POLARDB、API/SDK等多种数据接入方式 分词 内置阿里巴巴...

DataWorks On CDP/CDH使用说明

环境准备 一、资源准备 类别 描述 相关文档 版本选择 DataWorks基础版服务可满足 CDP或CDH 基本的数据上云、数据开发调度生产、简单的数据治理工作,若需获取更专业的数据治理、数据安全解决方案,可选择相应的 标准版、专业版、企业版 ...

识货电商引入Tair构建在线业务平台,轻松应对百万QPS...

云原生内存数据库 Tair 提供了丰富的数据模型和企业级能力,帮助识货电商构建在线业务系统,平稳地支撑识货各种大促活动,轻松应对百万级QPS的业务挑战。客户感言“云原生内存数据库 Tair 助力识货APP实现高并发、低时延的系统架构,轻松...

产品架构

最后,数据通道服务(LTS)负责引擎之间的数据流转和数据变更的实时捕获,以实现数据迁移、实时订阅、数湖转存、数仓回流、单元化多活、备份恢复等能力。分布式文件系统 LDFS(Lindorm DFS,也称为Lindorm文件引擎)是面向云基础存储设施...

产品优势

云原生数据湖分析DLA(Data Lake Analytics)是新一代大数据解决方案,采取计算存储完全分离的架构,支持数据消息实时归档建仓。DLA提供弹性的SparkPresto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

数据湖存储管理 对象存储OSS 数据构建DLF 将在线数据库中的源数据引入数据湖时,OSS会作为数据湖的统一存储,存储机制包含Delta Lake和Hudi两种。同时,DLF采用元数据管理功能管理元数据库和元数据表。数据湖探索分析 MaxCompute ...

应用场景

EMR Serverless Spark不仅集成了任务调度系统,使得您能够便捷地构建与管理数据ETL流程,轻松实现自动化及周期性数据处理,而且还内置了先进的版本控制机制。这一机制确保了开发生产环境的彻底隔离,确保符合企业级用户在研发和发布流程...

功能特性

配置管理 数据保护 敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理,以避免敏感数据滥用,有效保护企业的敏感数据资产,防止数据泄露造成企业经营资金损失或罚款。...

常见问题

export HADOOP_HOME=path/to/yarn-current&\ export PATH=${HADOOP_HOME}/bin/:$PATH&\ export HADOOP_CLASSPATH=$(hadoop classpath)&\ export HADOOP_CONF_DIR=path/to/hadoop-conf 重要 Hadoop的配置文件中(例如 yarn-site.xml 等)...

引擎类型

云原生多模数据库 Lindorm 内含宽表引擎、时序引擎、搜索引擎、文件引擎、计算引擎和流引擎,兼容HBase/Cassandra/S3、OpenTSDB、Solr、HDFS、Kafka等多种开源标准接口,同时提供SQL查询、时序处理、文本检索分析等能力。为应对动态变化的...

PolarDB HTAP实时数据分析技术解密

MySQL生态HTAP数据解决方案 MySQL是一款主要面向OLTP场景设计的开源数据库。开源社区的研发方向侧重于加强其事务处理的能力,例如:提升单核性能、多核扩展性能、增强集群能力以提升可用性等。在处理大数据量下复杂查询所需要的能力方面...

列存索引技术架构介绍

技术背景 MySQL生态HTAP数据解决方案 MySQL是一款主要面向OLTP型场景设计的开源数据库,开源社区的研发方向侧重于加强其事务处理能力。如提升单核性能、多核扩展性和增强集群能力,以提升可用性等。在处理大数据量下复杂查询所需要的能力...

DLA Lakehouse实时入湖

DLA Lakehouse实时入湖方案利用数据湖技术,重构数仓语义;分析数据数据实现数仓的应用。本文以RDS MySQL数据源为例介绍了RDS MySQL从入湖到分析的操作步骤。背景信息 数据湖分析(Data Lake Analytics)是⽬前炙⼿可热的⽅向,主要是...

深度解析Lindorm搜索索引(SearchIndex)特性

索引是加速数据库查询的重要手段,Lindorm除了提供高性能的二级索引外,同时支持搜索索引(SearchIndex),主要面向复杂的多维查询场景,并能够覆盖模糊查询、聚合分析、排序、分页等场景。本文主要介绍SearchIndex的技术原理和核心能力。...

自媒体:易撰

自媒体 网站地址:易撰 客户介绍 长沙营智信息技术有限公司是专业的新媒体大数据服务商,其旗下知名品牌易撰,基于新媒体大数据挖掘技术及NLP算法分析,为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构解决方案。...

通用

解决方案 引入移动开发平台 mPaaS,各个业务模块实现独立开发、测试发布。各业务模块的“资源、代码”等核心要素实现完美区隔,而“日志、存储、数据同步”等核心业务实现集中维护,提升研发效能的同时让端上架构更开放、更灵活。客户...

DataWorks on EMR集群配置最佳实践

DataWorks支持绑定EMR(E-MapReduce)的DataLake(新版数据湖)集群为EMR计算引擎,创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、定时调度和元数据管理等功能,帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让数据真正的驱动客户业务。...

大数据上云及巡检服务内容说明

帮助客户制定满足客户业务系统的数据平台迁移改造技术方案,快速高效的实现数据/作业的迁移,保证数据的一致性。以解决以下客户痛点:对云计算平台产品不熟悉,对数据迁移没有设计经验,缺乏相应的迁移方案设计能力。数据迁移整体流程...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

使用限制

单表QPS 500 单表分区数量 100万 数据湖入湖预处理作业 限制项 用户配额 用户入湖作业数量(每个region)1000个 每个入湖作业最大资源量 100CU 兼容使用限制说明 以下3种Hive特性不支持,建议采用最新Delta/Hudi/Iceberg方案替代:...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCpJindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

基于Delta lake的一站式数据构建与分析实战

目前很多云厂商提供了一站式入湖的解决方案,帮助客户以更快捷更低成本的方式实现数据入湖,如阿里云DLF数据入湖。2.统一元数据服务 对象存储本身是没有面向数据分析的语义的,需要结合Hive Metastore Service等元数据服务为上层各种分析...

E-MapReduce数据迁移

提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。前提条件 已开通并创建E-MapRedece集群。具体操作,请参见 创建集群。说明 当使用阿里云 文件存储 HDFS 版 替换E-...

发展历程

2018年 MaxCompute的多个客户案例荣获“2017大数据优秀产品和应用解决方案案例”奖。基于公共云的BigBench在100 TB规模上,MaxCompute的性能指标较2017年10月提升了一倍,达到18176.71 QPM(Queries Per Minute)。此外,在超小型10 TB规模...

Delta Lake概述

很高 低 较高 事务性 支持 不支持 支持 性能 高 低 较高 扩展性 依赖于具体实现 高 高 面向人员 管理人员 管理人员、数据科学家 管理人员、数据科学家 成本 高 低 低 适用场景 Delta适用于云上数据数据管理解决方案。如果您存在以下场景...

AUTO模式核心特性及典型场景

热点分裂——有效解决数据热点 对于热点数据,PolarDB-X 支持两种处理方式:第一种方案是将热点数据所在的分区数据迁移到特定的数据节点,让热点数据以独享存储资源的方式服务业务,能够实现热点数据不影响非热点数据的业务。具体操作步骤...

数据分析整体趋势

随着AWS,Azure,Alibaba,Google等云厂商的出现,云原生分布式数据仓库成为目前数据分析技术的主要解决方案,代表性云服务包括Amazon Redshift,Snowflake,Alibaba Cloud AnalyticDB,Google BigQuery等。这些云原生数据仓库技术分别起源...

用自然语言实时查看BI报表

为了帮助您更好地理解并且体验NL2SQL能力,PolarDB构建了 NL2BI解决方案:NL2BI是指「BI服务+NL2SQL」,即结合PolarDB数据库NL2SQL能力以及PolarDB高效数据查询和分析能力,基于内置的样本数据集和提问示例进行场景化体验,并以可视化图表...

NL2BI:用自然语言实时查看BI报表

为了帮助您更好地理解并且体验NL2SQL能力,PolarDB构建了 NL2BI解决方案:NL2BI是指「BI服务+NL2SQL」,即结合PolarDB数据库NL2SQL能力以及PolarDB高效数据查询和分析能力,基于内置的样本数据集和提问示例进行场景化体验,并以可视化图表...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以阿里云...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

数据集成概述

背景信息 面对各行各业对数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

概述

事实上,鉴于数据库研究在数据发现、数据管理、版本控制、数据清理和数据集成方面积累的专业知识,PolarDB for AI 可以为数据驱动的智能应用提供一站式的数据(包括:数据、特征和模型)服务来解决这种割裂状态,大大减少数据驱动的智能...

客户案例

但在报表开发的演进过程中,报表平台逐步建立起业务系统分离,由之前的面向报表的开发模式,转变为面向指标的通用解决方案,这就把报表开发的问题拆解为细粒度的指标组合,不同的指标依赖的计算存储模型会根据业务的特性会有极的不同。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云原生大数据计算服务 MaxCompute 开源大数据平台 E-MapReduce 云服务器 ECS 商标服务 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用