大数据搜索挖掘平台-大数据搜索挖掘平台文档介绍内容-阿里云

产品优势

提高开源组织版本管理效率，快速支持业务创新更多开源软件支持更高软件版本支持覆盖从边缘到AI全场景企业级的服务支持，降低运维成本，缩短故障处理时间来自阿里云和Cloudera的7*24小时大数据专家服务支持快速定位使用中遇到的问题，...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

物联网设备数据上云存储

本文介绍如何使用阿里云物联网平台和 TSDB 进行数据打通，实现物联网设备系统的开发和管理、数据采集、数据上报、数据存储和分析的一体化方案，构建智能物联网平台。架构参考“物联网平台+TSDB”方案的实现架构如下：物联网设备通过 IoT ...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

JindoCache概述

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

前言

交通云控平台通过实现设备数据与平台内置互联网数据的秒级融合，实时产出交通评价指标和事件预警；同时，根据海量离线数据，还原车辆的全量出行轨迹，以及挖掘车辆画像。数据模块为您提供一套数据处理工具，覆盖数据接入到数据消费的全流程...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

轨迹服务

本文介绍针对车联网大数据场景，Lindorm Ganos时空引擎基于SQL接口实现的轨迹服务。背景信息随着车联网行业的发展，汽车管理业务受到了更加广泛的关注。汽车云平台的业务系统每天都会接收到大量的车辆信息，例如车辆的实时位置和车辆的...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

01创建解决方案

将应用、服务、数据源等资源生成整体解决方案包，便于在其他系统或工作组中快速部署。本文以按应用关联为例，介绍如何创建解决方案。前提条件已创建“信息中心（xxzx）”工作组，具体操作，请参见新建工作组并添加成员。线上场景已上线，...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

功能简介

数据探索面向行业客户和业务人员，提供工具内容一体化的业务模型构建平台，实现低代码、可视化构建全场景专家模型，重塑大数据服务创新模式。将业务数据沉淀为智能数据或智能算子，通过可视化的拖拉拽和简单的图形化条件设定进行模型编排，...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

数据服务简介

DataWorks离线数据集成物联网平台数据服务中的平台系统表、产品属性时序表、产品事件表和自定义存储表数据，可以集成到阿里云大数据开发治理平台（DataWorks）中构建数据仓库，以提升数据应用效率。实时数据集成（Flink版）物联网平台数据...

配置MaxCompute输出

大数据计算服务MaxCompute（原名ODPS）为您提供完善的数据导入方案，能够快速解决海量数据的计算问题。前提条件配置MaxCompute输出节点前，您需要先配置好相应的输入或转换数据源，详情请参见实时同步能力说明。背景信息写入数据不支持...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

数据源管理

本文介绍数据源的一般操作，包括新建、搜索、重命名、编辑和删除等操作。新建数据源具体操作请参见添加数据源。搜索数据源登录 DataV控制台。在功能导航模块单击数据源，进入数据源管理页面。在数据源卡片页右上角可以做以下操作。...

数据科学计算概述

为满足用户基于MaxCompute进行大规模数据处理、分析、挖掘及模型训练的需求，MaxCompute提供了一套Python开发生态，让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及挖掘工作。发展路径 MaxCompute提供的Python开发生态...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

MaxFrame概述

处理数据量大、处理逻辑复杂，需要基于MaxCompute海量数据及弹性计算资源、MaxFrame分布式能力进行大规模数据分析、处理及数据挖掘，提高开发效率。面向Data+AI开发，需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。支持的...

数据集管理

本文介绍数据集的一般操作，包括新建、搜索、重命名、编辑和删除等操作。新建数据集具体操作请参见添加适配数据集。搜索数据集登录 DataV控制台。在功能导航模块单击数据集，进入数据集管理页面。在数据集卡片页右上角可以做以下操作...

MapReduce

海量数据挖掘：非结构化数据、时空数据和图像数据挖掘。机器学习：监督学习、无监督学习和分类算法（例如决策树、SVM）。自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

新功能试用申请

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。功能说明和使用请参见（邀测）MaxCompute Notebook使用说明。2023年3月项目开启Volume权限 External Volume是MaxCompute提供的分布...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

代码搜索

DataWorks的代码搜索功能，用于通过关键字搜索节点中的代码片段，并展示包含该代码片段的所有节点及片段的详细内容。当目标表数据产生变更，您需要查找操作源（即导致目标表数据变更的任务）时，可以使用该功能。本文以数据开发功能为例，...

数据服务概述

使用统一平台数据安全管控策略，通过API申请调用、鉴权控流、白名单等手段，降低数据安全管控成本。运维监控：支持对数据服务调用统计、调用日志明细信息查询，为运维人员和开发人员排查问题，及时发现并修正数据服务的调用异常。您可以...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

大数据搜索挖掘平台

新品推荐