大数据时代的信息筛选工具-大数据时代的信息筛选工具文档介绍内容-阿里云

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

公开数据集概述

TPCx-BB是一个大数据基准测试工具，该工具模拟了一个网上零售的场景，包含销售记录和退货记录，同时包含商品信息和促销信息等，详情如下：customer（客户信息）customer_address（客户地址信息）customer_demographics（客户基本信用信息）...

数据建模：智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品，沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践，包含数仓规划、数据标准、维度建模及数据指标四大模块，帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

在线使用&数据监控

在线使用提供用户在线使用工具，支持已发布模板或已部署模型在线评测或在线...数据监控提供用户数据监控工具，支持统计已开通模板任务或信息抽取任务的调用数据，包括在线评测/使用和API调用的累计统计量。支持多任务筛选和时间范围筛选。

在线使用&数据监控

在线使用提供用户在线使用工具，支持已发布模板或已部署模型在线评测或在线...数据监控提供用户数据监控工具，支持统计已开通模板任务或信息抽取任务的调用数据，包括在线评测/使用和API调用的累计统计量。支持多任务筛选和时间范围筛选。

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

人群筛选概述

人群筛选有多种方式，取决于数据表、从数据表生成的模型的类型：标签筛选：基于用户标签（含用户属性、自定义标签）的人群筛选，筛选出满足指定标签值要求的人群。多条标签筛选条件间可以是且、或关系。例如：筛选出省份=浙江省，并且性别=...

数据模型概述

数据模型（Data Model）是数据特征的抽象，它从抽象层次上描述了系统的静态特征、动态行为和约束条件，为数据库系统的信息表示与操作提供一个抽象的框架。DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

新建数据源

相关操作在数据源添加成功后，在数据源管理页面，可对数据源进行以下操作：操作说明查看数据源详情在数据源列表，单击目标数据源操作列的更多，选择查看详情，查看数据源的基本信息和数据对象的表结构信息。编辑数据源在数据源...

新建数据源

相关操作在数据源添加成功后，在数据源管理页面，可对数据源进行以下操作：操作说明查看数据源详情在数据源列表，单击目标数据源操作列的更多，选择查看详情，查看数据源的基本信息和数据对象的表结构信息。编辑数据源在数据源...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

管理数据源权限

您可以在数据源管理页面，分享数据源权限给相应的工作空间，并进入被分享的工作空间查看该数据源。本文为您介绍如何管理数据源权限及查看分享的数据源。背景信息通常数据源会承载数据的具体地址、账户和密码等敏感信息，但普通开发人员仅...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

功能简介

入库任务支持将Shapefile、GeoJSON和CSV文件类矢量数据添加到系统默认的空间数据库或者指定的PostGIS、Ganos数据库，方便对空间数据库进行空间检索、数据质检、血缘记录，打通数据计算引擎链路，使得空间数据被用于数仓建设、标签管理等...

敏感数据溯源

DataWorks的数据溯源功能，支持通过提取数据泄露文件中数据的水印信息，帮助您定位到可能会泄露目标数据的责任人。本文为您介绍如何创建溯源任务，并通过该任务查找可能会泄露数据的责任人。前提条件已创建数据识别规则，详情请参见配置...

空间数据（邀测中）

入库任务支持将Shapefile、GeoJSON和CSV文件类矢量数据添加到系统默认的空间数据库或者指定的PostGIS、Ganos数据库，方便对空间数据库进行空间检索、数据质检、血缘记录，打通数据计算引擎链路，使得空间数据被用于数仓建设、标签管理等...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据连接管理

数据传输服务DTS（Data Transmission Service）支持录入数据库信息。在配置任务时，您可以直接选择已录入的数据库，DTS将自动填入数据库信息而无需您手动输入，避免了重复输入数据库信息的繁琐步骤。本文介绍如何录入、保存、编辑或删除...

数据检索与预览

本文为您介绍自动驾驶数据管理平台中的数据检索和预览功能。平台提供场景数据的可视化功能，包括数据的检索、预览、回放等，通过目标数据特征检索并找到各类元数据。数据集说明数据文件的集合，通过左上方搜索栏输入数据集名称字段可自动...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

功能特性

自学习工具从模型新建、模型训练、模型部署三个视角帮助用户实现应用上的闭环，具体表现为工作区管理、数据标注和数据集管理训练、测试集管理、模型部署和模型管理五大功能模块。面向业务场景的工作区管理积累深厚的行业AI视觉模型基于...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

新建 PolarDB-X 2.0 数据源

背景信息云原生数据库 PolarDB 分布式版（简称 PolarDB-X）是由阿里巴巴自主研发的云原生分布式数据库，为您提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。详情请参见什么是云原生数据库 PolarDB 分布式版。前提条件...

使用DataWorks数据服务生成API

本文为您介绍如何通过DataWorks的数据服务，生成并发布数据API，用于在DataV中进行调用并展示。前提条件在开始本案例前，您需要首先完成准备工作。背景信息注意按照本文档操作后，可以获取到您数据API的AppCode、AppKey和AppSecret，请...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

兼容性概述

商业智能（BI）分析工具可以将复杂的数据转换成图表、仪表盘等形式，以直观的方式展示分析结果，使您能够快速把握业务状态。BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

玫瑰图

玫瑰图组件以扇形面积的形式展示数据量。本文介绍玫瑰图组件详细配置方法。应用示例如下图所示，使用玫瑰图展示各个工厂对应的机器数量。步骤一：添加组件创建Web应用。具体操作，请参见创建Web应用。在Web应用编辑器中，单击最左侧的...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

管理数据源

查看数据源创建数据源后，您可以在数据源列表查看所有已创建数据源的基本信息、详情和网络连接等信息，也可以根据数据源类型进行筛选、根据数据源的创建时间进行排序，以及模糊搜索指定数据源。登录 OceanBase 管理控制台。在左侧导航栏，...

数据标准

单击该数据标准即可将数据标准中的信息关联到字段。数据标准浏览在数据标准浏览器页面，可以查看所有的数据标准。单击自定义标准文件夹，右键菜单选择新建自定义标准，编辑标准属性、引用代码、自定义属性，可以新增数据标准。数据...

管理视图

属性和数据页签属性页签：基本信息：查看视图名称、检查项和创建人等信息。列：查看视图对应基表的字段名称、数据类型和字段注释等信息。工具栏中单击刷新图标，刷新字段信息。代码：当前视图的定义脚本。工具栏中单击下载图标，...

大数据时代的信息筛选 工具

新品推荐

大数据时代的信息筛选工具