社交网络的数据挖掘-社交网络的数据挖掘文档介绍内容-阿里云

（邀测）MaxCompute Notebook使用说明

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。版本说明当前MaxCompute Notebook功能处于邀测阶段，每个租户最多可启动3个Notebook实例，每个...

MaxFrame概述

处理数据量大、处理逻辑复杂，需要基于MaxCompute海量数据及弹性计算资源、MaxFrame分布式能力进行大规模数据分析、处理及数据挖掘，提高开发效率。面向Data+AI开发，需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。支持的...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级...自主挖掘数据的业务价值：通过画像分析、业务模型编辑器，从业务视角更直观地探索数据，更高效的从数据中获取业务价值，并不断丰富客户的标签等数据资产。

语义挖掘工具

【分析结果】数据总量：表示进行语义挖掘的数据总量命中意图：表示进行语义挖掘时命中的意图的数量命中条数：表示进行语义挖掘时有效命中意图数据的全部数量未命中条数：表示进行语义挖掘时无法有效命中意图数据的全部数量【命中意图】...

备份集查询功能概览

DBS备份数据查询功能，可以在不恢复备份数据的情况下，直接查询云存储中备份集的数据。背景信息传统的备份数据查询有两种方式：将备份数据文件导入至数据库，再通过数据库操作对数据进行查询，但是这种方式耗费时间长，且可能会导致数据...

新功能试用申请

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。功能说明和使用请参见（邀测）MaxCompute Notebook使用说明。2023年3月项目开启Volume权限 External Volume是MaxCompute提供的分布...

深度解析Lindorm搜索索引（SearchIndex）特性

WAL保序通过隐藏的时间戳属性，保证在宽表中先写入的数据先写入搜索，后写入的数据后写入搜索，确保宽表和搜索的数据一致性，彻底解决LilyIndexer存在的数据错乱问题。全量构建快对于已有的历史数据，可以借助LTS的全量任务运行机制，...

数据科学计算概述

Scikit-Learn：用于数据分析和数据挖掘任务的算法。为满足用户基于MaxCompute进行大规模数据处理、分析、挖掘及模型训练的需求，MaxCompute提供了一套Python开发生态，让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及...

功能特性

功能集功能功能描述参考文档资源计费读流量按照实际传输的数据量计费产品定价存储容量按照实际的存储量计费产品定价公网流量使用阿里云公网进行的网络传输数据流量产品定价活跃shard租用 Shard租用只统计当前状态为活跃...

什么是图数据库GDB?

例如，在一个典型的社交网络中，常常会存在“谁认识谁，上过什么学校，常住什么地方，喜欢什么餐馆”之类的查询，传统关系型数据库对于超过3张表关联的查询十分低效难以胜任，但图数据库可轻松应对社交网络的各种复杂存储和查询场景。...

网络类型

所有经典网络类型的数据库都建立在一个共用的基础网络上。数据库之间不通过网络进行隔离，只能依靠数据库自身的安全策略来阻挡非法访问。VPC：是逻辑隔离的私有网络，用户可以自定义网络拓扑和IP地址，支持通过专线连接。相对经典网络而言...

云监控控制台查看监控

Inactive datapart个数不活跃的数据分片个数。CPU使用率集群各节点的平均CPU使用率。内存使用率集群各节点的平均内存使用率。每秒写入大小集群各节点每秒写入的数据量。单位：MB。QPS 每秒处理的查询数目。每秒写入行数集群各节点每秒...

配置资源组与网络连通

在数据同步任务配置前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性，您可以根据数据库所在网络环境，选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中...

数据集成概述

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

BigQuery数据源

创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源。以下对BigQuery数据源的几个配置项进行说明：BigQuery Project ID：Google BigQuery的项目名。BigQuery授权认证信息：...

网络连通解决方案

数据源在VPC内-VPC和Dataphin不在同一地域在Dataphin所在地域新建一个VPC网络的ECS。使用高速通道或VPN连通两个VPC（ECS的VPC和数据源的VPC）。在Dataphin中添加数据源时，绑定ECS的VPC。添加Dataphin的IP地址（VPC网络下Dataphin的出网IP...

营销动作-发优惠券组件

您也可以从系统自动创建的社交互动数据集（名称前缀为“社交互动”，创建者为“API同步”，ID类型含UnionID，），通过标签筛选、行为筛选等方式筛选受众，生成的受众可以用于发优惠券。支持组织管理员、空间管理员，以及具有“社交互动-...

分组聚合查询优化

因为数据已经经过了局部聚合，所以需要网络传输的数据较少，网络压力较小。数据重分布完成后，执行最终聚合，在最终聚合节点，需要把一个分组的值及其聚合状态维护在内存中，直到所有数据处理完成，以确保某个特定的分组值没有新的数据需要...

添加实时数仓Hologres数据源

在我的数据 页签中选择数据源管理，单击添加数据。从类型列表中，选择实时数仓Hologres。在列表中选择内网，并选择Hologres实例所在的区域。选择内网数据库的网络类型（包括专有网络和经典网络）。专有网络打开 VPC 开关，进入 ...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

系统管理

系统管理中的配置仅在本租户的当前地域生效，并且您需确保SQL查询、数据上传任务使用的数据源和资源组网络连通。详情请参见配置资源组与网络连通。数据上传：引擎限制：仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。资源组限制...

MySQL节点

访问公网或VPC网络的MySQL数据源，请选择与MySQL数据源网络连通的调度资源组，作为周期调度任务使用的资源组。详情请参见配置资源组与网络连通。提交并发布节点任务。单击工具栏中的图标，保存节点。单击工具栏中的图标，提交节点任务。...

添加实时数仓Hologres数据源

新添加的数据源会自动列在数据源列表中。通过外网添加数据源操作步骤登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击新建数据源。从类型列表中，选择实时数仓Hologres。在列表中选择外网。填写数据...

新建 TiDB 数据源

建议您为数据迁移项目创建一个专属的数据库用户，该用户必须具备相关的数据操作权限。详情请参见创建 TiDB 数据库用户。如果您需要订阅 TiDB 增量日志，请准备 Kafka 数据源和 Kafka Topic。并且，请根据 TiDB 官方文档，提前创建 TiDB ...

约束和限制

目录下面采样最新和最老的文件，每个文件读取前1000行元数据发现SLS数据源发现历史投递数据如果投递中途修改了分区格式，不会发现修改前的数据 一键建仓/多库合并支持的数据源网络类型 VPC 一键建仓/多库合并支持的数据源 PolarDB MySQL ...

Amazon Redshift数据源

创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建与管理数据源。以下对Amazon Redshift数据源的几个配置项进行说明。JDBC URL：请填写JDBC连接串，包含IP、端口号、数据库和连接参数。...

数据传输作业：数据集成

离线同步离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间...

概述

DataHub数据同步功能 DataHub提供数据Sink/Source功能，即数据同步功能，DataHub支持将对应Topic中的数据 实时/准实时的同步到第三方阿里云产品中，打通阿里云产品间的数据流通。目前支持MaxCompute（原ODPS）、分析型数据库MySQL(ADS)、...

Kafka实时ETL同步至Hologres

专有网络：选择需要同步的数据源所绑定的专有网络。可用区、交换机：优先选择数据源所在的可用区和交换机；如果所在的可用区不可选择，则选择其他任意可用区和交换机。但您需要确保VPC网络跟数据源所在的VPC网络可连通。安全组：可以选择您...

配置回流数据源

配置从微信、社交互动模块、会员中台模块回流到Quick Audience的数据的存储位置。操作步骤：单击页面右上角，选择组织管理>接口管理。回流数据源设置：单击编辑，设置回流数据源，然后单击保存。微信回流数据源：用于存储回流的微信...

资源规划和配置

网络支持公网、阿里云VPC网络（实例模式&连接串模式）、IDC网络下的数据源。支持公网、阿里云VPC（实例模式）、阿里云经典网络下的数据源。说明深圳金融云暂不支持使用公共资源组访问经典网络下的数据源。收费方式根据资源组的规格，...

通过DataWorks导入数据

DataWorks提供了可视化的数据导入方式，相对于通过外表导入，DataWorks导入的方式更为轻量化，适合数据量相对较小的数据导入场景。本文介绍如何通过DataWorks将RDS SQL Server数据导入至 AnalyticDB MySQL版湖仓版（3.0）或数仓版（3.0）...

专有网络VPC的数据源连通独享数据集成资源组

本文以阿里云RDS数据库为例，为您介绍专有网络VPC的数据源如何连通独享数据集成资源组。前提条件购买RDS MySQL实例。本文以购买MySQL 5.7版本的MySQL实例为例，您可以根据业务需求进行配置。详情请参见快速创建RDS MySQL实例。在目标实例...

Napatech案例

业务挑战随着网络数据流量的爆增以及业务可用性要求的不断提升，Napatech公司的用户可以将数据包采集和分析的能力提升至200G，然而上层软件产生的流量数据包元数据也爆增，给后台数据库（比如开源的HBase/ElasticSearch）的存储和索引能力...

数据源配置常见问题

请根据数据库的网络类型和所在地域，将相应的DataV服务器IP地址加入到您的数据库白名单或ECS的安全组设置中，或者使用代理工具来连接您的数据库，具体请参见如何使用DataV Proxy。如何配置CSV数据来源？保留CSV的首行作为表头，并且每一个...

数据源配置常见问题

请根据数据库的网络类型和所在地域，将相应的DataV服务器IP地址加入到您的数据库白名单或ECS的安全组设置中，或者使用代理工具来连接您的数据库，具体请参见如何使用DataV Proxy。如何配置CSV数据来源？保留CSV的首行作为表头，并且每一个...

添加RDS for PostgreSQL数据源

在我的数据 页签中选择数据源管理，单击添加数据。从类型列表中，选择 RDS for PostgreSQL。在列表中选择内网，并选择RDS实例所在的区域。选择内网数据库的网络类型（包括专有网络和经典网络）。专有网络打开 VPC 开关，进入 ...

MySQL整库实时同步至OSS数据湖

配置页面的右侧为源端数据库表的预览，是根据上述步骤中配置的数据源预览出来的待同步的数据库表和已选择好要同步的数据库表的预览情况。您可根据待同步的源端数据库表的数量，参考以下操作建议，快速选择要同步的库表。如果您的数据库表...

社交网络的数据挖掘

新品推荐