dataworks 采用什么数据库-dataworks 采用什么数据库文档介绍内容-阿里云

PyODPS常见问题

为什么DataWorks PyODPS节点上查出的数据量要少于本地运行的结果？DataFrame如何获得Count实际数字？使用PyODPS时，报错sourceIP is not in the white list，如何解决？使用from odps import options options.sql.settings设置MaxCompute...

Python SDK常见问题

为什么DataWorks PyODPS节点上查出的数据量要少于本地运行的结果？DataFrame如何获得Count实际数字？使用PyODPS时，报错sourceIP is not in the white list，如何解决？使用from odps import options options.sql.settings设置MaxCompute...

数据动态脱敏

当您期望某些用户只可以查看MaxCompute项目中隐藏关键信息的敏感数据时，您可以开启MaxCompute动态脱敏功能，在数据访问或展示时实时隐藏或替换敏感数据，以防止敏感数据泄露。本文为您介绍如何开启MaxCompute动态脱敏功能，并提供参考示例...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本，包括1.0数据类型、2.0数据类型以及Hive兼容数据类型，您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

MaxCompute如何访问Hologres

MaxCompute Spark访问Hologres：DataWorks提交模式在 HoloWeb 开发界面的 mc_db_holo 数据库下，执行如下语句创建Hologres表 mc_jdbc_holo。创建Hologres表的操作指导，请参见创建Hologres表。CREATE TABLE mc_jdbc_holo(id INTEGER,name...

使用DataWorks连接

MaxCompute任务节点包括：ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景数据分析使用场景数据分析的 SQL查询功能使用场景如下：您可以通过数据分析的 SQL查询功能查询数据，并...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

创建DataFrame

DataFrame用于引用MaxCompute表、MaxCompute分区、Pandas DataFrame或Sqlalchemy Table（数据库表）数据源。这几种数据源的操作相同，您可以不更改数据处理代码，仅修改输入和输出指向，便可以将本地运行的小数据量测试代码迁移到...

大量数据导出方案

将数据同步节点和ODPS SQL节点连线配置成依赖关系，ODPS SQL节点作为数据的产出节点，数据同步节点作为数据的导出节点。工作流调度配置完成后（可以直接使用默认配置），单击运行。数据同步的运行日志，如下所示。2016-12-17 23:43:46.394...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

ODPS-0123091:Illegal type cast 错误1：in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述执行数据类型...

TPC-DS数据

MaxCompute通过TPC-DS官方工具生成了10GB、100GB、1TB、10TB四个规格的TPC-DS数据，此数据方便您在做产品测试时使用。本文为您介绍MaxCompute公开数据集中TPC-DS数据的基本信息，以及如何通过MaxCompute执行TPC-DS数据查询。简介 TPC ...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

查询加速（MCQA）

场景说明场景特点即席查询（Ad Hoc）您可以通过MCQA优化中小规模数据集（百GB规模内）的查询性能，直接对MaxCompute表开展低时延的查询操作，以便快速完成数据开发及数据分析。您可以根据实际需求，灵活选择查询条件，快速获取查询结果...

常见问题

问题类别常见问题开通MaxCompute DataWorks与MaxCompute的区别是什么？如何区分DataWorks工作空间和MaxCompute项目？开通MaxCompute服务时，如何根据本身数据存储量以及计算任务评估开通哪些产品规格？创建MaxCompute项目创建MaxCompute...

StarRocks Connector

背景信息 StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库，可以满足企业级用户的多种分析需求，包括OLAP(Online Analytical Processing)多维分析、定制报表、实时数据分析和Ad-hoc数据分析等。关于StarRocks详情，...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK，用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件本地已安装python环境，且已安装PyODPS包，参考：安装PyODPS。准备数据集 ...

ODPS-0130071

错误码：ODPS-0130071:Semantic analysis exception 错误1：the number of input partition columns(n)doesn't equal to table's partition columns(m)错误信息示例 FAILED:ODPS-0130071:[m,n]Semantic analysis exception-the number of ...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件您需要完成以下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

开源支持

MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB/EB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。SDK MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK，您可以通过...

PyODPS的去重

本文为您介绍如何进行PyODPS的去重。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾花 ...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时，同一个脚本文件中的代码会在不同位置执行，可能导致一些无法预期的问题，本文为您介绍当出现相关问题时，如何确定代码的执行环境，以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

准备工作

MaxCompute支持通过标准MaxFrame SDK（本地MaxFrame客户端）、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame，本文为您介绍使用MaxFrame前需要准备的运行环境。前提条件已安装3.6及以上版本的Python环境。已创建MaxCompute项目...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorks的PyODPS类型节点，结合开源结巴中文分词库，对数据表中的中文字段进行分词处理并写入新的数据表，以及如何通过闭包函数使用自定义词典进行分词。前提条件已创建DataWorks工作空间并绑定了MaxCompute计算...

通过DataWorks使用PyODPS

请避免在PyODPS节点中直接下载数据并在DataWorks中处理数据，建议将数据处理任务提交到MaxCompute进行分布式执行处理，两种方式的对比详情请参见注意事项：请勿下载全量数据到本地并运行PyODPS。包支持限制 DataWorks的PyODPS节点缺少 ...

开发PyODPS脚本

PyODPS是MaxCompute Python版本的SDK，提供对MaxCompute对象的基本操作和DataFrame框架，通过PyODPS，您可以在MaxCompute上进行数据分析。本文为您介绍如何开发PyODPS脚本，以实现与MaxCompute的高效交互和数据处理。前提条件已配置Python...

权限问题

MaxCompute表无Download权限报错信息解决方法在DataWorks的数据地图中搜索对应的MaxCompute表，并申请开通其Download权限，运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限报错信息解决方法申请对应Project下的...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

2019年

概述通过Tunnel迁移日志数据至MaxCompute 通过DataHub迁移日志数据至MaxCompute 通过DataWorks数据集成迁移日志数据至MaxCompute 通过日志服务迁移日志数据至MaxCompute 2019-12-25 新增开源地理空间UDF。新功能您可以将开源地理空间UDF...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点，可用于周期性调度MaxCompute的SQL任务，并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法，适用于海量数据（TB级）但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据...

周期性调度作业概述

任务开发运行过程中可能会产生的其他费用，包含但不限于：数据库费用：数据同步时，读写上下游数据库中的数据，可能会产生数据库费用。计算和存储费用：运行计算引擎任务时，可能会产生计算引擎的计算和存储费用。例如，运行一个MaxCompute...

表

PyODPS支持对MaxCompute表的基本操作，包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作说明基本操作列出项目空间下...

dataworks 采用什么数据库

新品推荐