SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言,其语法类似于标准SQL,但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

表批读写

读取表 您可以通过指定表名或路径将Delta表加载到DataFrame中:SQL%sql SELECT*FROM events-query table in the metastore SELECT*FROM delta.`/mnt/delta/events`-query table by path Python%pyspark spark.table("events")#query table ...

PyODPS支持对MaxCompute表的基本操作,包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作 说明 基本操作 列出项目空间下...

SQL Server数据源

该驱动支持的SQL Server版本如下所示:版本 支持性(是/否)SQL Server 2016 是 SQL Server 2014 是 SQL Server 2012 是 PDW 2008R2 AU34 是 SQL Server 2008 R2 是 SQL Server 2008 是 SQL Server 2019 否 SQL Server 2018 否 Azure SQL ...

迁移指南

Python%pyspark spark.sql("CREATE TABLE events USING DELTA LOCATION '/mnt/delta/data-pipeline/'")转换为增量表 您有两种选择将Parquet表转换为Delta表:将文件转换为Delta Lake格式并创建Delta表:SQL%sql CONVERT TO DELTA parquet.`...

Collection

DataFrame中所有二维数据集上的操作都属于CollectionExpr,可视为一张MaxCompute表或一张电子表单,DataFrame对象也是CollectionExpr的特例。CollectionExpr中包含针对二维数据集的列操作、筛选、变换等大量操作。前提条件 您需要提前完成...

数据管理

insert']THEN INSERT(t.date,t.name,t.id)VALUES(s.date,s.name.s.id)Scala import io.delta.tables._import org.apache.spark.sql.functions._val updatesDF=./define the updates DataFrame[date,id,name]DeltaTable.forPath(spark,"/tmp...

Spark概述

架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据分析、流计算、机器学习和图计算等场景,详情请参见 Apache Spark官网。...

表删除,更新和合并

例如,要删除2017年之前的所有事件,可以运行以下命令:SQL%sql DELETE FROM events WHERE date*from pyspark.sql.functions import*deltaTable=DeltaTable.forPath(spark,"/data/events/")deltaTable.delete("date)#predicate using SQL ...

案例:构建文本语义检索系统

cursor.execute(create_table_sql)cursor.execute(create_indexes_sql)connection.commit()将sentences_vectors.csv中处理好的数据导入到表中。import io#定义一个生成器函数,逐行处理文件中的数据。def process_file(file_path):with ...

开启ORC查询加速

说明 Spark调用读取ORC时,需要使用DataFrame或者Spark-SQL API来启用加速。全局设置 详细请参见 全局设置Spark。Job级别设置 使用spark-shell或者spark-sql时可以添加Spark的启动参数。conf spark.sql.extensions=io.delta.sql....

开启ORC查询加速

说明 Spark调用读取ORC时,需要使用DataFrame或者Spark-SQL API来启用加速。全局设置 详细请参见 全局设置Spark。Job级别设置 使用spark-shell或者spark-sql时可以添加Spark的启动参数。conf spark.sql.extensions=io.delta.sql....

2.0版SQL开发规范

云原生数据仓库AnalyticDB MySQL版 2.0集群是一个分布式、列存数据库,在编写和优化SQL时,需要充分考虑其分布式特性。在2.0集群中,编写和优化SQL的要求和经验总结如下:SQL编写原则为追求简单 一般情况下,数据库性能会随SQL复杂度而下降...

数据查询最佳实践

在 云原生数据仓库AnalyticDB MySQL版 中编写和优化SQL时,需要充分考虑其分布式特性,本文汇总了SQL编写和优化时的经验和技巧供您参考。经验总结 编写和优化SQL的经验总结如下:SQL编写原则为追求简单 一般情况下,数据库性能会随SQL复杂...

计费概览

详情请参见 RDS MySQL包年包月按量付费、RDS SQL Server包年包月按量付费、RDS PostgreSQL包年包月按量付费、RDS MariaDB包年包月按量付费。说明 如果需要将RDS MySQL包年包月实例转为Serverless,可先将包年包月转为按量付费,再...

Data Copilot智能助手

SQL注释与格式化 左键单击需要解释的SQL区域,单击提示框的 解释,智能助手将为您解释SQL的含义,并返回格式化后的SQLSQL优化 左键单击需要优化的SQL区域,单击提示框的 优化,智能助手将为您提供SQL优化建议及优化后的SQLSQL续写 输入...

步骤二:编写SQL分析语句

本文介绍编写SQL分析语句的操作流程。前提条件 已创建SQL分析任务:您需在SQL数据分析工作台,根据业务需求,编写SQL分析语句。背景信息 下列类型的数据存储表可作为SQL分析的查询对象,您可通过SQL分析语句来处理对应表的数据。平台系统表...

开启native查询加速

Spark读取ORC或Parquet时,需要使用DataFrame API或者Spark-SQL。全局设置 进入详情页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,单击相应集群所在...

开启native查询加速

Spark读取ORC或Parquet时,需要使用DataFrame API或者Spark-SQL。全局设置 进入详情页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,单击相应集群所在...

开启native查询加速

Spark读取ORC或Parquet时,需要使用DataFrame API或者Spark-SQL。全局设置 进入详情页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,单击相应集群所在...

新功能发布记录

本文介绍了云数据库RDS SQL Server的产品功能和对应的文档动态。说明 RDS SQL Server内核版本更新说明,请参见 RDS SQL Server小版本Release Notes。2024年 4月 类别 功能名称 功能描述 发布时间 相关文档 新增 数据归档OSS RDS SQL Server...

Databricks数据洞察Notebook演示

创建DataFrame并通过%spark.sql做可视化查询%spark val df1=spark.createDataFrame(Seq((1,"andy",20,"USA"),(2,"jeff",23,"China"),(3,"james",18,"USA"),(4,"zongze",28,"France"))).toDF("id","name","age","country")/register this ...

解决SQL Server表中的中文乱码问题

用户在查询SQL Server表中的生僻字时,查询结果出现乱码。本文分析该问题出现的原因以及解决该问题的方法。问题复现示例 执行如下代码,查询SQL Server表中的生僻字“䅇”(su)。USE tempdb;GO IF OBJECT_ID('temp','U')IS NOT NULL DROP ...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

物化视图自动查询改写

WHERE子句 当查询SQL的WHERE子句与物化视图SQL不完全相同时,自动查询改写对WHERE子句支持情况如下:当查询SQL和物化视图SQL的WHERE都是由AND连接多个条件时:支持查询SQL的WHERE的多个条件的顺序与物化视图SQL的不同,示例如下:物化视图...

聚合操作

本文为您介绍DataFrame支持的聚合操作,以及如何实现分组聚合和编写自定义聚合。DataFrame提供对列进行HyperLogLog计数的接口。from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))常用聚合操作如下:使用 describe...

配置选项

options.tunnel.string_as_binary=True#用ODPS执行PyODPS DataFrame时,可以参照下面dataframe相关配置,在sort时将limit设置为一个比较大的值。options.df.odps.sort.limit=100000000 通用配置 选项 说明 默认值 end_point ODPS Endpoint...

Python SDK示例:Configuration

True df.optimizes.pp 是否开启DataFrame谓词下推优化 True df.optimizes.cp 是否开启DataFrame列剪裁优化 True df.optimizes.tunnel 是否开启DataFrame使用Tunnel优化执行 True df.quote MaxCompute SQL后端是否用 `` 来标记字段和表名 ...

Spark计算引擎

Spark既支持使用SQL,又支持编写多种语言的DataFrame代码,兼具易用性和灵活性。Spark通用化的引擎能力可以同时提供SQL、批处理、流处理、机器学习和图计算的能力。AnalyticDB MySQL Serverless Spark是 AnalyticDB MySQL 团队基于Apache ...

GeoMesa(HBase/Cassandra)

val dataFrame=spark.read.format("ganos-geometry").options(params).option("ganos.feature","testpoints").load()dataFrame.createOrReplaceTempView("testpoints")/创建SQL查询。val points=spark.sql("select*from testpoints where ...

Spark

SQL(%spark.sql)以%spark.sql 开头的就是Spark SQL的段落(Paragraph)。您可以运行所有Spark支持的SQL语句,通过Zeppelin可视化展示,如下图所示:Zeppelin的Spark SQL解释器和其他Spark解释器(PySpark、SparkR和Spark解释器)共享...

Quick BI的参数SQL应该怎样写

概述 本文通过介绍参数SQL的写法,在仪表板制作时,生成取数SQL的逻辑等方面,介绍参数SQL应该如何写,以便在应用过程可以更灵活,更高效。关于参数SQL的创建入口,以及查询条件与参数字段关联方法。应用场景 如果某些要展示的数据无法从已...

包年包月按量付费

找到目标实例,通过以下两种方式均可进入 包年包月按量付费 页面:在目标实例右侧 付费类型 列单击 按量付费。单击实例ID,在 运行状态 区域的 计费方式 右侧单击 按量付费。确认实例信息后勾选服务协议,单击 去支付 完成支付即可。...

PySpark基础操作

from pyspark.sql import SparkSession spark=SparkSession.builder.getOrCreate()创建DataFrame。from datetime import datetime,date import pandas as pd from pyspark.sql import Row df=spark.createDataFrame([(1,2.,'string1',date...

SQL查询介绍

SQL查询为表格存储的多数据引擎提供统一的访问接口,兼容MySQL的查询语法,适用于在海量数据中进行在线数据访问类型的场景。您可以通过SQL查询功能对表格存储中的数据进行复杂的查询和高效的分析。背景信息 为了满足用户业务平滑迁移到表格...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时,同一个脚本文件中的代码会在不同位置执行,可能导致一些无法预期的问题,本文为您介绍当出现相关问题时,如何确定代码的执行环境,以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

SQL使用限制

通过本文您可以了解SQL的使用限制。基础限制 重要 数据库名称、表名和列名均不能为SQL中的保留字与关键字。关于保留字与关键字的更多信息,请参见 保留字与关键字。资源 取值范围 说明 数据库名称长度 3~16字节 对应于实例名称。数据库名称...

DataFrame概述

PyODPS提供了DataFrame API,它提供了类似Pandas的接口,但是能充分利用MaxCompute的计算能力。同时能在本地使用同样的接口,用Pandas进行计算。快速入门:为您介绍如何创建和操作DataFrame对象,以及使用Dataframe完成基本的数据处理。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库AnalyticDB MySQL版 云数据库HBase版 云备份 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用