大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

spark SQL 的bucketBy设置bucket数量

spark SQL 的bucketBy怎么设bucket数量比较好啊?感觉bucket少了join起来并发度太低,bucket多了又是一大堆小文件,有推荐值不?

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

我使用spark thrift jdbc 已经在spark配置文件设置了

我使用spark thrift jdbc 已经在spark配置文件设置了--conf spark.kryoserializer.buffer=64m--conf spark.kryoserializer.buffer.max=256m为什么还报错???设置的没有生效org.apache.spark....

如何为Spark SQL设置元数据数据库?

Hive可以拥有其元数据并在那里存储表,列,分区信息。如果我不想使用hive.Can我们创建一个与hive相同的spark元数据。我想查询spark SQL(不使用数据帧),如Hive(select,from和where)我们可以这样做吗?如果是,我们可以将哪个关系数据库用于元数据存储?

如何使用Spark JDBC数据源设置表编码?

我正在使用Spark JDBC将数据提取到Mysql表中。如果表不存在,它也会创建一个表。许多文本都有特殊字符。如果遇到任何特殊字符,摄取失败。我通过手动将CHARACTER SET utf8设置为MySQL表来解决了这个问题。 这是否可以在spark JDBC中创建表时设置CHARACTER SE...

spark streaming和kafka集成的时候,auto commit offset设置位false,存储这个offset,大家是怎么做的啊?

1、一个rdd处理完去更新一下吗?还是rdd里的一个msg处理完就更新?那会不会有问题啊?比如rdd拿了n个msg,处理到m(n2、拿出来处理了,然后插到mysql里,失败了,你让我把rdd中前面的m-1个都从mysql里删除掉?你失败了那不就是offset没存到mysql中去么,下次还是从原先的o...

[Spark]如何设置使得spark程序不输出 INFO级别的内容

Spark程序在运行的时候,总是输出很多INFO级别内容 查看了网上的一些文章,进行了试验。 发现在 /etc/spark/conf 目录下,有一个 log4j.properties.template $cp log4j.properties.template log4j.properties 然后...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载

apache spark设置相关内容