apache spark设置_第3页-阿里云

大佬们咨询个问题，就是使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢

spark SQL 的bucketBy设置bucket数量

spark SQL 的bucketBy怎么设bucket数量比较好啊？感觉bucket少了join起来并发度太低，bucket多了又是一大堆小文件，有推荐值不？

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

33 课时 |

283 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

28 课时 |

248 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

25 课时 |

92 人已学 |

加入学习

我使用spark thrift jdbc 已经在spark配置文件设置了

我使用spark thrift jdbc 已经在spark配置文件设置了--conf spark.kryoserializer.buffer=64m--conf spark.kryoserializer.buffer.max=256m为什么还报错？？？设置的没有生效org.apache.spark....

如何为Spark SQL设置元数据数据库？

Hive可以拥有其元数据并在那里存储表，列，分区信息。如果我不想使用hive.Can我们创建一个与hive相同的spark元数据。我想查询spark SQL（不使用数据帧），如Hive（select，from和where）我们可以这样做吗？如果是，我们可以将哪个关系数据库用于元数据存储？

如何使用Spark JDBC数据源设置表编码？

我正在使用Spark JDBC将数据提取到Mysql表中。如果表不存在，它也会创建一个表。许多文本都有特殊字符。如果遇到任何特殊字符，摄取失败。我通过手动将CHARACTER SET utf8设置为MySQL表来解决了这个问题。这是否可以在spark JDBC中创建表时设置CHARACTER SE...

spark streaming和kafka集成的时候，auto commit offset设置位false，存储这个offset，大家是怎么做的啊？

1、一个rdd处理完去更新一下吗？还是rdd里的一个msg处理完就更新？那会不会有问题啊？比如rdd拿了n个msg，处理到m（n2、拿出来处理了，然后插到mysql里，失败了，你让我把rdd中前面的m-1个都从mysql里删除掉？你失败了那不就是offset没存到mysql中去么，下次还是从原先的o...

[Spark]如何设置使得spark程序不输出 INFO级别的内容

Spark程序在运行的时候，总是输出很多INFO级别内容查看了网上的一些文章，进行了试验。发现在 /etc/spark/conf 目录下，有一个 log4j.properties.template $cp log4j.properties.template log4j.properties 然后...