避免在Spark中解析json子字段

0 人关注

我有一个带有复杂模式的json文件（见下文），我正在用Spark读取。我发现有些字段在源数据中是重复的，因此Spark在读取过程中抛出了一个错误（如预期）。重复的名字是在 storageidlist 字段下。我想做的是将 storageidlist 字段作为一个未解析的字符串加载到一个字符串类型的列中，之后再手动解析。这在Spark中可能吗？

json

apache-spark

schema

tothsa

发布于 2021-11-17

1 个回答

Neethu Lalitha

发布于 2021-11-17

0 人赞同

其中一个选择是为这个JSON对象创建一个Java类。这样，你就可以读取输入的JSON，而Spark不会在读取过程中抛出一个错误。只要你定义的模式与输入模式相匹配，就允许重复。

    spark.read()
            .schema(Encoders.bean(YourPOJO.class).schema())
            .option("encoding", "UTF-8")
            .option("mode", "FAILFAST")

推荐文章

谦逊的开心果 · spark hive 配置-掘金

6 月前

月球上的西红柿 · 分布式的计算框架之Spark（python第三方库视角学习PySpark）_spark 使用python-CSDN博客

11 月前

讲道义的键盘 · 提高Spark姿势水平 No.73-腾讯云开发者社区-腾讯云

1 年前

俊逸的西瓜 · 30分钟--Spark快速入门指南-腾讯云开发者社区-腾讯云

1 年前

天涯 · 饿了么大数据离线计算引擎实践_dabokele的博客-CSDN博客

1 年前

精明的青椒 · 2000多能买到什么样的快乐？国产山寨卡丁车使用体验_电动玩具_什么值得买

1 年前

欢乐的电影票 · 新奥能源收购中国燃气遇阻盟友中石化动摇_公司新闻_新浪财经_新浪网

1 年前

高兴的黄豆 · iphone苹果IOS/安卓手机自带日历批量同步导入QQ好友生日（QQ ...

1 年前

奋斗的香蕉 · 《新逃学威龙》上映，清一色差评，张浩被指消费周星驰与晶女郎_电影

1 年前

威武的长颈鹿 · 王佳稚_百度百科

1 年前