4、数据湖的概念?hudi的概念,特点?
是一个集中式存储库,可以容纳来自各种数据源的任何格式的关系数据;然后可以使用它来生成用于分析和报告目的的数据。从数据源中提取数据后,无需对其进行标准化或结构化,因为它可以保存来自任何类型来源的标准化或非标准化、结构化或非结构化、已处理或未处理的数据,而不管数据的预期结果如何存储在数据湖中。
特点:
逻辑统一
、
类型多样
、
原始记录
5、spark的算子有哪些?
6、map与flatmap有什么区别?(一对一和一对多的关系)
7、之前为什么辞职?
8、数据采集整个要介绍?
9、离职状态?
5月25日
1、你为什么要从南京来深圳呢?
2、你的优点?
3、比较能接受挑战
4、char与varchar有什么不同?
5、创建表的语句
6、复制表结构
7、mysql题就自己不太会?
8、in和exits有什么区别?
9、sql的优化
10、sqoop的导入的参数是什么?
11、hive和hbase的不同
12、hadoop的优势
13、springboot使用了什么注解?springboot的代码
14、把所有的项目要说一下
15、azkaban的脚本设置
16、推荐系统的内容
5月27日下午
你为什么要来广州?
你为什么要辞职?
你有什么优点?
mysql的锁?
快照表和拉链表有什么区别?
mysql的优化?
5月27日上午
kafka的吞吐量如何监控?
如何监控数据是否采集到?
数据是怎么产生的?
flink是用来做什么的?
spark做什么的?
class与case class有什么区别?
olap和olpt有什么区别?
spark和flink有什么优势?
你有什么优点?
没有打jar会有代码打不进去?