[技术选型] ClickHouse和StarRocks的介绍_starrocks clickhouse

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

1.ClickHouse介绍

ClickHouse是面向联机分析处理（OLAP）的开源分析引擎。最初由俄罗斯第一搜索引擎Yandex开发，于2016年开源，开发语言为C++。由于其优良的查询性能，PB级的数据规模，简单的架构，在国内外公司被广泛采用。

它是列存数据库，具有完备的DBMS功能，备份列式存储和数据压缩。它的MPP架构易于扩展，易于维护。除此之外，它支持向量化的查询，完善的SQL以及实时的数据更新，查询速度可以达到亚秒级的响应。

那么ClickHouse的查询速度为什么会这么快呢？它类似于LSM tree,所有数据都是经过有序排列，提前做好聚合计算，再存储。并且它的数据存储格式自带索引。

其次，ClickHouse可以基于多个Key创建索引。它的二级索引采用Data skipping index。

ClickHouse的应用场景主要有四个方面。

第一，用户行为分析。ClickHouse将用户行为分析表制作成一张大的宽表，减少join的形式，实现路径分析、漏斗分析、路径转化等功能。除此之外，它还能支撑广告，营销和AB实验。

第二，实时BI报表。ClickHouse可以根据业务需求，实时制作及时产出，查询灵活的BI报表，包括订单分析，营销效果分析，大促活动分析等等。

第三，监控。ClickHouse可以将系统和应用监控指标通过流式计算引擎Flink,Spark streaming清洗处理以后，实时写入ClickHouse。结合Grafna进行可视化展示。

第四，用户画像。ClickHouse可以对各种用户特征进行数据加工，制作成包含全部用户的一张或多张用户特征表，提供灵活的用户画像分析，支撑广告，圈人等业务需求等等。

我们在ClickHouse的基础上做了一定的增强。首先，我们重构了In Memory Part写入模块，让它支持Flink单条写入，Flink Exactly Once事务写入以及Sharding Key写入。成功解决了写Distributed表的痛点，提升了整体性能。其次，它还支持DiskOSS。实现了冷热的分层存储，节约了成本。最后，我们实现了副本扩容和分片扩容，让扩容方式变得更灵活。

2.StarRocks介绍

StarRocks单节点100M/秒的写入速度，让它每秒可处理100亿行数据。StarRocks的综合查询速度比其他产品快10到100倍。数据秒级实时更新可见。其次，StarRocks支持数千用户同时分析，部分场景每秒可支持1万以上的QPS，TP99控制在1秒以内。最后，StarRocks基于多种数据模型，实现了极速分析，缩短业务交付时间。提升了数据工程师和分析师工作效率。

如上图所示，StarRocks的架构简洁明了，兼容MySQL协议，可使用各类MySQL客户端。并且支持FE、BE的水平扩展，从而实现自动均衡。让运维和使用都非常方便。

StarRocks的极速引擎，实现了全面向量化执行。它可以按列存储，按列计算。用更少的虚函数调用，更少的分支判断，更好地利用SIMD指令并且对CPU Cache更友好。其次，StarRocks向量化提升的效果明显。向量化Filter，向量化聚合和向量化Shuffle Join的效果都有几何倍数的提升。

StarRocks的极速引擎，具有全新的CBO。基于Orca论文，将表达式重写、表达式复用。用公共谓词提取、谓词推导。将子查询改写，调整Join顺序、让Join算法自动选择。成功的将SQL语句转化为一个可执行Plan。

StarRocks的极速引擎，具有多种分布式的Join。目前，这种分布式Join是ClickHouse比较缺乏的功能。右图是更加高效的Join方式，它通过提前完成bucket分类，让整体运行更加高效。

StarRocks为全场景提供了四种数据模型。

第一，明细模型。用于保存和分析原始明细数据，数据写入后几乎无更新。主要用于日志，操作记录，设备状态采样等等。

第二，聚合模型。用于保存，分析，汇总数据。不需要查询明细数据。数据导入后实时完成聚合，数据写入后几乎无更新。适用于按时间、地域、机构汇总的数据。

第三，主键模型。支持基于主键的更新，Delete and insert，大批量导入时保证高性能查询。用于保存和分析需要更新的数据。

第四，更新模型。支持基于主键的更新，Merge On Read，更新频率比主键模型更高。用于保存和分析需要更新的数据。主键模型和更新模型都适用于状态会发生变动的订单，设备状态等。

StarRocks在全场景中，还实现了高并发的查询。StarRocks的分区机制可以高效过滤，提升查询性能。StarRocks的分桶机制充分发挥了集群的性能，成功避免了热点问题。但StarRocks相对于其他的OLAP引擎和行存的OLTP引擎还有一定的差距。

在LakeHouse场景中，StarRocks的联合查询，不但屏蔽了底层数据源的细节，而且可以对异构数据据源数据联合分析，与增量数据湖格式完美结合。为了提升查询速度，StarRocks对每种数据源，进行针对性优化。增强了向量化解析ORC、Parquet格式，字典过滤，延迟物化等能力。

StarRocks除了极致的引擎性能和全场景优化的能力，它还实现了弹性伸缩，支持在线扩容，让运维变得简单。面对流量增长，用户不但可以按需伸缩，节省成本。StarRocks还支持小规模初始集群的逐步扩容，大大节省了运维成本。

ClickHouse vs S tar Roc ks 选型对比面向列存的 DBMS 新的选择 Hadoop 从诞生已经十三年了，Hadoop 的供应商争先恐后的为 Hadoop 贡献各种开源插件，发明各种的解决方案技术栈，一方面确实帮助很多用户解决了问题，但另一方面因为繁杂的技术栈与高昂的维护成本，Hadoop 也渐渐地失去了原本属于他的市场。对于用户来说，一套高性能，简单化，可扩展的数据库产品能够帮助他们解决业务痛点问题。越来越多的人将目光锁定在列存的分布式数据库上。 ClickHouse 简介 ClickH

本文记录针对S tar Roc ks 的试用情况，并拿S tar Roc ks 与 ClickHouse 进行了对比。 S tar Roc ks 与 ClickHouse 是两款基于 MPP 架构的列式数据库管理系统，都可以提供高性能的 OLAP 分析能力。但是它们在功能、性能和使用场景上也有一些区别想知道这些区别嘛，快来看看这篇文章吧

文章目录1.架构1.1 Kafka1.2 Pulsar2.消息存储模型2.1 Kafka2.2 Pulsar3.消息消费模型3.1 Kafka3.2 Pulsar4. 多租户4.1 Pulsar4.2 Kafka5.运维5.1 集群部署5.2 扩容5.3 云原生支持5.4 替换broker 1.1 Kafka b roc ker和zk组成 1.2 Pulsar Pulsar Broker会在本地缓存消息，并且支持TTL， Pulsar 通过分层架构, 将计算和存储分离, 存储采用BookKeepe

Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。 Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。 hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。 hbase: HBase：HBase是Hadoop 1. 功能特性： - MyBatis： MyBatis是一个轻量级的持久层框架，提供了强大的SQL映射能力和灵活性。它基于XML或注解配置SQL语句，并支持动态SQL。但是，使用MyBatis需要手动编写大量的SQL语句和映射代码。 - MyBatis Plus： MyBatis Plus是基于MyBatis的增强工具，提供了更多的便利特性。它通过代码生成器、通用CRUD方法、分页插件等简化了开发过程，减少了编写重复代码的工作量。 2. 使用难度： - MyBatis： MyBatis相对来说对于开发者的要求更高，需要熟悉SQL语句和XML配置。 - MyBatis Plus： MyBatis Plus对开发者友好，提供了简化的API，减少了开发人员编写和维护SQL语句的工作量。 3. 社区支持： - MyBatis： MyBatis拥有庞大的社区支持和文档资源，问题解决方案易于获取。 - MyBatis Plus： MyBatis Plus是基于MyBatis的增强工具，相对较新，但也有很好的社区支持和文档资源。综上所述，对于技术选型，如果你需要更简单、高效的开发方式，可以选择MyBatis Plus。如果你对SQL和XML配置有较高的要求，并且对灵活性和自由度更感兴趣，可以选择MyBatis。当然，具体选择还需要根据项目需求和团队的实际情况来决定。 May_HanJing: BeanFactoryPostProcessor、InstantiationAwareBeanPostProcessor、BeanPostProcessor 按照这个这个顺序加载 1.BeanFactoryPostProcessor的执行时机是Bean的实例化过程之前，它本质上管理的BeanFactory（大部分情况下是ConfigurableListableBeanFactory容器），此时该容器存放的还是未实例化的Bean对象，也就是BeanDefinition对象，通过获取对应的BeanDefinition的进行属性修改。它允许修改容器中的 Bean 定义，可以添加、修改或删除 Bean 的属性值，甚至可以完全替换 Bean 的定义。通过实现这个接口，可以影响所有 Bean 的创建过程。 2.InstantiationAwareBeanPostProcessor作用于Bean的实例化前后（before早前，after在后），这个时机已经在内存中开辟了对应的内存地址，但是还没有进行属性的赋值，也就是在populaBean方法之前执行。它允许在 Bean 实例化过程中对 Bean 进行自定义处理，例如处理 Bean 的依赖关系、注入特定的属性或者在 Bean 初始化之前做一些额外的操作。通常用于对 Bean 实例化过程进行增强或定制。 3.BeanPostProcessor 作用于Bean的初始化前后（before和after两个方法或者说是阶段），对Bean做最后的增强处理，AOP就发生这个阶段，因为这个阶段会创建对应的代理对象。 [Doris] Doris架构原理 (一) CSDN-Ada助手: 什么是分布式架构？ [Doris] Doris架构原理 (一) CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。 CMS 和G1 的区别 [24] 皎月摘星: 矛盾，标记清理的标记阶段只是和标记清除一样，不代表是一个意思，这个是两个算不同的算法 m0_74874986: 这里右移丢1，都从-26变成-13了为什么叫影响精度，不叫结果出错