Python中的
scipy
库提供了
chi2_contingency
函数,可以直接进行卡方独立性检验。以下是一个简单的示例:
import numpy as np
from scipy.stats import chi2_contingency
observed = np.array([[10, 20], [30, 40]])
chi2, p, dof, expected = chi2_contingency(observed)
print("卡方统计量:", chi2)
print("P值:", p)
print("自由度:", dof)
print("期望频数:\n", expected)
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 导入库:导入
numpy
和scipy.stats
中的chi2_contingency
函数。 - 准备数据:创建一个二维数组
observed
,表示列联表的观察频数。 - 进行检验:使用
chi2_contingency
函数进行卡方独立性检验,返回卡方统计量、P值、自由度和期望频数。 - 输出结果:打印卡方统计量、P值、自由度和期望频数。
以下是使用Mermaid语法绘制的卡方独立性检验流程图:
Python字符串是由一系列字符组成的数据类型。在Python中,字符串是不可变的,这意味着一旦创建了一个字符串,就不能修改它的内容。以下是关于Python字符串的一些重要知识点:1. 字符串的基本操作:拼接字符串:使用`+`运算符。重复字符串:使用`*`运算符。索引和切片:使用`[]`和`:`操作符访问字符串中的子串。长度:使用`len()`函数获取字符串长度。转换大小写:使用`upper()`和`lower()`方法。分割和连接:使用`split()`和`join()`方法。
通过这节加上前面的 local RAG 搭建,你完全可以自己实现一个local RAG 模型,而不借助任何外围组件,这样的实现对你加深RAG实现的全过程有直观重要的作用。还是那句话,真正的强者不能只是浮于表面,要知其然更要知其所以然。如果想要实现分布式的vector db 存储与query,那又回到了那个问题,你需要在query 正确率,效率,数据一致性之间做权衡。并且使用类似分布式数据,元数据管理工具,cache 策略等诸多手段进行维护。