Pandas的
DataFrame
在
筛选
列数据的时候,有一个非常方便的用法。假设现在有这样一个
DataFrame
:import pandas as pd
data = [
{...
1. 背景概述
日常的数据分析
中
,经常遇到需要根据各种不同的条件从数据集
中
筛选
相应的数据记录,再进行提取、分析、替换、修改等操作。因此,
筛选
是数据分析
中
使用频率很高的功能。一般而言,通常是使用for循环在数据
中
进行
筛选
,本文总结了在
python
中
常用的并且使用效率比较高的几种数据
筛选
函数如:isin(), query(), contrains(),以及它们的实践示例。
2.
筛选
方法
和函数简介
简单的
筛选
方法
:
单一的
筛选
条件或
值
df.loc[df[“column_name”] == value]
import numpy as np
df = pd.
DataFrame
(np.random.randint(0, 10, size=(1000, 3)), columns=['a', 'b', 'c'])
筛选
条件:a列 &
2.2 isin函数:df[df[“column_name”].isin(li)] (# li = [20, 25, 27] 或 li = np.arange(20, 30))df.loc[df[“protein”]
以上就是使用
Python
筛选
包含特定
字符串
的
DataFrame
行的
方法
。在上述示例
中
,我们使用了df[‘column_name’].str.contains(‘an’)来
筛选
包含
字符串
’an’的行。要
筛选
包含特定
字符串
的行,我们可以使用pandas的str.contains()
方法
。接下来,让我们假设我们有一个名为df的
DataFrame
,其
中
包含了一列名为’column_name’的数据。现在,我们有一个包含了几种水果的
DataFrame
,其
中
的’column_name’列包含了水果的名称。
在数据处理和分析
中
,经常需要对数据进行
筛选
以便找到我们需要的信息。这里的[df[‘职业’].str.contains(‘工程’)]可以理解为选出所有职业包含
字符串
‘工程’的数据行。通过以上代码,我们成功
筛选
出了所有职业
中
包含“工程”的数据行。此
方法
同样适用于
筛选
其他数据类型和特定的字符集。下面我们来看如何使用contains()函数,
筛选
DataFrame
指定数据列包含特定内容的所有数据行。
筛选
特定内容:
Python
中
筛选
DataFrame
指定数据列包含特定内容的所有数据行。
Pandas是
Python
中
强大的数据分析库,如果你想高效处理数据,熟练掌握
DataFrame
的用法是必不可少的。本文介绍3种
筛选
DataFrame
中
包含特定
字符串
的列的
方法
。