Pandasでの基本的なフィルタリング
PandasのDataFrameでは、特定の条件を満たす行を抽出するためのフィルタリングが可能です。以下に基本的なフィルタリングの方法を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': ['a', 'b', 'c', 'd', 'e']
})
# 'A'列が2より大きい行を抽出
df_A_gt_2 = df[df['A'] > 2]
print(df_A_gt_2)
# 'C'列が'a'である行を抽出
df_C_eq_a = df[df['C'] == 'a']
print(df_C_eq_a)
このように、DataFrameの列を指定し、その列に対する条件を記述することで、条件を満たす行を抽出することができます。この基本的なフィルタリングを理解することで、より複雑なデータ抽出を行うための基礎を身につけることができます。次のセクションでは、複数条件でのフィルタリングについて説明します。
複数条件でのフィルタリング
Pandasでは、複数の条件を組み合わせてデータをフィルタリングすることも可能です。以下にその方法を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': ['a', 'b', 'c', 'd', 'e']
})
# 'A'列が2より大きく、かつ'B'列が3より小さい行を抽出
df_A_gt_2_and_B_lt_3 = df[(df['A'] > 2) & (df['B'] < 3)]
print(df_A_gt_2_and_B_lt_3)
# 'A'列が2より大きい、または'C'列が'a'である行を抽出
df_A_gt_2_or_C_eq_a = df[(df['A'] > 2) | (df['C'] == 'a')]
print(df_A_gt_2_or_C_eq_a)
このように、複数の条件を組み合わせることで、より複雑なデータ抽出を行うことができます。条件の組み合わせには、論理演算子の &
(AND)と |
(OR)を使用します。次のセクションでは、DataFrame.query
によるデータ抽出について説明します。
DataFrame.queryによるデータ抽出
PandasのDataFrameでは、query
メソッドを使用して、条件に一致するデータを抽出することができます。以下にその使用例を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': ['a', 'b', 'c', 'd', 'e']
})
# 'A'列が2より大きく、かつ'B'列が3より小さい行を抽出
df_A_gt_2_and_B_lt_3 = df.query('A > 2 & B < 3')
print(df_A_gt_2_and_B_lt_3)
# 'A'列が2より大きい、または'C'列が'a'である行を抽出
df_A_gt_2_or_C_eq_a = df.query('A > 2 | C == "a"')
print(df_A_gt_2_or_C_eq_a)
query
メソッドを使用すると、複数の条件を組み合わせた複雑なデータ抽出を、より直感的な記述で行うことができます。次のセクションでは、filter
メソッドによる列の抽出について説明します。このようなPandasの高度な機能を活用することで、データ分析の効率を大幅に向上させることができます。
filterメソッドによる列の抽出
PandasのDataFrameでは、filter
メソッドを使用して、特定の列を抽出することができます。以下にその使用例を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': ['a', 'b', 'c', 'd', 'e']
})
# 'A'と'B'列を抽出
df_A_and_B = df.filter(items=['A', 'B'])
print(df_A_and_B)
# 'A'で始まる列を抽出
df_start_with_A = df.filter(like='A', axis=1)
print(df_start_with_A)
filter
メソッドを使用すると、列名を指定して列を抽出したり、列名の一部に一致する列を抽出したりすることができます。このようなPandasの高度な機能を活用することで、データ分析の効率を大幅に向上させることができます。以上で、Pandasを使った条件フィルタリングのテクニックについての説明を終わります。これらのテクニックを活用して、データ分析のスキルをさらに磨きましょう。