agg関数の基本的な使い方
Pandasのagg
関数は、データフレームやシリーズに対して集約操作を行うための関数です。以下に基本的な使い方を示します。
まず、適当なデータフレームを作成します。
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
})
このデータフレームに対して、各列の平均値を計算するには以下のようにagg
関数を使用します。
df.agg('mean')
これにより、各列の平均値が計算されます。
また、特定の列に対して特定の集約操作を行いたい場合は、以下のように列名と操作を辞書形式で指定します。
df.agg({
'A': 'mean',
'B': 'sum',
'C': 'max'
})
これにより、列Aの平均値、列Bの合計値、列Cの最大値がそれぞれ計算されます。
以上が、Pandasのagg
関数の基本的な使い方です。この関数を使うことで、データフレームやシリーズに対する様々な集約操作を柔軟に行うことができます。
複数の集計操作を一度に行う
Pandasのagg
関数は、複数の集計操作を一度に行うことも可能です。以下にその使い方を示します。
まず、適当なデータフレームを作成します。
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
})
このデータフレームに対して、各列の平均値と最大値を一度に計算するには以下のようにagg
関数を使用します。
df.agg(['mean', 'max'])
これにより、各列の平均値と最大値が一度に計算されます。
また、特定の列に対して複数の集約操作を行いたい場合は、以下のように列名と操作を辞書形式で指定します。
df.agg({
'A': ['mean', 'min'],
'B': ['sum', 'max'],
'C': ['max', 'std']
})
これにより、列Aの平均値と最小値、列Bの合計値と最大値、列Cの最大値と標準偏差がそれぞれ計算されます。
以上が、Pandasのagg
関数を使って複数の集計操作を一度に行う方法です。この関数を使うことで、データフレームやシリーズに対する様々な集約操作を柔軟に行うことができます。
列ごとの異なる集計操作
Pandasのagg
関数は、列ごとに異なる集計操作を行うことも可能です。以下にその使い方を示します。
まず、適当なデータフレームを作成します。
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
})
このデータフレームに対して、列ごとに異なる集計操作を行うには以下のようにagg
関数を使用します。
df.agg({
'A': 'mean',
'B': 'sum',
'C': 'max'
})
これにより、列Aの平均値、列Bの合計値、列Cの最大値がそれぞれ計算されます。
また、同じ列に対して複数の集約操作を行いたい場合は、以下のように操作をリスト形式で指定します。
df.agg({
'A': ['mean', 'min'],
'B': ['sum', 'max'],
'C': ['max', 'std']
})
これにより、列Aの平均値と最小値、列Bの合計値と最大値、列Cの最大値と標準偏差がそれぞれ計算されます。
以上が、Pandasのagg
関数を使って列ごとの異なる集計操作を行う方法です。この関数を使うことで、データフレームやシリーズに対する様々な集約操作を柔軟に行うことができます。この機能は、データ分析において非常に便利なツールとなります。
実用的な例とその解説
ここでは、Pandasのagg
関数を使った実用的な例とその解説を示します。
まず、適当なデータフレームを作成します。
import pandas as pd
import numpy as np
np.random.seed(0)
df = pd.DataFrame({
'A': np.random.randint(1, 5, 10),
'B': np.random.randint(10, 20, 10),
'C': np.random.randint(100, 200, 10)
})
このデータフレームに対して、列ごとに異なる集計操作を行うには以下のようにagg
関数を使用します。
df.agg({
'A': ['mean', 'min', 'max'],
'B': ['sum', 'std'],
'C': ['max', 'min']
})
これにより、列Aの平均値、最小値、最大値、列Bの合計値と標準偏差、列Cの最大値と最小値がそれぞれ計算されます。
また、特定の列に対して複数の集約操作を行いたい場合は、以下のように操作をリスト形式で指定します。
df['A'].agg(['mean', 'min', 'max'])
これにより、列Aの平均値、最小値、最大値が計算されます。
以上が、Pandasのagg
関数を使った実用的な例とその解説です。この関数を使うことで、データフレームやシリーズに対する様々な集約操作を柔軟に行うことができます。この機能は、データ分析において非常に便利なツールとなります。