この記事のタイトルは悩んだのですが、一番伝えたかった内容がそれなので、上記の様になりました。
他のタイトル候補は次の様になります。
– 配列を要素に持つDataFrameの縦横変換
– 高速にDataFrameを作成する方法
要するに、1件ごとに発生するデータを毎回appendしてデータフレームを構成する処理は、
コーデイングの観点ではわかりやすいですが、件数によっては非常に時間がかかります。
僕の場合ですが、DataFrameの要素に配列(もしくはカンマ区切りなどの文字列)が入っていた時に、
それを要素ごとに縦横変換する時によく遭遇します。
例えば以下の感じのDataFrameを
key value
0 key_0 [value_0, value_1, value_2, value_3]
1 key_1 [value_4, value_5]
2 key_2 [value_6, value_7, value_8]
3 key_3 [value_9, value_10, value_11, value_12]
4 key_4 [value_13, value_14]
# (以下略)
次の様なDataFrameに変換したい場合です。
key value
0 key_0 value_0
1 key_0 value_1
2 key_0 value_2
3 key_0 value_3
4 key_1 value_4
5 key_1 value_5
6 key_2 value_6
7 key_2 value_7
8 key_2 value_8
# (以下略)
データ量が少ない場合は、1件ずつ appendしても問題ありません。
次の様に、iterrows で1行1行取り出して、出力先にpivot_dfに追加してくと、素直で理解しやすい処理になります。
pivot_df = pd.DataFrame(columns=["key", "value"])
for _, row in df.iterrows():
value_list = row["value"]
for v in value_list:
pivot_df = pivot_df.append(
pd.DataFrame(
{
"key": [row.key],
"value": [v],
}
)
)
ただし、この処理は対象のデータ量が2倍になれば2倍以上の時間がかかる様になります。
そこで、大量データ(自分の場合は数十万件以上くらい。)を処理する時は別の書き方を使っていました。
つい最近まで、自分の環境が悪いのか、謎のバグが潜んでいるのだと思っていたのですが、
ドキュメントにも行の追加を繰り返すと計算負荷が高くなるからリストに一回入れろと書いてあるのを見つけました。
どうやら仕様だった様です。
引用
Iteratively appending rows to a DataFrame can be more computationally intensive than a single concatenate. A better solution is to append those rows to a list and then concatenate the list with the original DataFrame all at once.
その様なわけで、DataFrame中の配列の縦横変換は自分は以下の様に、一度配列を作って配列に追加を続け、
出来上がった配列をDataFrameに変換して完成としています。
keys = []
values = []
for _, row in df.iterrows():
keys += [row.key] * len(row.value)
values += row.value
pivot_df = pd.DataFrame(
{
"key": keys,
"value": values,
}
)