データ分析をする際に、最初にデータ全体(多すぎる時はサンプルを)を眺めてみるのですが、
その時にpandas-profilingというのを使うと便利なので紹介します。
PyPiのページには見事に何も書かれてません。
そのため、公式ドキュメントらしいものが欲しい時はリポジトリを見ましょう。
インストール
pip install pandas-profiling
使い方ですが、とりあえず、ボストン住宅価格のデータセットでやってみましょう。
# ライブラリインポート
from sklearn.datasets import load_boston
import pandas as pd
import pandas_profiling as pdp
# データの準備(pandasデータフレームを作る)
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
# レポーティング
report = pdp.ProfileReport(df)
report # jupyter notebookuで実行すると、notebook上に表示される。
# ファイル出力
report.to_file("boston.html")
これで、下のhtmlファイルが出力されます。
なお、jupyterで表示した場合も同じ見た目です。
boston
各特徴量のデータ型や分布、欠損値や相関係数などがまとまって出力されて非常に便利です。
ただ、便利すぎて、これだけみて何かすごい分析をやったような気がしてしまうことがあるのでそこだけは注意しています。