奨学金延滞率データをCSVファイルにまとめた
奨学金延滞率データ
つい先日、日本学生支援機構から教育機関毎の奨学金(というか学生ローン)延滞率のページが公開されました。しかしながら、実際にページに行って頂ければ分かるのですが、このデータ非常に使いにくいです。個別の機関ごとの延滞率を見るためにいちいちドロップダウンメニューを操作しなければいけないので、データの全体像がなかなかつかめません。
東洋経済も大学ごとの延滞率ランキングを作っていますが、教育機関の中でも「大学」のみの比較にとどまってしまっていますし、紙幅の関係もあってか延滞率以外の詳しいデータが抜け落ちてしまっていて残念です。
全部集めてみた
上のような理由もあり、全部のデータが欲しくなったので、Pythonでスクレイピングしてみました。教育機関の総数が4000超あったので、1校1秒で集めても1時間以上かかりました。コードはGitHubに置いてますが、動かす際はご注意ください。
https://github.com/ki-chi/jasso_crawler
スクレイピング済みのデータはUTF-8版とShift_JIS版の2種類用意しました。Excelで分析したい方はShift_JISがいいかも。
データで遊ぶ
データを少しだけいじってみてグラフを作ってみます
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid", font="IPAGothic")
df = pd.read_csv("jasso_utf8.csv")
plt.figure(figsize=(10,7))
ax = sns.barplot(data=df, x="PublicOrPrivate", y="RatioDelayedOver3MonthsH26_ExitLendingH21toH25",
hue="SchoolClass", palette="Set2", capsize=0.05)
ax.set(xlabel="国公私区分", ylabel="平均延滞率")
plt.show()
注意
元データ由来の欠損値があります。ご注意ください。
CSVファイルのヘッダーに関しては日本学生支援機構の各項目の定義にできるだけ準拠している…つもりです。間違っていたらご連絡ください。
正確性については完全に無保証です。データに違和感がある場合は元ページを参照してください。
データをいじってみて、面白い結果が出たら教えていただけるととても嬉しいです。