データサイエンス時代で活躍する人材になるために

データサイエンス時代で活躍できる人材になるために

純粋数学から応用数学までデータサイエンスに関わる様々なことについて取り上げます!

Seabornを用いたデータの可視化

 mathmaticaのコードをPythonに書き直してたら,Seabornに出くわしたのでまとめます.


このあたりの参考書がSeabornの勉強をするのに役に立ちます.

Seabornとは何か?

 Seabornとは,ニューヨーク大学の研究者 Michael Waskom氏によって作られたPythonの可視化ライブラリです.Matplotlibベースで作られていて,デフォルトのMatplotlibより美しく描写できます.

distplot

「seaborn.distplot」はヒストグラムを描写できます.

まずseabornをインストールします.

pip install seaborn

次に必要なものをインポートして,それぞれnp,sns,pltと略記

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

はじめに標準正規分布に従う乱数5000個を発生させて可視化します.

x = np.random.normal(size=5000)
sns.distplot(x) 
plt.show()

f:id:koki12070930:20190525121024p:plain
デフォルトでは,ヒストグラム密度推定の関数の両方が描写されます.
ヒストグラムだけ,書きたかったらオプションでkde=Falseと指定
ヒストグラムがいらなけらば,hist=Falseと指定

sns.distplot(x,kde=False)
sns.distplot(x,hist=False)

f:id:koki12070930:20190525121737p:plain
kde=False


f:id:koki12070930:20190525122003p:plain
hist=False
色の変更もオプションで指定することができます.
sns.distplot(x,color="red")
f:id:koki12070930:20190525132133p:plain

heatmap

「seaborn.heatmap 」は,色の濃淡や色相でデータの密度や値の分布を可視化します.
旅客機のデータを用いてヒートマップを出力します.

#データを読み込み
flights = sns.load_dataset("flights")
# データの整形
flights = flights.pivot("month", "year", "passengers")
sns.heatmap(flights)

セルにデータを出力するためオプションで,annot=Trueと指定
整数値で出力させるため,fmt="d"と指定します.

sns.heatmap(flights, annot=True, fmt="d")

f:id:koki12070930:20190525142613p:plain
やっぱ夏かー
最近のデータを用いて,旅行のタイミングなど可視化してみたい気持ちになった.いつが空いていて安くいけるのだろうか.
kaggleデビューでもしょうかな.
今回はここまでにします.一度記事を書いたのですが,アップロードと間違えファイルを消してしまいもう一度書きました.かなり適当に書いたので誤字脱字あれば,ごめんないさい.
ではまた!