年収は給与の満足度に相関関係があるのか?【Python/データ分析】

okanetomanzokudo

世の中で、自分の年収に満足している人はどれぐらいいるんだろうか?

年収が高ければ満足度があがり、低ければ満足度がさがるのか。

今回は転職サイトから約1000件のデータを抽出し、データ分析をしていきます。

世の中の平均年収っていくらなのだろうか?

そもそも、世の中の平均年収っていくらなのだろうか?

厚生労働省が調査している【2019年 国民生活基礎調査の概況】を見てみましょう。

ここでは全世帯の稼働所得は410.3万円と記載されていますね。

稼働所得とは、個人が働いて得る所得のことです。

そのため、厚生労働省が出しているこの稼働所得を平均年収と考えても問題ないと考えます。。

データの中身を見てみよう

今回はとある転職サイトより、東京に会社がある企業の平均年収と年収に対する満足度を抽出したものを用意しました。

必要なライブラリをインポートして、データの中身を見ていきます。

使用するライブラリ

以下のライブラリをインポートします。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from pandas import Series, DataFrame

軸を日本語表記にする

グラフの軸を日本語表記にするために、以下をインポートします。

from matplotlib.font_manager import FontProperties
fp = FontProperties(fname=r'C:\WINDOWS\Fonts\meiryob.ttc', size=16)

これらをインポートすることで、文字化けを防ぐことができます。

データの中身

それでは、抽出したデータを読み込んでいきましょう。

data.csvを読み込んで、変数dfに格納します。

df=pd.read_csv('data.csv',encoding='utf-8')

data.csvの中には、抽出した情報が入っています。

csvの中身を見ていきましょう。

df.info()

1000件以上の企業のデータと、会社の年収や給与に対する満足度の情報が格納されています。

このデータを使って、年収は給与の満足度と相関関係にあるのかを見ていきます。

年収に関するデータ分析

用意したデータを分析してみましょう。

データ内の年収の分布

まず、データ内に入っている年収の分布をヒストグラムを使って見ていきます。

以下のコードになります。

ヒストグラムを描画するコードは以下になります。

df['年収'].plot.hist(figsize=(12,10),grid=True,bins=100)#ヒストグラムを描画
plt.title('年収分布', fontproperties=fp) # タイトル
plt.xlabel("年収", fontproperties=fp) # x軸ラベル
plt.ylabel("会社数", fontproperties=fp) # y軸ラベル
plt.show()

ちらほらと年収が1,000万円以上の会社もありますね。

多くの会社は250万円から750万円の間であるように見えます。

平均年収

このデータの平均年収を見ていきましょう。

df['年収'].mean()

データ内の平均年収は、507万円であることがわかりました。

厚生労働省が発表している平均年収と差異がありますね。

抽出したデータに偏りがあったのか、わかりませんが金額の差がありますね。

年収の中央値

次に、このデータの年収の中央値を見てみましょう。

df['年収'].median()

データ内の年収の中央値は499万円であることがわかりました。

グラフに描画

平均年収と中央値がヒストグラムのどこにあたるのか、見てみましょう。

plt.axvline(x=df['年収'].mean(),color="green")#年収の平均年収に緑のラインを引く
plt.axvline(x=df['年収'].median(),color="red")#年収の中央値に赤のラインを引く
df['年収'].plot.hist(figsize=(12,10),grid=True,bins=100)#ヒストグラムを描画
plt.title('年収分布', fontproperties=fp) # タイトル
plt.xlabel("年収", fontproperties=fp) # x軸ラベル
plt.ylabel("会社数", fontproperties=fp) # y軸ラベル
plt.show()

平均年収を緑、中央値を赤のラインで描画してみました。

こうして見ると、年収の高い企業が結構多いんですね(笑)

給与の満足度の分布

給与の満足度の分布を見ていきます。

df['給与の満足度'].plot.hist(figsize=(12,10),grid=True,bins=30)#ヒストグラムを描画
plt.title('満足度の分布', fontproperties=fp) # タイトル
plt.xlabel("給与の満足度", fontproperties=fp) # x軸ラベル
plt.ylabel("会社数", fontproperties=fp) # y軸ラベル
plt.show()

思ったよりも、真ん中に寄っていますね。

また、結構満足度が高い人も多いんですね。

給与の満足度の平均

平均値を見ていきましょう。

df['給与の満足度'].mean()

平均値は約3ですね。

給与の満足度の中央値

df['給与の満足度'].median()

中央値は5段階評価なので3になりますね。

グラフに描画

平均値や中央値をヒストグラムに描画してみましょう。

plt.axvline(x=df['給与の満足度'].mean(),color="green")#給与の満足度の平均値に緑のラインを引く
plt.axvline(x=df['給与の満足度'].median(),color="red")#給与の満足度の中央値に赤いのラインを引く
df['給与の満足度'].plot.hist(figsize=(12,10),grid=True,bins=30)#ヒストグラムを描画
plt.title('満足度の分布', fontproperties=fp) # タイトル
plt.xlabel("給与の満足度", fontproperties=fp) # x軸ラベル
plt.ylabel("会社数", fontproperties=fp) # y軸ラベル
plt.show()

綺麗に真ん中へ線が入りましたね。

以外に、世の中の人は給与に満足しているとも、してないとも言い難いのかな?と見えますね。

年収と給与の満足度との相関関係

それでは、本題の年収と給与の満足度との相関関係を見ていきましょう。

コードは以下になります。

plt.figure(figsize=(12,10),dpi=150)
plt.scatter(df['給与の満足度'], df['年収'],c='yellow',edgecolors="black")
plt.title('給与の満足度と年収の関係', fontproperties=fp,fontsize=30) # タイトル
plt.xlabel("給与の満足度", fontproperties=fp,fontsize=30) # x軸ラベル
plt.ylabel("年収", fontproperties=fp,fontsize=30) # y軸ラベル
plt.show()

緩やかですが年収の上昇とともに、給与の満足度も上がっているように見受けられます。

実際に相関関係があるのか、数値的に見てみましょう。

df.corr()['給与の満足度']['年収']

数値的にも相関関係があることがわかりましたね。

最後に

年収が上がることによって、給与の満足度が上昇することがわかりました。

ただ、年収が倍になったからと言って、給与の満足度が増加するわけではないのですね。

個人的には年収が低いのに、給与の満足度が高い会社がとても気になります。

ここら辺も詳しく調べてみたいですね。

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA