平均値、中央値、パーセンタイル:子供の成長に必要な知識

赤ちゃんのデータを知るために知りたい統計

厚生労働省『乳幼児身体発育調査』の公表データから、赤ちゃん(0~1歳)の身長や体重のデータが見れます。

この公表データの中身を見ますと、”平均値”という用語は使われず、”パーセンタイル”という標記がされています。

この”パーセンタイル”という値は、”中央値”という統計量と密接に関連しています。

Amawhipがまず結論を先に述べてます。

Left Caption

Amawhip

子供の体に関する公表データのうち、中央値(=50パーセンタイル値)と平均値は、ほぼ同じなので同一と考えても問題ありません。

平均値、中央値の違い

平均値を知らない人はあまりいないと思いますが、説明してみますと、対象集団の全部の値を足して、対象集団の人数で除した値になります。平均値は分かりやすいことからよく使われます。

一方、中央値は、対象集団の、ちょうど真ん中の人が持つ値になります。例えば、101人の身長の中央値は、背の順に並べた51人目の身長になります。

Left Caption

Amawhip

式に表すと

平均値=対象集団の各個人がもつ値の合計/対象集団の人数

中央値=対象集団の中でちょうど真ん中の人が持つ値

ですね。

実は、身長や体重といった値であれば、平均値を使っても問題ありません。その理由の一つは、平均値と中央値はほぼ一致するためです。なので、結論で述べた通り、中央値を平均値と置き換えても特に問題は生じてきません。

平均値より、中央値を使った方がいいケースもある

一方、年収のような、多くの人は大体200万~800万円の間にいるのに、一部の人はすごーく年収が高い、という場合、平均値を用いると誤った表現になってしまいます。例えば、11人の集団があったとして、10人は年収500万円、1人は年収5億円だったとします。そうすると、平均値と中央値が大きくずれます。

この対象11名の年収についてみると…

Left Caption

Amawhip

平均値=(500×10+50000×1)/11=5000万円

中央値=年収順に並べてちょうど真ん中(6番目)の人の年収=500万円

という計算になりますね。

もしこれを一般市民に見せるとして、日本人の平均年収は5000万円と言うか、日本人の平均500万円というか、どちらが正しいかは一目瞭然ですね。もちろん、中央値です。

パーセンタイルとは?

パーセンタイルとは、赤ちゃんの身長を例にとると、『赤ちゃん101人を背の順に並べて、何番目の赤ちゃんの身長にあたるか』という意味です。

例えば、3パーセンタイルであれば、前から4番目の赤ちゃんの身長、ということになります。

なぜ3番目じゃないの?そもそも赤ちゃん101人ってなぜ中途半端な値で例を挙げてるの?という疑問がわくと思いますが、これは、0パーセンタイル値が含まれるためです。0~100の整数を数えていくと101回数字が出てきますよね。そのために101人という方が正確なのです。

赤ちゃん(男児)の身長のデータを見てみよう

例として、厚生労働省『乳幼児身体発育調査』の公表データから、赤ちゃん(0~1歳)の身長のデータをグラフ化してみました。

ポインタをあてると、その部分の値がポップアップされますので試してみてください。

出生時の身長だけを見てみると

3パーセンタイル: 44 cm

10パーセンタイル: 46 cm

25パーセンタイル: 47.4 cm

50パーセンタイル(中央値): 49 cm

75パーセンタイル: 50.2 cm

90パーセンタイル: 51.5 cm

97パーセンタイル: 52.6 cm

で、この50パーセンタイル値、つまり中央値が49㎝となります。

Left Caption

Amawhip

自分の男の赤ちゃんの身長が51.5 cmだった場合、『もしここに全国の赤ちゃんをランダムに101人集めた場合、背の順で言うと前から91番目くらいかな』という理解になります。

ちなみに、

3パーセンタイルの44 cmと10パーセンタイルの46 cmとの間の差は2 cm。

90パーセンタイルの51.5 cmと97パーセンタイル52.6 cmとの間の差は1.1 cm。

というところに注目してください。どちらも3パーセンタイルしか違わないのに、身長の差が少し違いますよね。

詳しい説明は避けますが、この場合、平均値は中央値よりも少し小さくなります。ただ、大きな差ではありませんので、おおよそ平均値と中央値はほぼほぼ一致するはずです。

子供のデータは成長するほど、平均値と中央値が一致する

上のグラフを見てもわかる通り、子供の成長とともに、線の間隔が等しくなってきます。これは成長とともに、逸脱するような身長が無くなってくるためです。そのため、より一層、平均値と中央値を区別する意味がなくなってきますね。

この原理から、私の記事のタイトルや内容では、『平均値』としていますが、記事中のデータとしては中央値を使っていることがあります。ただ、そこは分かって使い分けていますので(実はSEO対策の観点からこうせざるをえず…)、正確なサイトではない!なんて思わないでくださいね♪

 

Posted by fwhip