＜Friendship Paradoxとは＞

社会学の世界でJames Colemanによって1961年に提唱された概念で、”多くの人は自分の友人達よりも友人の数が少ない”という現象のことです。

つまり、自分の友達は自分より友達の数が多い可能性が高いと言い換える事もできます。後に、この現象はScott Feldによって数学的な考察が加えられました。

New York TimesではFacebookの例が引用されています。ユーザーの平均友人数は190人だったのに対して、友人の平均友人数は635人であり、自分の友人数よりも友人の友人数の方が多い事が示されています。

一見すると不思議に思えますが、これは友達の数が多い人ほど、重複して数え上げられることに起因するSelection Biasの一種と考える事ができます。

なぜ私がこんなものを勉強しはじめたかというと、Friendship Paradoxが健康行動の波及などにも役立てられているからです。

基礎がないと高い建物は建てられない！ということで勉強してみたので、自己満足でまとめました。

＜実際の例で考えてみよう＞

「友人の数が多い人ほど、重複して数え上げられる」とはどういうことなんでしょうか。簡単な例を用いて考えてみましょう。

New York Timesの解説記事を参考に、下の図を作成してみました。

登場人物はブタくん、イヌくん、ネコくん、ゾウくんの4人です。

それぞれの線は友人関係を示しています。

まずは友達の数の平均を考えてみましょう。

ブタくんの友人は1人(イヌくん)
イヌくんの友人は3人(ブタくん、ネコくん、ゾウくん)
ネコくんの友人は2人(イヌくん、ゾウくん)
ゾウくんの友人は2人(イヌくん、ネコくん)

なので4人の友達数の平均は(1+3+2+2)/4=2(人)となります。

続いて、友人の友人の数を数えてみましょう

ブタくんの友人の友人は3人(イヌくんの友人(3人))
イヌくんの友人の友人は5人(ブタくんの友人(1人)+ネコくんの友人(2人)+ゾウくんの友人(2人))
ネコくんの友人の友人は5人(イヌくんの友人(3人)+ゾウくんの友人(2人))
ゾウくんの友人の友人は5人(イヌくんの友人(3人)+ネコくんの友人(2人))

友人の友人数の平均はそれぞれの友人関係が2回ずつ重複して数え上げられているので(=すべての人の友人の数の合計)、3+5+5+5/2*4=18/8=2.25(人)となります。

やはり「友人」の平均よりも「友人の友人」の平均の方が大きいようです。

ここでそれぞれの内訳に注目してみます。

(ブタくんの友人の友人)+(イヌくんの友人の友人)+(ネコくんの友人の友人)+(ゾウくんの友人の友人)

={(イヌくんの友人)}+{(ブタくんの友人)+(ネコくん友人)+(ゾウくんの友人)}+{(イヌくんの友人)+(ゾウくんの友人)}+{(イヌくんの友人)+(ネコくんの友人)}

=3*(イヌくんの友人)+2*(ゾウくんの友人)+2*(ネコくんの友人)+(ゾウくんの友人)

=3*3+2*2+2*2+1*1

=18

これをご覧になると分かる通り、それぞれの登場人物の友人の数の二乗が足し合わされています。

つまり、友人の数が多い人ほど何回も数え上げられるので、友人の友人の数を大きく引き上げることになるのです。

＜数式で表すと＞

（※数式は以下のサイトから引用しました。）

Math Section

Friendship Paradox

~~https://mathsection.com/friendship-paradox/?cookie-state-change=1545020156068~~

We provide a mathematical proof for the friendship paradox, give examples for possible applications, and introduce ideas of graph theory.

Friendship Paradoxの関係は

$$\frac {\sum_{v \in V}d(v)^2}{\sum_{v \in V}d(v)} =\mu+\frac{\sigma^2}{\mu}$$

と表現されます。

（解説）

登場人物vの友人数をd(v)と表記することにします。

友人の友人数の平均は、各登場人物の友人数の二乗をすべての登場人物の友人数で割ったものなので、

$$\frac {\sum_{v \in V}d(v)^2}{\sum_{v \in V}d(v)}$$

と表すことが出来ます。

ここで、各登場人物の友人数の平均(μ)を考えると

d(v)を全員分足し合わせて、人数(V)で割ればいいので、

$$\mu=\frac{\sum_{v \in V}d(v)}{|V|}$$

となります。

分散(σ^2)は各個人の友人数d(v)と平均(μ)との差を二乗した上で足し合わせ、人数(V)で割ったものなので、

$$\sigma^2=\frac{1}{|V|}\sum_{v \in V} (d(v)-\mu)^2$$

です。

ここで以下の式が成り立ちます。

$$\begin{align} \mu+\frac{\sigma^2}{\mu} & = \frac{\sum_{v \in V}d(v)}{|V|}+\frac{\sum_{v \in V}\big( d(v)-\frac{1}{|V|}\sum_{v \in V}d(v)\big)^2}{\sum_{v \in V}d(v)}\\ &=\frac{\sum_{v \in V}d(v)}{|V|}+\frac{\sum_{v \in V}d(v)^2}{\sum_{v \in V}d(v)}-\frac{2}{|V|}\frac{(\sum_{v \in V}d(v))^2}{\sum_{v \in V}d(v)}+\frac{|V|}{|V|^2}\frac{(\sum_{v \in V}d(v))^2}{\sum_{v \in V}d(v)}\\ &= \frac {\sum_{v \in V}d(v)^2}{\sum_{v \in V}d(v)} \end{align}$$

つまり、各個人の友人数の平均よりも、分散を平均で割った値の分だけ友人の友人数は多くなるということです。

一般的な人間関係においては、自然と友人の数にバラツキ(分散)が生じるため、友人数の平均よりも、友人の友人数の平均の方が大きくなってしまうのです。従って、「あなたの友人はあなたよりも友人の数が多い可能性が高い。」と言えるわけです。