Aritalab:Lecture/NetworkBiology/Degree Distribution

From Metabolomics.JP
< Aritalab:Lecture | NetworkBiology(Difference between revisions)
Jump to: navigation, search
(Created page with "==次数分布== 次数 k が全頂点の中で占める割合 p(k) を次数分布といいます。 <math>\textstyle \sum_{k=0}^{(n-1)} p(k) = 1 </math> その平均値...")
 
(隣接点の次数分布)
 
(11 intermediate revisions by one user not shown)
Line 1: Line 1:
 
==次数分布==
 
==次数分布==
  
次数 k が全頂点の中で占める割合 p(k) を次数分布といいます。
+
次数 k が全頂点の中で占める割合 p(k) を次数分布といいます。確率分布なので総和は 1 です。
  
<math>\textstyle \sum_{k=0}^{(n-1)} p(k) = 1 </math>
+
<math>\textstyle \sum_k p(k) = 1 </math>
  
その平均値を、平均次数といい <k> = Σ k p(k) と書きます。
+
その平均値を、平均次数といい <math>\langle k \rangle = \sum k p(k)</math> と書きます。
  
 
===隣接点の次数分布===
 
===隣接点の次数分布===
  
隣接する頂点の次数を <math>P_{adj} ( j | k ) </math> と書きましょう。ここで次数 ''k'' と隣接する頂点の次数 ''j'' が独立に決まるとします(相関が0)。
+
隣接する頂点の次数を <math>p ( j | k ) </math> と書きましょう。ここで次数 ''k'' の頂点に隣接する頂点の次数が ''j'' です。
すると次の式から、次数が ''j'' の頂点は相対的に j / <k> だけ、隣にきやすいはずです。
+
  
<math> P_{adj}(j|k) = \frac{j p(j)}{\sum_{k=0}^{(n-1)} k p(k)} = \frac{j}{\langle k \rangle}p(j) </math>  
+
<math>p(j|k) = \frac{j p(j)}{\sum_k k p(k)} = \frac{j}{\langle k \rangle}p(j) </math>  
  
隣の頂点には、ハブが来やすいことがわかります。その来やすさは、頂点の次数に正比例します。
+
別の言い方をすると、頂点をランダムに選んで次数が ''j'' である確率は p( ''j'') ですが、辺をランダムに選んでその先に来る頂点の次数が ''j'' である確率が p ( ''j'' | ''k'' ) です。辺をたどった先の頂点はハブが来やすく、その来やすさは、頂点の次数に正比例します。次数 ''j'' の頂点は相対的に j / <k> だけ、現れやすくなっています。
  
==次数相関==
+
辺の先に来る頂点の次数平均を求めましょう。
  
隣接する頂点どうしの次数が似る度合いを次数相関といいます。
+
<math>\sum_{j} j p(j|k) = \frac{1}{\langle k \rangle} \sum_{j} j^2 p(j) = \frac{\langle k^2 \rangle}{\langle k \rangle}</math>
辺がランダムに張られる場合は次数相関は 0 になりますが、映画俳優の競演関係といったネットワークはハブどうしが隣接する、つまり正の相関を持つ (assortative) ことが知られています。
+
生態系のような生物学ネットワークでは負の相関を持つ (disassortative) と考えられます。
+
  
次数相関の存在は次数 ''k'' の頂点につながる隣接点の平均次数を調べるとわかります。隣接点の平均次数は、次数分布や頂点の次数 ''k'' によらず一定値となります。
+
この値は各所で用いますが、k から j をたどる辺 1 本ぶんを最初に引いておく場合もあります。このとき、値は <math> \textstyle  \frac{\langle k^2 \rangle - \langle k \rangle}{\langle k \rangle} </math> になります。
  
 +
全頂点の次数が同じ時 <k<sup>2</sup>> = <k><sup>2</sup> となるので、隣接点の平均次数は <k> (またはたどってくる辺を除いて <k> - 1) になります。次数の偏りが大きくハブが存在する場合、隣接点の平均次数は <k> を大きくうわまわります、これは隣にハブが来やすいことと同じです。次数がポアソン分布に従う場合、分布の定義から <math> \langle k^2 \rangle = \langle k \rangle^2 + \langle k \rangle </math> が成り立っています。ポアソン分布の場合、たどる辺を差し引けば、ちょうど隣接点も次数 <k> になります。
  
<math> \sum_j j P_{adj}(j|k) = \sum_j j \frac{jp(j)}{\langle k \rangle} = \frac{\langle k^2 \rangle}{\langle k \rangle}</math>
+
==次数相関==
  
 +
隣接する頂点どうしの次数が似る度合いを次数相関といいます。
  
次数相関 ''r'' をピアソンの相関係数に従って定義しましょう。''M'' 本ある辺の両端点 ''u'', ''v'' の次数をそれぞれ ''k<sub>u</sub>'', ''k<sub>u</sub>'' とおきます。相関係数の分子は ''k<sub>u</sub>'', ''k<sub>v</sub>'' の平均からの差分を計算します。
+
;次数相関
分母は ''k<sub>u</sub>'' ''k<sub>v</sub>'' の標準偏差の積ですが、実際には分散を計算します。
+
ピアソンの相関係数に従って定義します。M 本ある辺の両端点 u, v の次数をそれぞれ k<sub>u</sub>, k<sub>u</sub> とおきます。相関係数の分子は k<sub>u</sub>, k<sub>v</sub> の平均からの差分を計算します。
 
+
分母は本来 k<sub>u</sub> と k<sub>v</sub> の標準偏差の積ですが、ここでは分散を使ってしまいます。
  
 
<math>r = \frac{\sum_{(u,v)\in E}^M (k_u k_v - \langle k \rangle^2) }{M (\langle k^2 \rangle - \langle k \rangle^2) } </math>
 
<math>r = \frac{\sum_{(u,v)\in E}^M (k_u k_v - \langle k \rangle^2) }{M (\langle k^2 \rangle - \langle k \rangle^2) } </math>
 +
 +
 +
* 辺がランダムに張られるエルデシュモデルでは、次数相関は 0 になります。
 +
* 映画俳優の競演関係ネットワークではハブどうしが隣接しやすい、つまり正の相関を持ちます。 (assortative)
 +
* 生態系ネットワークではハブどうしが独立し、負の相関を持ちます。 (dis-assortative)

Latest revision as of 08:59, 2 August 2017

[edit] 次数分布

次数 k が全頂点の中で占める割合 p(k) を次数分布といいます。確率分布なので総和は 1 です。

\textstyle \sum_k p(k) = 1

その平均値を、平均次数といい \langle k \rangle = \sum k p(k) と書きます。

[edit] 隣接点の次数分布

隣接する頂点の次数を p ( j | k ) と書きましょう。ここで次数 k の頂点に隣接する頂点の次数が j です。

p(j|k) = \frac{j p(j)}{\sum_k k p(k)} = \frac{j}{\langle k \rangle}p(j)

別の言い方をすると、頂点をランダムに選んで次数が j である確率は p( j) ですが、辺をランダムに選んでその先に来る頂点の次数が j である確率が p ( j | k ) です。辺をたどった先の頂点はハブが来やすく、その来やすさは、頂点の次数に正比例します。次数 j の頂点は相対的に j / <k> だけ、現れやすくなっています。

辺の先に来る頂点の次数平均を求めましょう。

\sum_{j} j p(j|k) = \frac{1}{\langle k \rangle} \sum_{j} j^2 p(j) = \frac{\langle k^2 \rangle}{\langle k \rangle}

この値は各所で用いますが、k から j をたどる辺 1 本ぶんを最初に引いておく場合もあります。このとき、値は  \textstyle  \frac{\langle k^2 \rangle - \langle k \rangle}{\langle k \rangle} になります。

全頂点の次数が同じ時 <k2> = <k>2 となるので、隣接点の平均次数は <k> (またはたどってくる辺を除いて <k> - 1) になります。次数の偏りが大きくハブが存在する場合、隣接点の平均次数は <k> を大きくうわまわります、これは隣にハブが来やすいことと同じです。次数がポアソン分布に従う場合、分布の定義から  \langle k^2 \rangle = \langle k \rangle^2 + \langle k \rangle が成り立っています。ポアソン分布の場合、たどる辺を差し引けば、ちょうど隣接点も次数 <k> になります。

[edit] 次数相関

隣接する頂点どうしの次数が似る度合いを次数相関といいます。

次数相関

ピアソンの相関係数に従って定義します。M 本ある辺の両端点 u, v の次数をそれぞれ ku, ku とおきます。相関係数の分子は ku, kv の平均からの差分を計算します。 分母は本来 ku と kv の標準偏差の積ですが、ここでは分散を使ってしまいます。

r = \frac{\sum_{(u,v)\in E}^M (k_u k_v - \langle k \rangle^2) }{M (\langle k^2 \rangle - \langle k \rangle^2) }


  • 辺がランダムに張られるエルデシュモデルでは、次数相関は 0 になります。
  • 映画俳優の競演関係ネットワークではハブどうしが隣接しやすい、つまり正の相関を持ちます。 (assortative)
  • 生態系ネットワークではハブどうしが独立し、負の相関を持ちます。 (dis-assortative)
Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox