2014年度マイコースプログラム

4回生K.K. @統計遺伝学分野

9月9日(火)午後

密度症例対照研究のシミュレーションまとめ 2

各パラメータにおける分散についてグラフにしてみた。

◎e1について

f:id:kouri_don:20140909160142p:plain

e1が0.5に近い値をとっているときのほうが分散の値が小さいことは確かなようである。

◎p/qについて

f:id:kouri_don:20140909161018p:plain

p/qの値が大きいほうが分散の値は大きくなった。

ちなみに、q=2*pとして、pの値を変えてプロットした場合

f:id:kouri_don:20140909161854p:plain

規則性は見られなかった。大事なのはp/qの値のようである。

◎n,Nについて

f:id:kouri_don:20140909162356p:plain

このグラフの特徴といえるのは、nの値に対する傾きが、Nの値によらずほぼ同じことだと思う。
すなわち、Nとnの値は、どちらも大きくなれば分散を小さくするようにはたらくものの、そのはたらきは独立している…?ということか。
N,nの両方とも一定の大きさをとらないと、信頼の得られる結果は得られないようである。



どうしてそのような結果になるのか、という背景に関する考察だが、
1:1の割合でAかBの事象が起こる、というのと、1:9の割合で起こる、というのを何度も繰り返した場合、前者のほうが真の割合に収束するのが早く、分散が小さい。

いま、オッズ比の計算は、
(症例群の曝露者数)/(症例群の非曝露者数)を(対照群の曝露者数)/(対照群の非曝露者数)で割って出しているが、
真の値が(症例群の曝露者数)=(症例群の非曝露者数)かつ(対照群の曝露者数)=(対照群の非曝露者数)に近い値のほうが、より収束するのが早いと考えられる。

分散の値が最少になるのがe1=0.5のときよりもやや左よりなのも(p>qなので、(症例群の曝露者数)=(症例群の非曝露者数)により近くなるから)、e1=0.1のときよりもe1=0.9のときのほうが分散の値が大きいのも(p>qなので、(症例群の曝露者数)>(症例群の非曝露者数)がより顕著になるから)、これで説明がつく。

同じように、p,qの結果については、p+qを大きくしても(症例群の曝露者数)/(症例群の非曝露者数)の比率は変わらないが、p/qの値が大きくなればより(症例群の曝露者数)>(症例群の非曝露者数)が顕著になることと一致している。

N,nについては、Nが影響しているのはオッズの分母のみ、nが影響しているのはオッズの分子のみで、それぞれの影響に相関がないから、このような結果になったと考えられる。

箱ひげ図を描いたときに、N=1000、n=10のときのほうがN=10,n=1000のときよりもオッズ比が高く出て「??」となったが、これも気合でなんとなく説明ができて、

N=1000.n=10のときのオッズ比のばらつきは、ほとんど分子の値の大きな変動によるものである。
ここで、いま分子(症例群の曝露者数)/(症例群の非曝露者数)の真の値は、分子のほうが大きい状態になっている。
ここから同じ程度でばらつきが生じるとき、(症例群の曝露者数)/(症例群の非曝露者数)の値は小さくなりにくいが、大きくなりやすい。

一方で、N=10,n=1000のときのオッズのばらつきは、ほとんどが分母(対照群の曝露者数)/(対照群の非曝露者数)の値のばらつきによるものだが、
これは真の値を1に設定してあるので、小さい方向へも大きい方向へも同じ程度にばらつく。

このような理由で、N=1000、n=10のときのほうがN=10,n=1000のときよりもオッズ比が高く出たと考えられる。


はじめはちんぷんかんぷんだったが、一つ一つ考えれば案外分かってくることもあるみたいである。
ただ、シミュレーションすることよりも、その結果を整理して考察を加えることのほうがはるかに難しいと感じた。


明日は累積症例対照研究に戻って、今回のような調子で成果をまとめようと思う。

以上