2012年10月18日

交絡の排除と推定分布の信頼区間は別物

サイエンスライターが交絡を無視するのは不味いと思ったので書いておく

とある同じ病気の病人のグループを病院A、病院Bの2グループ10人ずつを用意し、Aには薬aを、Bにはプラセボを与えて観察した。
AとBとで生存率に統計的有意差が無かった(または有った)。
薬aの効果(生存率と投与量の因果関係)の有無を示すことができるか?

もしかしたら、
効果が有るようにみえて、実は病院Aは体力のある若い患者が多く、病院Bは体力のない老人が多かったかもしれない。
逆に、効果が無いようにみえて、病院Aは体力のない老人が多かったかもしれない。
つまり、病院と患者の生存率に交絡がある可能性がある。従って、これだけで薬の効果を判断することは出来ない。

ここで、各グループの人数を10倍に増員して、90人ずつ追加で実験したら、結論は変わるだろうか。
実験対象患者数が増えるので各グループから推定される生存率とその分布、つまり推定生存率の信頼区間は小さくなり、精度がよくなるだろう。もしかしたら見えなかった有意差が見えてくるかもしれない。
しかし、交絡を排除できるわけではないので、年齢構成など他の要因が効果の主要因であるという懸念を拭えない。

効果を示すには、グループを作成する際に可能な限りランダムに選ぶ、交絡の影響を既存の実験結果から推定して差し引く、投与量を制御して相関をみる。といった作業が必要になる。

というのが統計の基本的考え方。

一方、EM堆肥を実際に農地に施肥して放射線量低減に効果があるかどうか"検証"してみるという番組について、
片瀬久美子女史@kumikokataseは、
https://twitter.com/kumikokatase/status/258842868968476672
https://twitter.com/kumikokatase/status/258892540995067904
で、
EMを使用している農地と、対照としてEMを使用していない農地について、それぞれ複数箇所を測定して、データのバラツキ具合なども考慮して統計的な比較をすれば、どの程度差があるか(ないか)を指摘することはできると思います。
としている。

前述の病院の例に置き換えると、EMを使用している農地を病院Aのグループ、使用していない農地を病院Bのグループ、とみなせる。
複数箇所を測定していく=患者数を増やせば、それぞれのグループの推定値はより正しくなっていく(個々のデータからくるバラツキは小さくなる)。しかし、グループ間の交絡による影響が排除されるわけではない。
各測定には隣接した農地という重大な共通点があり、例えば雨水からの流出入量、元々の地質の違い、耕作者の掘り起こし深さの違い、近辺の農家の施肥の違いなど、それぞれの測定で共通する交絡因子が容易に予想できる。

想定される交絡を排除した実験を行なって初めて、因果関係=効果の有無を指摘できるようになる。
統計を使う記事を書くサイエンスライターが、交絡を無視するというのは問題がある。

この人の場合、ダイアリーのエントリ、 http://d.hatena.ne.jp/warbler/20120907/1346997502 をみると、EM批判の文脈ではEM堆肥とカリウムとの交絡を指摘している。
持論の必要に応じて、意図的に無視しているのか、気付いていないだけなのかは文章からはよくわからない。


交絡の排除のないn=1の比較はただのデモンストレーションであって、効果の有無の検証には成り得ない。
https://twitter.com/kikumaco/status/258838747439841281
ラベル:統計
posted by ko-zu at 22:19| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。