先日、共同研究者から、投稿したい論文を共著者としてチェックしてほしいとメールをいただきました。
研究立案の際に、認知機能についてどのように評価すべきかコンサルトを受けていたので、なんとなくどんな論文になるかイメージしていました。
しかし、その論文の内容はイメージしていたものと違っていました。
何がどうイメージと違ったのかという問題点と、そもそもなぜ研究立案段階でそのようなイメージをしたのかについてまとめてみます。
研究計画を聞いてイメージしたことと起こっていたこと
研究計画を聞いて僕がどんなイメージをしたかを語るため、ざっくりとどんな研究計画を聞いたか説明します。
僕の役割はこの研究に対して適切な認知機能バッテリーを提案し、その実施方法を検者にレクチャーすることでした。
研究デザインや統計に関して、僕は基本的なことは知っているものの、コンサルトを受けるほどの専門家ではないですし、そこを求められたわけでもないですから、細かく尋ねたり突っ込んだりはしなかった(ことを今は後悔しています)のですが、上述のような研究計画だったので、次のようなイメージをしていました。
Aと認知機能の関係を調べることを目的にしているのだから、前向きにデータを集めるんだし、ベースラインでのAの値が高いか低いかで研究参加者を2群にわけ、1年後に認知機能低下を呈する頻度にその2群で差があるかを調べるコホート研究をするんだろう。
もしかしたらAは高いか低いか、というカットオフがまだないパラメータかもしれない。それなら、1年後に認知機能が低下したかどうかで2群に分けて、ベースラインのAの値がその2群で差があるかを調べるケースコントロール研究と考えている可能性もある。
何れにしても、B1〜B10は確かに認知機能に影響を与える可能性があるから、交絡因子である可能性を考慮して測定しておき、統計解析の際に共変量に設定するのはいいな。
つまり、ベースラインでAとB…を調べるものの、これらは並列な関係でなく、あくまでAがメインで、B…は交絡を調整するためのサブな項目とイメージしたのです。
しかし、実際に論文でなされていたことは全く違いました。
私がイメージした解析と何が違い、何が問題かわかりますか?
研究デザインを意識していたか?
まず、研究デザインはケースコントロール研究になったようです。
これ自体は僕もそうする可能性はあるとイメージしていたのでそこまで大きな問題ではありません。
ただ、僕がケースコントロール研究もありうる、と思ったのは、Aに高い・低いのカットオフがない場合は、ベースラインでAを基準にして2群に分けることができないので、ケースコントロール研究にすることでむしろそのカットオフを見いだすことを目的にできるかな、という意図があったからです。
果たしてAにカットオフはなかったのでしょうか、少し疑問です。
同じ目的を持った縦断的な観察研究でも、コホート研究かケースコントロール研究かではエビデンスとしての強さが異なります。
もしAにカットオフがあったのであれば、この研究はせっかく前向きにデータを集めたのだから、コホート研究としてきちんと解析すべきだったのです。
研究デザインとエビデンスレベルについてはこちら。

多重比較を考える
そもそもp値とは何?
見せられたその論文が抱えていた大きな問題は、多重比較と関係します。
多重比較の問題について理解するためには、まず統計解析にはつきもののp値について理解する必要があるので、それを確認した上で、多重比較とは何か、多重比較に配慮するためにどうすべきかを考えてみます。
p値はあくまで「帰無仮説を仮定した際に検定統計量がその値になる確率」です。
p < 0.05(あるいは0.01)で有意差ありと言っているのは「帰無仮説が正しければこんなことが起こる確率は5%(1%)未満でレアだから、帰無仮説が間違っている可能性が高い」ので、対立仮説が採択される、と判断されるということです。
この5%や1%という数値は、なんとなくこれくらいならレアと言っていいだろう、という経験的・慣習的に使われているものです。
多重比較とは
帰無仮説に基づいて統計解析を複数行う(多重比較)と、本当は有意差がないのにそのうちの1つに偶然p < 0.05という結果になる可能性が高まります。
いわゆる「第一種の過誤」(実際には有意差がないのに有意差があると判定ししまう)が起こりやすくなります。
具体的に次のような例をあげてみましょう。
い, ろ, はの3クラスの学生の身長の平均を比較するため、い vs ろ, ろ vs は, は vs いで「2つのクラスの学生の身長の平均に差はない」という帰無仮説に基づき、3回検定を行った。有意水準α=0.05と設定した。すると い vs ろ ではp < 0.05となったが、ろ vs は と は vs い では有意差はつかなかった
ここでは3つの検定を行っていますが、もし「い, ろ, はの3クラスの学生の身長の平均に差がなかった」として、3つの検定のうち少なくとも1つで偶然p < 0.05となる確率はどれくらいでしょうか?
「3つの検定のうち少なくとも1つで偶然p < 0.05となる」というのは「3つの検定が偶然全てp > 0.95になった(確率 0.95×0.95×0.95で生じる)」の余事象なので、「3つの検定のうち少なくとも1つで偶然p < 0.05となる」確率は
1 − 0.95×0.95×0.95 ≒ 0.14
となります。
つまり、「い, ろ, はの3クラスの学生の身長の平均に差がなかった」としても、そのうちのいずれか2クラスでの統計でp < 0.05となった今回の結果は、14%の確率で生じるのです。
これはこの仮説を覆すほどレアなことでしょうか?そうでもないですよね。
多重比較に対応する方法
多重比較に対応する、あるいは避けるためには、次の3つの方法があります。
1. 有意水準を下げる
2. 多重比較を補正する
3. 事前にアウトカムを絞る
有意水準を下げる
この方法は非常に単純で、有意水準をα=0.01にしてしまえば、仮に帰無仮説が正しかったとして3つの検定のうち1つが偶然有意水準を超える確率は
1 − 0.99×0.99×0.99 ≒ 0.03
となるので、レアなことだと受け入れられるようになります。
ただ、今回の研究ではAとB…の全部で11個の変数について検定を行なっているので、多重比較の問題は3つの時の比ではありません。
11個の検定のうち1つが偶然p < 0.01となる確率は、上と同じように計算すると10%を超えます。
例えば検定の数がどんどん多くなってきたらどうしましょう?
どれくらいの有意水準にすればいいのかわかりません。
そこで、検定の数が増えた場合にどうすればいいか、体系的に考えられた方法が、一般的に「多重比較の補正」と言われる方法です。
多重比較を補正する
上述の例のような い, ろ, は の3群での比較は、
1. 分散分析(ANOVA)で検定して3群のどこかに差があるか調べる
2. どこかに差があると分かった場合、Tukeyの方法などでpost-hoc解析をして、どの2群間に差があるか調べる
という方法が使われます。
他にもBonfferoniの方法やBenjamini-Hochbergの方法などが多重比較補正ではよく使われます。
これらの具体的な方法についてはまた別の機会にまとめてみます。
ちなみに、残念ながら今回は多重比較補正をすると、Aでみられた有意差は消えてしまいました・・・。
つまり、このままの論文では、「確かにp < 0.05になってるけど、多重比較を補正したら有意じゃなくなってるんだし、本当に差があるの?第一種の過誤じゃないの?」と批判を受ける報告になります。
事前にプライマリアウトカムを絞る
今回僕がメールを受けて思った問題点は、なぜ事前にプライマリアウトカムを絞り、検定の数を少なくしなかったのか、ということです。
多重比較はそもそも多くの検定を行うから問題になるのです。
最初から検定数を少なくする、あるいは、元々プライマリアウトカムはこれ、と決めて解析し、それ以外の検定結果はあくまで副次アウトカムです、と解析方法を設計しておけば、このような問題は起こらなかったのです。
臨床研究を行うにあたり、先日「リサーチクエスチョンを事前に意識することは重要」と記載しましたが、その大きな理由の一つは、「事前にプライマリアウトカムが何かを認識して研究を設計し、検定数を減らすことで、多重比較の問題をなくしながら自分の調べたい結果の信憑性を高める」ことができるからです。
今回は特に、当初目的としていたAと認知機能の関係を調べる、ということに対して、認知機能低下の有無でベースラインのAの差の検定でp < 0.05となっているので、なおさら最初からそのような計画を立てていれば、優れたエビデンスになっていたのです!
さて、ここで悪魔が囁きます。
「とにかくいっぱい検定して、有意差が出た項目があったら、それを最初からプライマリアウトカムに設定してましたって言って論文に書けばいいじゃない」
それはHARKingという研究不正です!!!
[adchord]
HARKing:検定してから仮説を取り繕う
HARKingとは”Hypothesizing After the Results are Known”の略になります。
探索的に多くの統計解析をして結果を見てから、その結果に沿うような仮説を立案し、あたかもそれが統計解析前から存在していたかのように報告することを言います。
探索的に多くの検定をして出てきた数多くのp値から、0.05未満になったものが見つかったら論文にしよう、という姿勢を”p-hacking”とか言ったりしますが、さらにその結果に合わせて仮説を立て、まるでその解析を元々プライマリアウトカムとして設定していたように見せかけてはいけません。
繰り返しますが、多重比較の影響で、数多くの検定を行って出てきたp < 0.05は、本来の「帰無仮説が正しいならその事象が起こる確率は0.05よりも低いから、きっと帰無仮説が正しくないのだろう」という意味を持たなくなります。
そのような偶然でしかない数値に当てはまるような仮説をでっち上げることは、事実ではないことを世間に事実として流布することに繋がりかねません。
逆に言えば、そのように多くの検定から探索的に結果を見つけた場合、それを「仮説探索的研究」として報告することは問題ありません。
まだ漠然としていて仮説がない状態で、その仮説を探すために探索的な解析をした、という流れはOKです。
きちんとlimitationとして、「仮説探索的研究」であり、今回見いだした仮説を今後前向きに調べる「仮説検証的研究」を行うべきである、ということを述べましょう。
この順序は非常に重要です。

HARKingは研究不正!
事前に研究デザイン/アウトカム/解析法を立案する
冒頭の研究計画と、それに対して僕がイメージしたことを振り返ってみます。
この研究計画は、この研究の目的をきちんと捉えています。
「Aは認知機能に影響するか?」というリサーチクエスチョン(「Aの低下が認知機能に影響する」という仮説)を立て、そのために必要な情報を得ることを計画しています。
つまり、この研究計画を見ると、仮説検証的研究に見えるのです。
Aと認知機能の関係を調べることを目的にしているのだから、前向きにデータを集めるんだし、ベースラインでのAの値が高いか低いかで研究参加者を2群にわけ、1年後に認知機能低下を呈する頻度にその2群で差があるかを調べるコホート研究をするんだろう。
もしかしたらAは高いか低いか、というカットオフがまだないパラメータかもしれない。それなら、1年後に認知機能が低下したかどうかで2群に分けて、ベースラインのAの値がその2群で差があるかを調べるケースコントロール研究と考えている可能性もある。
何れにしても、B1〜B10は確かに認知機能に影響を与える可能性があるから、交絡因子である可能性を考慮して測定しておき、統計解析の際に共変量に設定するのはいいな。
それに対して僕がイメージしたことは、①研究デザインをコホートとケースコントロールのどちらにするか、②Aと認知機能の関係がプライマリアウトカムであり、B…はあくまで交絡を調整する変数、③どのように群わけしてどのような検定を行うか、ということです。
研究計画を立てる際には、リサーチクエスチョンに対する仮説を証明ために、どのような研究デザインで、何をアウトカムとし、どのような検定を行うか、まで事前に計画しておくことが、研究の質を高めるために重要です。
また、これらを事前に決めておくと、データを集める前から論文のIntroduction, Methodsが書けるし、ある程度結果も予測しているわけなので、Results, Discussion, Conclusionsも道筋は立てられます。
逆にそのような仮説が立てられない場合、「仮説探索的研究」として多重比較の問題を抱えていると理解した上で、探索的に多くの検定を行う必要があります。
以前リサーチクエスチョンの重要性について、少し別の視点でも書いています。