研究の症例数計算をなぜ/どう事前にするのか－仮説検証の妥当性を高める、無駄を省く

仮説検証的研究は特定の仮説を検証するために事前に研究デザインや解析方法などを緻密に設計します。

その中で、特に第三相の治験のような大規模なRCTでは、事前にどの程度の症例数をリクルートすれば、検証したい仮説を示すことができるかまで計算し、設計します。

では、なんのためにあらかじめ症例数を設定するのか、仮説検証に必要な症例数はどのように計算するのか、をまとめ、実際の論文の例を紹介します。

ちなみに仮説検証的研究について解説した記事がこちら

なぜあらかじめ症例数を計算する？
どうやって症例数計算するか
事前に症例数計算をしている論文の例

なぜあらかじめ症例数を計算する？

研究計画書を書いていると、だいたいどの施設でも何症例を集めるか、その症例数の根拠は何かを記載するよう求められませんか？

めんどくさいな、とか、なんとなく100例欲しいかな、とか、多ければ多いほどいいんじゃないの？、とか、とりあえず有意差がでた時点でもういいよ、とか思うかもしれませんが、どの理由も（一般臨床の範囲でデータを集めて仮説探索的研究を行うためならともかく、仮説検証的研究としては）アウトです。

ある程度以上の質を担保したい仮説検証的研究では、きちんと根拠を持ってその研究に必要な症例数を計算することが求められます。

なぜ事前に症例数を計算するべきなのでしょうか

不利益を被る可能性のある被験者を可能な限り減らす

基本的に第2、3相の治験は第1相の時点で安全性が確認された上で実施されています。

それでも、有害事象が起こる可能性はゼロではありません。

また、実薬が実際に有効だったとして、偽薬を割り当てられた人は実薬を投与されていれば受けられたはずの利益を得られない、という不利益を被ることになります。

事前に必要な症例数を計算し、被験者を最小限にすることで、そのような被験者全体の不利益を最小限にすることが重要です。

症例数を最小限にして無駄なコストを抑える

副次的には「治験のコストを抑えたい」という理由もあります。

実薬にしろ偽薬にしろ薬剤を準備する、ランダム化する、評価者を雇う、研究参加者のvisitが増える分だけ謝金を支払う、それだけ大きなデータベースを構築する・・・などなど、登録症例数が少し増えるだけでも、それなりにコストが増えます。

研究実施側からしても、被験者からしても、過剰に被験者が増えることは不利益に繋がるわけです。

結果の妥当性が高まる

ある薬の効果を検証するのにとりあえず根拠なく実薬群30例と偽薬群30例をリクルートし、効果を比較したら、p = 0.053でギリギリ有意じゃなかった！

この結果を見てどう思いますか？

あと5例ずつくらい増やしたら有意差がつくかもしれない！とか、悔しい気持ちが出るかもしれません。

根拠なく30例ずつリクルートしたのであれば、実際に真実は有意差があって、思っている通り症例数が少ないから本来ある差を統計学的に検出できなかっただけかもしれません。

ここで、まだ追加で症例数を増やす、と研究計画を変更し、ちょっと症例数が増えるごとに検定を繰り返し、p < 0.05となるまで繰り返す、という行為はしてはいけません。

検定を繰り返しているということは、多重比較をしているということで、このようにして出てきたp < 0.05は本当の意味で帰無仮説を棄却するほどレアな出来事ではなくなってしまうのです。

逆に実薬群30例と偽薬群30例の効果の差を比較して、p = 0.048となんとか有意差がついたとします。

はー、ラッキー、と思いませんか？論文を読んだ人も同じように、これは単なる偶然じゃないか、と思うかもしれません。

この症例数で検定し、有意差が出れば差があると結論づけられると、根拠を持って事前に計算できていれば、このような後悔や、偶然有意差がついただけじゃ、という疑念を払拭することができます。

また逆に有意差がつかなかった場合も、「有意差がつかなかった」という仮説に対する反証として報告する価値が出てくるのです。

以前から何度か話題にしている、「仮に有意差がつかなくても、重要な知見と気づくことができる」というやつです。

中間解析の問題をクリアできる

治験ではよく中間解析が行われます。これは予定よりも少ないある程度の数の被験者をリクルートした段階で、実薬と偽薬の間でこのまま続けても有効性に差がでなさそうだ、あるいは実薬で明らかに有害事象が多く出ている、ということに早めに気づき、もしそのような場合は治験を中止する、という判断をするための解析です。

ところで、仮に中間解析でそのような中止しなくてもいいような結果が出たとします。この時、中止基準を満たしているか確認するために、実薬と偽薬での効果の差を検定することになります。

その後、最終的に予定していた人数が揃った時に、実薬と偽薬での効果の差について2回目の検定をします。

これは多重比較にならないのでしょうか？

これはなりません。事前にきちんと根拠を持って、予定していた人数で解析すれば効果がきちんと検証できる、と設計しているので、同様に計画された中間解析に伴う多重比較の問題はクリアされるわけです。

このように、あらかじめ根拠を持って、仮説検証のために必要な症例数を計算しておくと、多くのメリットがあるわけです。

RCTで症例数計算

[adchord]

どうやって症例数計算するか

症例数計算は専用のソフトに必要な情報を入力するだけで計算してくれます。

なので、必要な情報が何かさえ把握していれば大丈夫です。

症例数計算に必要な情報

・統計解析に用いる検定の種類

・予想される効果量

・有意水準

・検出力

・脱落率

検定の種類は、どんな比較をしたいのか次第なので大きな問題はないでしょう。t検定、ANOVAなど、アウトカムに合わせて適切な検定を選びましょう。

有意水準も基本的にはα = 0.05もしくは0.01と設定するのが慣例です。

検出力とは、「本来差がある場合に、正しく差があると判断できる確率」です。検出力は当然100%に近いほどいいのですが、検出力を高めるためには症例数をどんどん増やす必要があります。

慣例的には検出力は80%（つまり、5回中4回は正しく差があると判定できる）に設定するようになっています。

脱落率は、過去の同様の研究を参考に、10%程度かなー、と決めてしまいましょう。

問題は効果量です。

効果量ってなに？

論文を読んでいて、先輩なんかに「p値ばかり見てても意味ない！効果量を見ろ！」なんて言われたりしません？

p値はある出来事が起こった時に、「帰無仮説が正しいとしたなら、そんな結果（およびよりレアな結果）が起こる確率」を表していて、これが小さければ、こんなレアなことが起こるとは考えにくいから「帰無仮説が正しい」という前提が間違っている、と判断する基準でした。

例えば、実薬と偽薬の比較でp値が低ければ、「実薬と偽薬の効果が同じ、という仮説は正しくなさそう」という度合いが強いだけで、「実薬と偽薬の効果にどの程度差があるのだろう」までは表していません。

例えば、認知症の薬では投与前後でMMSEの平均が24点から25点に、偽薬では投与前後でMMSEの平均が23点から22点になったとすると、認知症の薬は偽薬に比べて、（25−24）−（22−23）＝ 2 点、MMSEの平均点を高める効果があります。この2点が効果量になるわけです。

効果量の決め手は先行研究と「その効果量に意味があるか」

事前の症例数計算でどの程度の効果量を見こむかは、先行研究によります。

例えば既存の同様の薬効を持つ薬に関する先行研究で見られた効果量が、今回治験する新薬の効果量として得られると想定したり、同じ新薬に関する過去の仮説探索的研究（治験で言えば第2相試験など）で得られた効果量を参考にするのです。

ただ、もう一つ考えてもいい視点は、「その効果量に意味があるか」です。

例えば、高血圧の薬の効果量として、「偽薬よりも収縮期血圧を平均1mmHg低下させる」という効果量をどう思いますか？

これは仮に有意差が出ても臨床的に意味があるのだろうか、と感じるのではないでしょうか。

つまり、症例数計算とは、「先行研究からこれくらいの効果量が得られるだろう。またその効果量は臨床的に意味がある」という結果を想定し、その結果が有意水準0.05の設定だと5回に4回は正しく検出できる（検出力80%）ようにするためには、何例の被験者がいるか、を統計学的に逆算しているわけです。

[adchord]

症例数計算に使えるフリーソフト・G*Power

症例数計算に使われるソフトはいくつかあり、SPSSなどもそういうパッケージを持っています。

が、せっかくなのでフリーソフトを紹介。

Universität Düsseldorf: G*Power
G*Power is a tool to compute statistical power analyses for many different t tests, F tests, χ2 tests, z tests and some exact tests. G*Power can also be used to compute effect sizes and to display graphically the results of power analyses. Whenever we find a problem with G*Power we provide an update as quickly as we can.

このG*Powerは非常に直感的に使え、Windows, MacどちらのOSにも対応したソフトが公開されています。

事前に症例数計算をしている論文の例

事前に症例数計算をしていて、それを提示しているFree Full textが手に入れられる論文の例をあげます。

アルツハイマー病で見られるうつ状態に対する抗うつ薬のセルトラリンの効果を検証するためのRCTに関する論文です。

Sertraline for the treatment of depression in Alzheimer disease.
OBJECTIVE: Depression is common in Alzheimer disease (AD), and antidepressants are commonly used for its treatment, however, evidence for antidepressant efficacy in this population is lacking. The authors conducted a multicenter, randomized, placebo-controlled trial titled “Depression in Alzheimer’s Disease-2” to assess the efficacy and tolerability of sertraline for depression in AD.

この論文のMethodsのData Analysisの最後の段落が、症例数計算に関する記載です。

The planned sample size of 130 was based upon 80% power, 0.05 significance level and 20% attrition, to detect a difference of the following magnitude between the two treatment groups in the distribution of the seven categories of the mADCS-CGIC (from worst to best) (24): 8%, 18%, 22%, 25%, 20%, 5%, 2% in the group assigned to placebo 3%, 8%, 17%, 17%, 36%, 13%, 6% in the group assigned to sertraline.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2842121/pdf/nihms166961.pdf

ということで、検出力80%、有意水準0.05、脱落率は20%で、効果量はmADCS-CGICのカテゴリに偽薬群およびセルトラリン群でそれぞれ何%ずつ入るだろう、と設定して症例数を130と事前に計算したとのことです。

このように、どのようにして症例数を事前に設定したか、も論文中で記載することが望まれます。

なお、この論文の結論はAbstractにも書かれているように、

Sertraline did not demonstrate efficacy for the treatment depression symptoms in patients with AD.
https://www.ncbi.nlm.nih.gov/pubmed/20087081

となっています。

RCTの結果、有意差が出ず、セルトラリンのアルツハイマー病のうつ状態に対する有効性を証明できませんでした。

ですが、きちんと研究計画をし、事前に症例数も計算して行われた結果なので、意義のある結果として論文になっているのです。