多くの論文や学会発表、大学院生が持ってくる解析結果で多変量回帰分析が使われていますが、結構間違って使ってるなー、と思うことが多いです。自分のところの大学院生が持ってきた内容だとその場で指摘できますし、少し前に学会でとても若い先生が指導してくれる人がいないと困っていたので、回帰分析の不備を伝えたところ、とても喜んでくれました。こう言う情報は意外と若い先生方に届いていなくて、自分のできる範囲で伝えられたらな、と思いました。
今回はよく見られる回帰分析の誤った使い方を修正するための、回帰分析について知っておくべき前提条件をまとめます。
どの回帰分析を使うかは従属変数次第
多変量回帰分析は1つの被説明変数(従属変数)と複数の説明変数(独立変数)を投入し、説明変数から被説明変数を導くための回帰式を作ります。多変量回帰分析には重回帰分析、ロジスティック回帰分析、Cox回帰分析と種類がありますが、どの回帰分析を使うかは従属変数がどんな変数か次第です。
回帰分析の種類 | 従属変数の種類 | 例 |
---|---|---|
重回帰 | 連続変数 | 年齢を従属変数にする |
ロジスティック回帰 | 2値変数 | 病気かどうかを従属変数にする |
Cox回帰 | 打ち切りのある2値変数 | 可能な限りフォローして最終的な病気の発症の有無を従属変数にする |
投入できる説明変数の数は症例数次第
症例数が少ないのに多くの説明変数から従属変数を予測する式を作ろうとすると、当然いい加減な結果になります。なので、適切な回帰式を作るためには、説明変数に見合うだけの症例数が必要です。ここが結構見落とされがちで、かなり少ない症例数なのに説明変数がてんこ盛り、という解析を目にすることがあります。
回帰分析の種類 | 必要症例数 |
---|---|
重回帰 | 説明変数の個数の15倍以上 |
ロジスティック回帰 | アウトカム(従属変数の2値のうち、ピックアップすべき転帰)の発生数の10倍 |
Cox回帰 | アウトカム(従属変数の2値のうち、ピックアップすべき転帰)の発生数の10倍 |
そのため、多変量回帰分析を行う場合は、研究計画の段階で説明変数の数と従属変数の種類に合わせた症例数計算をしておく必要があります。
例えば、軽度認知障害(MCI)患者は1年後に約20%が認知症にコンバートすると言われていますが、性別、年齢、喫煙歴、高血圧、糖尿病の5つの説明変数で、MCIが1年後に認知症にコンバートするかを予測する回帰式を作るためには、アウトカム発生数(認知症にコンバートする数)だけで 5 × 10 例必要なので、
5 × 10 ÷ 0.2 = 250 例
のMCI患者を1年間フォローする必要があります。
(さらに1年間のフォローアップ中に10%の患者が脱落するだろう、といった脱落率まで加味すると、
250 ÷ 0.9 = 278 例
をリクルートする必要があります。)
投入すべき説明変数は先行研究から考える
多変量回帰分析を行う多くのケースでは、被説明変数とある説明変数の関係を、交絡の可能性のある要因の影響を調整して調べることが目的になることが多く、その交絡になりうる要因を説明変数として投入します。そうなると、調整したい要因が多くなることがあると思いますが、上述のように投入可能な説明変数の数は症例数に依存するため、あまりにも多く説明変数を設定すると、現実的に集められない症例数に膨れ上がってしまう可能性があります。
また、説明変数は「独立変数」とも言うくらいで、互いに独立でないと回帰分析の結果に歪みが生じてしまいます。例えば、アルツハイマー病の脳脊髄液バイオマーカーとしてアミロイドβ42と総タウが有名ですが、アルツハイマー病かどうかを予測するのにこの2つを説明変数として投入すると、両者には強い相関があり、独立ではないため、回帰分析の結果が歪んでしまうのです。
さらに、従属変数と全く関係のない説明変数を投入したり、逆にとても重要な説明変数が投入されていなかったりすると、モデルの設定が誤っているためやはり解析結果が歪んでしまいます。
そのため、やはり研究計画の段階で、先行研究で従属変数と関連が言われている、互いに独立な説明変数を設定し、データを集めることが重要になります。
従属変数、説明変数から正しく回帰分析を行う
と言うことで、回帰分析を行うためには、研究計画の段階から従属変数と説明変数をきちんと設定し、それに合わせた症例数計算を行うことが重要です。闇雲に変数を投入して、p < 0.05となったから論文にする、と言う行為は厳に慎む必要があります。
以前のエントリーで計画段階での症例数計算やHARKingについて触れましたが、そのような意識が回帰分析でも必要です。
ちなみに、こういった回帰分析も含め、医療統計に関するより詳しくわかりやすい説明をしてくれている書籍として、僕が大学院生に通読するよういつも薦めているのがこちらの本です。
具体的な例もあげて開設されていますので、とてもおすすめです。
回帰分析関連の投稿
おすすめの書籍:「今日から使える 医療統計」
各統計手法をどのように利用するか勉強するのに、とてもわかりやすい本です。各統計手法がなんのために用いられていて、その結果をどう解釈すべきかも具体例を示して説明してくれています。私の研究室の院生には、「まずLesson4まで読むこと!」と伝えています。