前臨床試験のサンプルサイズ(N数)計算ガイド:線維化モデルでのパワーアナリシス
「マウスは何匹必要か?」線維化動物モデル(IPF・NASH/MASH・CKD)を用いた非臨床試験における適切なサンプルサイズ(N数)の決め方、G*Powerを用いたPower Analysisの具体例と計算手順、3Rsに基づく倫理的試験設計を解説します。
はじめに:「マウスは何匹必要か?」という永遠の課題
非臨床(動物)試験を計画する際、最も多く、そして最も重要となる問いが**「各群のサンプルサイズ(N数)をいくつにするか?」**です。
N数が少なすぎると、せっかく薬が効いていても統計的有意差が出ない(偽陰性 / Type II error)リスクが高まります。一方で、N数が多すぎると、不要な動物の犠牲を生み(3Rsの違反)、コストと時間を浪費してしまいます。
特に、MASH、IPF、CKDなどの「線維化モデル」は、組織学的評価(シリウスレッド面積など)の個体間ばらつきが比較的大きいため、経験則(「とりあえずN=8で…」など)に基づいた設計は失敗の元です。 本記事では、**Power Analysis(検出力分析)**を用いた科学的なサンプルサイズ計算の手法と、無料ツール「G*Power」を用いた実践的な計算例を解説します。
1. サンプルサイズ計算に必要な4つの要素
適切なN数を逆算するためには、以下の4つの統計的パラメータを事前に設定・推測する必要があります。
- α(有意水準 / Type I error rate): 「本当は効果がないのに、間違って『効果がある』と判定してしまう確率」。通常は 0.05(5%) に設定します。P値が0.05未満であれば有意とみなす、というお馴染みの基準です。
- Power(検出力 / 1 - β / Type II error rate): 「本当に効果がある場合に、正しく『効果がある(有意差あり)』と見抜ける確率」。通常は 0.80(80%) または 0.90(90%)に設定します。
- Effect Size(効果量 / 予想される差): 「投与群と対照群の間で、どれくらいの差(平均値の差)を見込みたいか」。既存の文献や予備試験(パイロットスタディ)のデータから推定します。
- Standard Deviation (SD / 標準偏差): 「モデル動物のデータがどれくらいばらつくか」。線維化評価では非常に重要です。これも過去のデータから推定します。
線維症・炎症の創薬を追う研究者へ
FDA承認速報・治験結果・前臨床モデル選択・アッセイ最適化。ベンチからパイプラインまで、必要な情報だけをキュレーション。月2通まで。
2. 実践:G*Powerを用いた計算例(線維化面積の比較)
ここでは、最も広く使われている無料の統計ソフトウェアG*Powerを用いて、「t検定(2群比較)」を想定した計算例を示します。
【シナリオ】 CCl4肝線維症モデルにおいて、シリウスレッド染色による線維化面積(%)を評価する。 過去のデータから、病態対照(Vehicle)群の線維化面積の平均は 10.0%、標準偏差(SD)は 2.5% であった。 新薬(Test Article)を投与することで、線維化面積を 30%減少(10.0% → 7.0%) させたい。 この差を、α=0.05, Power=0.80で統計的に有意(P < 0.05)と判定するには、各群何匹必要か?
Step 1: 効果量(Cohen's d)の計算
効果量(d)は、「平均値の差」を「プールされた標準偏差」で割ったものです。
- 差 = 10.0 - 7.0 = 3.0
- SD = 2.5
- d = 3.0 / 2.5 = 1.2
Step 2: G*Powerへの入力
- Test family:
t tests - Statistical test:
Means: Difference between two independent means (two groups) - Type of power analysis:
A priori: Compute required sample size - Tail(s):
Two(両側検定) - Effect size d:
1.2 - α err prob:
0.05 - Power (1 - β err prob):
0.80 - Allocation ratio N2/N1:
1(1:1の群構成)
Step 3: 結果の解釈
- 計算ボタン(Calculate)を押すと、Total sample size = 24(各群 12匹) という結果が得られます。
[!WARNING] ドロップアウト(脱落)の考慮 腹腔内投与に伴う事故や、疾患モデル自体の死亡率(例:ブレオマイシンモデルでは10〜20%が死亡することがある)を考慮し、計算されたN数より 10〜20%多めに動物を設定する(この場合はN=14程度) のが実務上のベストプラクティスです。
3. モデルごとの「ばらつき(SD)」と推奨N数
モデルの性質によって「データのばらつき(SD)」は大きく異なり、必要なN数も変動します。
① ばらつきが小さいモデル(例:CCl4肝線維症)
- 特徴: 同一クローンのマウスに同一用量の化学毒性を与えるため、線維化の度合いが非常に均一に揃います。
- 推奨N数: 平均とSDの比率にもよりますが、一般的に N=8〜10 / group 程度で30%以上の改善効果(Effect size > 1.2程度)を十分に検出可能です。
② ばらつきが大きいモデル(例:MASH食餌モデル、ブレオマイシン肺線維症)
- 特徴: GAN食などのMASHモデルは、個体の摂食量や代謝の個体差により、脂肪蓄積や線維化(F2とF3が混在するなど)に大きなばらつきが生じます。ブレオマイシンも気管内投与の手技的なブレが影響します。
- 推奨N数: 効果量(d)が 0.8〜1.0 程度に落ち込むことが多いため、N=12〜15 / group 程度の大規模な群設定が必要となる傾向があります。
4. 3Rs(動物実験代替)と倫理的考察
「どうしてもN数を減らしたい(Reduction)」場合、以下の統計的・実験的アプローチが有効です。
- 評価指標(エンドポイント)の定量性向上: 病理医による半定量的スコア(0〜4のカテゴリカルデータ)ではなく、ImageJやAI病理システムを用いた**連続値(0.0〜100.0%の面積等)**を取得することで、データの解像度が上がり、必要なN数を減らすことができます。
- ベースラインの均一化: 体重や事前採血のバイオマーカー(ALTやTIMP-1等)に基づき、群分け(Randomization)を厳密に行うことで、初期のばらつきを最小化します。
- 複数用量群の活用 (ANOVA): 「Vehicle vs 高用量」のt検定だけでなく、低・中・高用量を設定してANOVA/回帰トレンド分析を用いることで、全体としての統計的検出力を高める設計手法もあります。
試験設計・報告基準としては、**ARRIVE 2.0(Animal Research: Reporting of In Vivo Experiments 2.0)**ガイドライン(Percie du Sert N, et al. PLoS Biol. 2020;18(7):e3000410)の遵守が国際標準となっています。サンプルサイズの根拠(検出力計算)は同ガイドラインのItem 2(Study Design)に記載することが求められます。
まとめ
「とりあえずN=10にしよう」という時代は終わりました。現在の医薬品開発やハイレベルなジャーナルへの論文投稿では、倫理的観点(3Rs)と科学的妥当性の両面から、事前(A priori)のサンプルサイズ設計の正当化が厳格に求められます。 過去の文献やパイロットデータをフルに活用し、G*Power等を用いたロジカルな試験設計を行うことが、創薬プロジェクトを確実な成功へと導く第一歩です。
参考文献
1. Dell RB, et al. Sample size determination. ILAR J. 2002;43(4):207-213. (PubMed)
2. Festing MFW, Altman DG. Guidelines for the Design and Statistical Analysis of Experiments Using Laboratory Animals. ILAR J. 2002;43(4):244-258. (PubMed)
3. Percie du Sert N, et al. The ARRIVE guidelines 2.0: Updated guidelines for reporting animal research. PLoS Biol. 2020;18(7):e3000410. PMID: 32663219