前臨床試験のサンプルサイズ（N数）計算ガイド：線維化モデルでのパワーアナリシス

はじめに：「マウスは何匹必要か？」という永遠の課題

非臨床（動物）試験を計画する際、最も多く、そして最も重要となる問いが**「各群のサンプルサイズ（N数）をいくつにするか？」**です。

N数が少なすぎると、せっかく薬が効いていても統計的有意差が出ない（偽陰性 / Type II error）リスクが高まります。一方で、N数が多すぎると、不要な動物の犠牲を生み（3Rsの違反）、コストと時間を浪費してしまいます。

特に、MASH、IPF、CKDなどの「線維化モデル」は、組織学的評価（シリウスレッド面積など）の個体間ばらつきが比較的大きいため、経験則（「とりあえずN=8で…」など）に基づいた設計は失敗の元です。本記事では、**Power Analysis（検出力分析）**を用いた科学的なサンプルサイズ計算の手法と、無料ツール「G*Power」を用いた実践的な計算例を解説します。

1. サンプルサイズ計算に必要な4つの要素

適切なN数を逆算するためには、以下の4つの統計的パラメータを事前に設定・推測する必要があります。

α（有意水準 / Type I error rate）: 「本当は効果がないのに、間違って『効果がある』と判定してしまう確率」。通常は 0.05（5%） に設定します。P値が0.05未満であれば有意とみなす、というお馴染みの基準です。
Power（検出力 / 1 - β / Type II error rate）: 「本当に効果がある場合に、正しく『効果がある（有意差あり）』と見抜ける確率」。通常は 0.80（80%） または 0.90（90%）に設定します。
Effect Size（効果量 / 予想される差）: 「投与群と対照群の間で、どれくらいの差（平均値の差）を見込みたいか」。既存の文献や予備試験（パイロットスタディ）のデータから推定します。
Standard Deviation (SD / 標準偏差): 「モデル動物のデータがどれくらいばらつくか」。線維化評価では非常に重要です。これも過去のデータから推定します。

線維症・炎症の創薬を追う研究者へ

FDA承認速報・治験結果・前臨床モデル選択・アッセイ最適化。ベンチからパイプラインまで、必要な情報だけをキュレーション。月2通まで。

2. 実践：G*Powerを用いた計算例（線維化面積の比較）

ここでは、最も広く使われている無料の統計ソフトウェアG*Powerを用いて、「t検定（2群比較）」を想定した計算例を示します。

【シナリオ】 CCl4肝線維症モデルにおいて、シリウスレッド染色による線維化面積（%）を評価する。過去のデータから、病態対照（Vehicle）群の線維化面積の平均は 10.0%、標準偏差(SD)は 2.5% であった。新薬（Test Article）を投与することで、線維化面積を 30%減少（10.0% → 7.0%） させたい。この差を、α=0.05, Power=0.80で統計的に有意（P < 0.05）と判定するには、各群何匹必要か？

Step 1: 効果量（Cohen's d）の計算

効果量(d)は、「平均値の差」を「プールされた標準偏差」で割ったものです。

差 = 10.0 - 7.0 = 3.0
SD = 2.5
d = 3.0 / 2.5 = 1.2

Step 2: G*Powerへの入力

Test family: t tests
Statistical test: Means: Difference between two independent means (two groups)
Type of power analysis: A priori: Compute required sample size
Tail(s): Two （両側検定）
Effect size d: 1.2
α err prob: 0.05
Power (1 - β err prob): 0.80
Allocation ratio N2/N1: 1 (1:1の群構成)

Step 3: 結果の解釈

計算ボタン（Calculate）を押すと、Total sample size = 24（各群 12匹） という結果が得られます。

[!WARNING] ドロップアウト（脱落）の考慮 腹腔内投与に伴う事故や、疾患モデル自体の死亡率（例：ブレオマイシンモデルでは10〜20%が死亡することがある）を考慮し、計算されたN数より 10〜20%多めに動物を設定する（この場合はN=14程度） のが実務上のベストプラクティスです。

3. モデルごとの「ばらつき（SD）」と推奨N数

モデルの性質によって「データのばらつき（SD）」は大きく異なり、必要なN数も変動します。

① ばらつきが小さいモデル（例：CCl4肝線維症）

特徴: 同一クローンのマウスに同一用量の化学毒性を与えるため、線維化の度合いが非常に均一に揃います。
推奨N数: 平均とSDの比率にもよりますが、一般的に N=8〜10 / group 程度で30%以上の改善効果（Effect size > 1.2程度）を十分に検出可能です。

② ばらつきが大きいモデル（例：MASH食餌モデル、ブレオマイシン肺線維症）

特徴: GAN食などのMASHモデルは、個体の摂食量や代謝の個体差により、脂肪蓄積や線維化（F2とF3が混在するなど）に大きなばらつきが生じます。ブレオマイシンも気管内投与の手技的なブレが影響します。
推奨N数: 効果量（d）が 0.8〜1.0 程度に落ち込むことが多いため、N=12〜15 / group 程度の大規模な群設定が必要となる傾向があります。

4. 3Rs（動物実験代替）と倫理的考察

「どうしてもN数を減らしたい（Reduction）」場合、以下の統計的・実験的アプローチが有効です。

評価指標（エンドポイント）の定量性向上: 病理医による半定量的スコア（0〜4のカテゴリカルデータ）ではなく、ImageJやAI病理システムを用いた**連続値（0.0〜100.0%の面積等）**を取得することで、データの解像度が上がり、必要なN数を減らすことができます。
ベースラインの均一化: 体重や事前採血のバイオマーカー（ALTやTIMP-1等）に基づき、群分け（Randomization）を厳密に行うことで、初期のばらつきを最小化します。
複数用量群の活用 (ANOVA): 「Vehicle vs 高用量」のt検定だけでなく、低・中・高用量を設定してANOVA/回帰トレンド分析を用いることで、全体としての統計的検出力を高める設計手法もあります。

試験設計・報告基準としては、**ARRIVE 2.0（Animal Research: Reporting of In Vivo Experiments 2.0）**ガイドライン（Percie du Sert N, et al. PLoS Biol. 2020;18(7):e3000410）の遵守が国際標準となっています。サンプルサイズの根拠（検出力計算）は同ガイドラインのItem 2（Study Design）に記載することが求められます。

まとめ

「とりあえずN=10にしよう」という時代は終わりました。現在の医薬品開発やハイレベルなジャーナルへの論文投稿では、倫理的観点（3Rs）と科学的妥当性の両面から、事前（A priori）のサンプルサイズ設計の正当化が厳格に求められます。過去の文献やパイロットデータをフルに活用し、G*Power等を用いたロジカルな試験設計を行うことが、創薬プロジェクトを確実な成功へと導く第一歩です。

参考文献

1. Dell RB, et al. Sample size determination. ILAR J. 2002;43(4):207-213. (PubMed)

2. Festing MFW, Altman DG. Guidelines for the Design and Statistical Analysis of Experiments Using Laboratory Animals. ILAR J. 2002;43(4):244-258. (PubMed)

3. Percie du Sert N, et al. The ARRIVE guidelines 2.0: Updated guidelines for reporting animal research. PLoS Biol. 2020;18(7):e3000410. PMID: 32663219

はじめに：「マウスは何匹必要か？」という永遠の課題

非臨床（動物）試験を計画する際、最も多く、そして最も重要となる問いが**「各群のサンプルサイズ（N数）をいくつにするか？」**です。

1. サンプルサイズ計算に必要な4つの要素

適切なN数を逆算するためには、以下の4つの統計的パラメータを事前に設定・推測する必要があります。

α（有意水準 / Type I error rate）: 「本当は効果がないのに、間違って『効果がある』と判定してしまう確率」。通常は 0.05（5%） に設定します。P値が0.05未満であれば有意とみなす、というお馴染みの基準です。
Power（検出力 / 1 - β / Type II error rate）: 「本当に効果がある場合に、正しく『効果がある（有意差あり）』と見抜ける確率」。通常は 0.80（80%） または 0.90（90%）に設定します。
Effect Size（効果量 / 予想される差）: 「投与群と対照群の間で、どれくらいの差（平均値の差）を見込みたいか」。既存の文献や予備試験（パイロットスタディ）のデータから推定します。
Standard Deviation (SD / 標準偏差): 「モデル動物のデータがどれくらいばらつくか」。線維化評価では非常に重要です。これも過去のデータから推定します。

線維症・炎症の創薬を追う研究者へ

FDA承認速報・治験結果・前臨床モデル選択・アッセイ最適化。ベンチからパイプラインまで、必要な情報だけをキュレーション。月2通まで。

2. 実践：G*Powerを用いた計算例（線維化面積の比較）

ここでは、最も広く使われている無料の統計ソフトウェアG*Powerを用いて、「t検定（2群比較）」を想定した計算例を示します。

【シナリオ】 CCl4肝線維症モデルにおいて、シリウスレッド染色による線維化面積（%）を評価する。過去のデータから、病態対照（Vehicle）群の線維化面積の平均は 10.0%、標準偏差(SD)は 2.5% であった。新薬（Test Article）を投与することで、線維化面積を 30%減少（10.0% → 7.0%） させたい。この差を、α=0.05, Power=0.80で統計的に有意（P < 0.05）と判定するには、各群何匹必要か？

Step 1: 効果量（Cohen's d）の計算

効果量(d)は、「平均値の差」を「プールされた標準偏差」で割ったものです。

差 = 10.0 - 7.0 = 3.0
SD = 2.5
d = 3.0 / 2.5 = 1.2

Step 2: G*Powerへの入力

Test family: t tests
Statistical test: Means: Difference between two independent means (two groups)
Type of power analysis: A priori: Compute required sample size
Tail(s): Two （両側検定）
Effect size d: 1.2
α err prob: 0.05
Power (1 - β err prob): 0.80
Allocation ratio N2/N1: 1 (1:1の群構成)

Step 3: 結果の解釈

計算ボタン（Calculate）を押すと、Total sample size = 24（各群 12匹） という結果が得られます。

[!WARNING] ドロップアウト（脱落）の考慮 腹腔内投与に伴う事故や、疾患モデル自体の死亡率（例：ブレオマイシンモデルでは10〜20%が死亡することがある）を考慮し、計算されたN数より 10〜20%多めに動物を設定する（この場合はN=14程度） のが実務上のベストプラクティスです。

3. モデルごとの「ばらつき（SD）」と推奨N数

モデルの性質によって「データのばらつき（SD）」は大きく異なり、必要なN数も変動します。

① ばらつきが小さいモデル（例：CCl4肝線維症）

特徴: 同一クローンのマウスに同一用量の化学毒性を与えるため、線維化の度合いが非常に均一に揃います。
推奨N数: 平均とSDの比率にもよりますが、一般的に N=8〜10 / group 程度で30%以上の改善効果（Effect size > 1.2程度）を十分に検出可能です。

② ばらつきが大きいモデル（例：MASH食餌モデル、ブレオマイシン肺線維症）

特徴: GAN食などのMASHモデルは、個体の摂食量や代謝の個体差により、脂肪蓄積や線維化（F2とF3が混在するなど）に大きなばらつきが生じます。ブレオマイシンも気管内投与の手技的なブレが影響します。
推奨N数: 効果量（d）が 0.8〜1.0 程度に落ち込むことが多いため、N=12〜15 / group 程度の大規模な群設定が必要となる傾向があります。

4. 3Rs（動物実験代替）と倫理的考察

「どうしてもN数を減らしたい（Reduction）」場合、以下の統計的・実験的アプローチが有効です。

評価指標（エンドポイント）の定量性向上: 病理医による半定量的スコア（0〜4のカテゴリカルデータ）ではなく、ImageJやAI病理システムを用いた**連続値（0.0〜100.0%の面積等）**を取得することで、データの解像度が上がり、必要なN数を減らすことができます。
ベースラインの均一化: 体重や事前採血のバイオマーカー（ALTやTIMP-1等）に基づき、群分け（Randomization）を厳密に行うことで、初期のばらつきを最小化します。
複数用量群の活用 (ANOVA): 「Vehicle vs 高用量」のt検定だけでなく、低・中・高用量を設定してANOVA/回帰トレンド分析を用いることで、全体としての統計的検出力を高める設計手法もあります。

まとめ

参考文献

1. Dell RB, et al. Sample size determination. ILAR J. 2002;43(4):207-213. (PubMed)

2. Festing MFW, Altman DG. Guidelines for the Design and Statistical Analysis of Experiments Using Laboratory Animals. ILAR J. 2002;43(4):244-258. (PubMed)

3. Percie du Sert N, et al. The ARRIVE guidelines 2.0: Updated guidelines for reporting animal research. PLoS Biol. 2020;18(7):e3000410. PMID: 32663219

前臨床試験のサンプルサイズ（N数）計算ガイド：線維化モデルでのパワーアナリシス

はじめに：「マウスは何匹必要か？」という永遠の課題

1. サンプルサイズ計算に必要な4つの要素

線維症・炎症の創薬を追う研究者へ

2. 実践：G*Powerを用いた計算例（線維化面積の比較）

Step 1: 効果量（Cohen's d）の計算

Step 2: G*Powerへの入力

Step 3: 結果の解釈

3. モデルごとの「ばらつき（SD）」と推奨N数

① ばらつきが小さいモデル（例：CCl4肝線維症）

② ばらつきが大きいモデル（例：MASH食餌モデル、ブレオマイシン肺線維症）

4. 3Rs（動物実験代替）と倫理的考察

まとめ

参考文献

線維症・炎症の創薬を追う研究者へ

Fibrosis-Inflammation Lab とつながる

前臨床試験のサンプルサイズ（N数）計算ガイド：線維化モデルでのパワーアナリシス

はじめに：「マウスは何匹必要か？」という永遠の課題

1. サンプルサイズ計算に必要な4つの要素

線維症・炎症の創薬を追う研究者へ

2. 実践：G*Powerを用いた計算例（線維化面積の比較）

Step 1: 効果量（Cohen's d）の計算

Step 2: G*Powerへの入力

Step 3: 結果の解釈

3. モデルごとの「ばらつき（SD）」と推奨N数

① ばらつきが小さいモデル（例：CCl4肝線維症）

② ばらつきが大きいモデル（例：MASH食餌モデル、ブレオマイシン肺線維症）

4. 3Rs（動物実験代替）と倫理的考察

まとめ

参考文献

線維症・炎症の創薬を追う研究者へ

Fibrosis-Inflammation Lab とつながる