エビデンスの強度

MUSEは研究で示された分析結果のエビデンスの強度を、**Maryland Scientific Methods Scale（SMS）**を用いて評価します。SMSは国際的に認められたフレームワークで、研究デザインの厳密さに基づき0から5のスター評価を付与します。レベルが高いほど、より強い因果推論が可能です。つまり、観察されたアウトカムが介入によるものであり、他の要因によるものではないという確信が高まります。

以下の説明は What Works Centre for Local Growth に基づいています。

エビデンスの強度が重要な理由

すべての研究が同じ価値を持つわけではありません。対照群なしに、プログラムの前後でアウトカムを単純に比較するだけの研究では、その変化がいずれにせよ起きていたはずのものではないことを排除できません。一方、適切に実施されたRCT（ランダム化比較試験）は、介入の因果効果を高い確信度で分離することができます。

各エビデンスカードにSMSレベルをタグ付けすることで、MUSEはロジックモデル構築者が以下のことを行えるようにします。

弱いシグナルと確かな知見を区別する。
ロジックモデルの因果リンクを選択する際に、高品質なエビデンスを優先する。
より厳密な評価が必要なギャップを特定する。
エビデンスの質を資金提供者、政策立案者、ステークホルダーに対して透明性をもって伝える。

クイックリファレンス表

レベル	スター	デザインの種類	因果確信度
0	なし	数学的・計算論的モデル	非常に低い
1	★	制御変数を用いた回帰分析	低い
2	★★	部分的なマッチングまたは比較群	やや低い
3	★★★	差分の差分法、回帰不連続デザイン、傾向スコアマッチング	中程度
4	★★★★	操作変数化を伴うランダム化デザイン	高い
5	★★★★★	完全なRCT（ランダム化比較試験）	非常に高い

レベルの説明

レベル0 — スターなし

このレベルの分析は、実験的または準実験的アプローチではなく、実証データと統計を組み合わせた数学的モデルに基づいています。エージェントベースモデル、マイクロシミュレーションモデル、その他の計算論的アプローチが含まれます。実世界の介入が観察されておらず、比較群も存在しないため、因果的主張を支持することはできません。レベル0の研究はシナリオプランニングや仮説生成に有用ですが、ロジックモデルの因果リンクに対する独立したエビデンスとしては不十分です。

レベル1 — スター1つ（★）

（a）介入群と非介入群の比較、または（b）介入前後の介入群の比較。介入群と非介入群の差を調整するために制御変数が使用される。

レベル1の研究は観察データを使用し、参加者と非参加者の違いを考慮するために回帰分析や類似の統計的制御を適用します。ただし、参加者が介入に自己選択しているため、グループ間の測定されていない差異が依然として結果を説明している可能性があります。これは実際の比較を含む最も低いレベルのエビデンスです。

典型的なデザイン: 単純回帰、共変量を用いた横断的比較、対照群のない中断時系列。

レベル2 — スター2つ（★★）

（a）介入群と非介入群の比較、または（b）介入群と非介入群が部分的にではあるが完全ではなく一致している比較。制御変数またはマッチング手法が使用される。マクロレベルでは、ベースライン特性を制御するために制御変数が使用される。

レベル2の研究は、マッチングや共変量調整によってより信頼性の高い比較群を構築しようとしますが、介入群と比較群は依然としてベースラインで完全に同等ではありません。この部分的な整合はレベル1より改善されていますが、測定されていない交絡因子が結果をもたらしている可能性を残しています。

典型的なデザイン: マッチング観察研究、豊富な共変量セットを用いた多変量回帰、制御変数を含む生態学的研究。

レベル3 — スター3つ（★★★）

介入群の介入前アウトカムと介入後アウトカムの比較、および非介入群のアウトカムとの比較を提供する。介入前後の期間を比較する手法を使用する場合、介入群と非介入群について別々に結果が提示される。さらに、重要なベースライン特性が測定され、傾向スコアマッチングを通じて制御されるが、根本的な差異が依然として存在する場合がある。

レベル3の研究は、反事実的状況（介入がなかった場合に介入群に何が起きたか）を明示的にモデル化する準実験的手法を使用します。両グループが時間とともにどのように推移するかを観察することで、これらのデザインは安定した測定されていない差異や、全員に等しく影響する時間変動ショックを制御することができます。

典型的なデザイン:

差分の差分法（DiD）: 介入群と対照群の間で、時間経過とともにアウトカムの変化を比較する。
回帰不連続デザイン（RD）: 閾値ルールを活用して、カットオフ付近の因果効果を特定する。
傾向スコアマッチング（PSM）: 観測可能な特性に基づいて各参加者の統計的な双子を構築する。

レベル4 — スター4つ（★★★★）

介入はランダムに実施され、介入の有無による介入群と非介入群のアウトカムの差が検討される。理想的には、介入設計における操作変数化または介入実施タイミングのベースラインの不均一性が含まれるべきである。測定された変数はできる限り分離されるべきである。

レベル4はランダム化を導入しており、原則として選択バイアスを排除します。ただし、これは完全なプロトコルレベルのRCTではなく、ランダム化に近似する展開タイミングの自然なばらつき、エンカレッジメントデザイン、または操作変数アプローチを含む場合があります。このレベルでの重点は、測定された変数を交絡因子からできる限りクリーンに分離することです。

典型的なデザイン: 自然実験、ランダム化タイミングによるステップウェッジ展開、操作変数分析、エンカレッジメントデザイン。

レベル5 — スター5つ（★★★★★）

介入群と非介入群へのランダムな割り付けを含む実験デザイン、具体的にはRCT（ランダム化比較試験）。介入群と非介入群の割り付け比率は、制御変数の使用を通じたコンタミネーションの程度を検討するために、おおよそ50対50であるべきである。この測定は、適切な差異を表すことができる変数を使用して実施されるべきである。制御変数は、介入対象者の観点からコンタミネーションを検討するために使用されるべきであり、可能な場合はベースライン変数を適切に区別し、必要に応じて統計的調整またはサンプリングに基づく事後層別化を検討する。

レベル5は因果エビデンスのゴールドスタンダードです。参加者は介入条件または対照条件にランダムに割り付けられ、平均的に両群がベースラインにおいて測定済み・未測定の特性の両方において同一であることが保証されます。おおよそ50対50の割り付け比率は統計的検出力を最大化します。コンタミネーション、脱落、コンプライアンスに注意を払って適切に実施されたRCTデザインは、因果的主張のための最も強力な利用可能な根拠を提供します。

典型的なデザイン: RCT（ランダム化比較試験）、クラスターランダム化試験、要因試験。

MUSEにおけるSMSの適用

エビデンスカードがロジックモデルキャンバスのノードにアタッチされると、スター評価がエフェクトカテゴリとともに表示されます。この組み合わせ、すなわち何が起きたか（エフェクトカテゴリ）とどの程度確信できるか（SMSレベル）により、ロジックモデル構築者はエビデンスを適切に重み付けするために必要な情報を得ることができます。

一般的な指針として:

レベル3以上のエビデンスは因果推論の意味のある根拠を提供します。
レベル1または2のエビデンスは仮説を支持し有望な方向を特定するのに役立ちますが、注意して扱うべきです。
レベル0のエビデンスは探索的な目的に最も適しており、まだ実証的エビデンスが存在しない場合に活用できます。