← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

臨床試験は「処置の効果をどう測り(効果量)」「何人集めれば検出できるか(必要標本数)」「同じ人を繰り返し測ってどう誤差を減らすか(反復測定)」「途中で抜けた人をどう扱うか(脱落・欠測)」の4つで設計が決まります。ここはその4本柱を、必要標本数の式の導出と反復測定の誤差分離の仕組みまで踏み込んで整理します。

1級(統計応用・医薬生物学)では必要標本数の計算・反復測定の誤差分離と球面性・LOCFの問題点が標準的に問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  ROOT["臨床試験の設計・解析"] --> EFF["処置効果の指標<br/>群間差 Δ / 効果量 d=Δ/σ"]
  ROOT --> SS["必要標本数の設計<br/>α・1-β・効果量から逆算"]
  ROOT --> RM["反復測定<br/>同一被験者を繰り返し測る"]
  ROOT --> MISS["脱落・欠測<br/>経時データで途中離脱"]
  SS --> SSF["n≈2(z_α/2+z_β)²σ²/Δ²<br/>検定力分析"]
  RM --> RMW["被験者間変動を分離<br/>→誤差分散が縮み検出力↑"]
  RMW --> SPH["球面性の仮定<br/>Mauchly検定→GG補正"]
  MISS --> LOCF["LOCF は常に保守的ではない"]
  MISS --> CO["クロスオーバー試験<br/>持ち越し効果"]

1. 処置効果の指標 — 群間差と効果量

1.1 生の群間差

最も素朴な処置効果は、処置群と対照群の平均の差です。

Δ=μTμC\Delta = \mu_T - \mu_C

要するに「処置群の平均から対照群の平均を引いた、効果の大きさそのもの」。血圧なら mmHg、検査値なら測定単位そのままで出ます。臨床的に「何 mmHg 下がったか」を語るときはこれが主役です。

ただし生の差には弱点があります。単位に依存するため、測定の尺度が違う研究どうしを比べられないこと、そして「その差がばらつきに対して大きいのか小さいのか」が分からないことです。差が 5 mmHg でも、個人差の標準偏差が 2 mmHg なら大きいですが、20 mmHg なら埋もれています。

1.2 標準化平均差(効果量)

そこで群間差を標準偏差で割り、単位を消したものが標準化平均差(standardized mean difference)、いわゆる**効果量(effect size)**です。2群が共通の標準偏差 σ\sigma を持つと仮定すると

d=μTμCσ=Δσd = \frac{\mu_T - \mu_C}{\sigma} = \frac{\Delta}{\sigma}

要するに「効果を『標準偏差何個ぶんの差か』で表したもの」。d=0.5d=0.5 なら「平均が標準偏差の半分ぶんずれている」という意味で、測定単位が何であれ同じ尺度で語れます。Cohen は目安として d=0.2d=0.2 を小、0.50.5 を中、0.80.8 を大としましたが、これはあくまで分野横断の経験則で領域によって解釈は変わる点に注意してください。

効果量が重要なのは、次節の検定力分析の入力になるからです。必要標本数を決めるとき、検定が拾うべき効果の大きさを単位に依存しない d=Δ/σd=\Delta/\sigma の形で与えると、計算が一般化されます。

⚠️ 効果量(効果の大きさ)と pp 値(有意かどうか)は別物です。標本が巨大なら、臨床的に無意味な小さい dd でも p<0.05p<0.05 になります。「有意 = 効果が大きい」ではありません。1級では「統計的有意性と効果量の区別」がしばしば問われます。


2. 必要標本数の設計(検定力分析)

2.1 4つの量は互いに縛られている

検定の設計には4つの量が登場し、そのうち3つを決めると残り1つが自動的に決まるという関係があります。

記号役割
有意水準α\alpha第一種過誤(効果が無いのに有るとする)の確率。通常 0.05
検出力1β1-\beta効果が有るときに正しく検出する確率。通常 0.8〜0.9
効果量Δ/σ\Delta/\sigma拾いたい効果の大きさ(標準化平均差)
標本数nn各群のサンプルサイズ

サンプルサイズ設計とは、α\alpha1β1-\beta・効果量を先に決め、必要な nn を逆算する作業です。これを**検定力分析(power analysis)**と呼びます。α\alpha1β1-\beta の意味は 第一種の過誤・第二種の過誤・検出力(2種類の誤りとトレードオフ・サンプルサイズ設計) の延長なので、過誤と検出力の関係が曖昧ならそちらを先に押さえてください。

2.2 必要標本数の公式の導出

2群の平均比較(各群 nn 例、母分散 σ2\sigma^2 既知、両側検定)で必要数を導きます。検定統計量は2群の平均の差

XˉTXˉC\bar X_T - \bar X_C

です。各群の平均の分散は σ2/n\sigma^2/n なので、差の分散は σ2n+σ2n=2σ2n\dfrac{\sigma^2}{n}+\dfrac{\sigma^2}{n}=\dfrac{2\sigma^2}{n}。したがって差の標準誤差は

SE=2σ2n\mathrm{SE} = \sqrt{\frac{2\sigma^2}{n}}

です。要するに「2群ぶんの平均のばらつきが足し合わさるので、分散に係数2が付く」。これがあとで公式の分子に出る「2」の出どころです。

帰無仮説 H0:Δ=0H_0:\Delta=0 のもとでの棄却境界. 標準化した統計量 Z=(XˉTXˉC)/SEZ=(\bar X_T-\bar X_C)/\mathrm{SE}H0H_0 のもとで標準正規分布に従います。両側で有意水準 α\alpha なら、Z>zα/2|Z|>z_{\alpha/2} で棄却。境界を差の単位に戻すと、棄却される差の大きさは

XˉTXˉC>zα/2SE|\bar X_T-\bar X_C| > z_{\alpha/2}\cdot \mathrm{SE}

です。

対立仮説 H1:Δ=μTμCH_1:\Delta=\mu_T-\mu_C のもとでの検出力. 真の差が Δ(>0)\Delta(>0) のとき、XˉTXˉC\bar X_T-\bar X_C は平均 Δ\Delta・標準誤差 SE\mathrm{SE} の正規分布に従います。検出力 1β1-\beta を確保する条件は「この対立仮説の分布から見て、棄却境界 zα/2SEz_{\alpha/2}\mathrm{SE} を超える確率が 1β1-\beta 以上」です。下側の取りこぼし(第二種過誤)を β\beta に抑えるには、棄却境界が対立分布の下側 zβz_\beta 点よりも左になければなりません。式で書くと

zα/2SE棄却境界  =  ΔzβSE対立分布の下側 zβ 点\underbrace{z_{\alpha/2}\cdot \mathrm{SE}}_{\text{棄却境界}} \;=\; \underbrace{\Delta - z_\beta\cdot \mathrm{SE}}_{\text{対立分布の下側 }z_\beta\text{ 点}}
graph LR
  H0["H0 の分布<br/>平均 0"] -->|境界 z_α/2·SE より右で棄却| CUT["棄却境界"]
  H1["H1 の分布<br/>平均 Δ"] -->|境界より右に入る確率 = 検出力 1-β| CUT
  CUT --> COND["境界 = Δ − z_β·SE<br/>→ Δ = (z_α/2 + z_β)·SE"]

要するに「ゼロを中心とした帰無分布の棄却境界と、Δ\Delta を中心とした対立分布の『β\beta だけ取りこぼす点』を、ちょうど一致させる」。この一致条件が必要標本数を決めます。SE\mathrm{SE} を左辺にまとめると

Δ=(zα/2+zβ)SE=(zα/2+zβ)2σ2n\Delta = (z_{\alpha/2}+z_\beta)\cdot \mathrm{SE} = (z_{\alpha/2}+z_\beta)\sqrt{\frac{2\sigma^2}{n}}

要するに「検出したい差 Δ\Delta は、2つの zz 値の和ぶんの標準誤差に等しい」。両辺を二乗して nn について解きます。

Δ2=(zα/2+zβ)22σ2n  n2(zα/2+zβ)2σ2Δ2=2(zα/2+zβ)2(Δ/σ)2  \Delta^2 = (z_{\alpha/2}+z_\beta)^2\cdot \frac{2\sigma^2}{n} \quad\Longrightarrow\quad \boxed{\;n \approx \frac{2(z_{\alpha/2}+z_\beta)^2\,\sigma^2}{\Delta^2} = \frac{2(z_{\alpha/2}+z_\beta)^2}{(\Delta/\sigma)^2}\;}

これが2群平均比較の必要標本数(各群あたり)です。右の形は分母が効果量 d=Δ/σd=\Delta/\sigma の二乗で、必要数は効果量の二乗に反比例することを示します。

各記号が必要数をどう動かすかを読み取ります。

⚠️ この式は母分散既知・正規近似の場合です。σ\sigma が未知で tt 検定を使う実務では、自由度のぶん少し多めになり、ソフトは反復計算で補正します。試験では「概算の式と、各項が必要数に与える向き」を問われることが多いので、**式の形と感度(Δ\Delta を半分で4倍など)**を押さえるのが先決です。

2.3 数値例

α=0.05\alpha=0.05(両側、zα/2=1.96z_{\alpha/2}=1.96)、検出力 0.80.8zβ=0.84z_\beta=0.84)で、標準偏差ぶんの差 d=Δ/σ=0.5d=\Delta/\sigma=0.5 を検出したいとします。

n2(1.96+0.84)20.52=2×2.820.25=2×7.840.2563n \approx \frac{2(1.96+0.84)^2}{0.5^2} = \frac{2\times 2.8^2}{0.25} = \frac{2\times 7.84}{0.25} \approx 63

各群およそ 63 例(合計 126 例)です。検出力を 0.90.9 に上げる(zβ=1.28z_\beta=1.28)と分子が (1.96+1.28)2=10.5(1.96+1.28)^2=10.5 に増え、各群およそ 84 例に膨らみます。検出力を欲張るほど被験者が要ることが数字で見えます。


3. 反復測定分散分析(repeated measures ANOVA)

3.1 同一被験者を繰り返し測る設計

反復測定とは、同じ被験者を複数の条件・時点で繰り返し測る設計です。例:同一患者の血圧を投与前・1週後・2週後・4週後に測る。各被験者から複数の値が出るので、ふつうの一元配置分散分析(分散分析の独立群の比較)はそのまま使えません。値どうしが「同じ人」を通して相関するからです。

反復測定の最大のうまみは、被験者ごとの個人差を分離して誤差から取り除けることです。これが検出力を押し上げます。

3.2 なぜ誤差分散が小さくなるのか(平方和の分解)

独立群の一元配置では、全変動を「群間変動」と「群内変動(=誤差)」に分けます。群内変動には被験者ごとの個人差がまるごと含まれています。人によって血圧の水準がもともと高い・低いという差が、全部「誤差」に放り込まれるのです。

反復測定では、同じ人を繰り返し測るおかげで、この個人差を被験者間変動として独立に取り出せます。全平方和の分解は概念的に次のようになります。

SS全変動=SS被験者間人ごとの水準差+SS条件時点・処置の効果(知りたい)+SS誤差残り(被験者×条件の交互作用)\underbrace{SS_{\text{全}}}_{\text{全変動}} = \underbrace{SS_{\text{被験者間}}}_{\text{人ごとの水準差}} + \underbrace{SS_{\text{条件}}}_{\text{時点・処置の効果(知りたい)}} + \underbrace{SS_{\text{誤差}}}_{\text{残り(被験者×条件の交互作用)}}

要するに「独立群では『個人差+本当の誤差』を一括して誤差にしていたのを、反復測定では個人差を別枠にくくり出し、誤差から差し引く」。条件の効果を検定するときの FF 統計量は

F=MS条件MS誤差F = \frac{MS_{\text{条件}}}{MS_{\text{誤差}}}

で、分母の MS誤差MS_{\text{誤差}} から被験者間変動が抜けたぶん小さくなるため、同じ効果でも FF が大きくなり、検出力が上がるわけです。これが「対応のあるデータは検出力が高い」と言われる正体で、対応のある tt 検定が差の系列の分散だけを使うのと同じ理屈です。

graph TD
  TOTAL["全変動 SS_全"] --> BETWEEN["被験者間変動<br/>人ごとの水準差<br/>→ 誤差から分離して除去"]
  TOTAL --> WITHIN["被験者内変動"]
  WITHIN --> COND["条件変動 SS_条件<br/>(知りたい効果)"]
  WITHIN --> ERR["誤差 SS_誤差<br/>= 被験者×条件<br/>個人差が抜けて小さい"]
  COND --> F["F = MS_条件 / MS_誤差<br/>分母が小さい→検出力↑"]
  ERR --> F

3.3 球面性(sphericity)の仮定

被験者間変動を分離した代償として、反復測定 ANOVA には**球面性(sphericity)**という固有の仮定が付きます。

球面性とは:すべての条件ペアについて、差の分散が等しいこと。例えば条件A・B・Cがあるとき、V(AB)=V(AC)=V(BC)V(A-B)=V(A-C)=V(B-C) が成り立つことです。やや一般的には、直交対比行列 CC を使って母共分散行列 Σ\Sigma

CΣC=λIC'\Sigma C = \lambda I

を満たすこと(変換後の共分散が等分散・無相関)と書けます。要するに「どの2条件をとっても、その差のばらつきが同じ」という条件です。

球面性より強い十分条件として複合対称性(compound symmetry)——全条件の分散が等しく、かつ任意の2条件間の相関がすべて等しい——があります。複合対称性が成り立てば球面性も成り立ちますが、逆は必ずしも成りません。反復測定 ANOVA の FF 検定が要求するのは球面性の方です。

なぜ重要か:球面性が崩れると、FF 統計量が本来より大きめに出て、第一種過誤の確率が名目の α\alpha より膨らむ(検定が甘くなる)。つまり「効果が無いのに有意」と誤判定しやすくなります。

3.4 Mauchly 検定と Greenhouse-Geisser 補正

flowchart TD
  START["反復測定 ANOVA を行いたい"] --> MAUCHLY["Mauchly の球面性検定"]
  MAUCHLY -->|p ≥ 0.05<br/>球面性を棄却しない| OK["通常の F 検定<br/>そのまま使う"]
  MAUCHLY -->|p < 0.05<br/>球面性が崩れている| EPS["ε(球面性からのズレ)を推定"]
  EPS --> GG["Greenhouse-Geisser 補正<br/>自由度に ε を掛けて縮める"]
  GG --> FTEST["縮めた自由度で F 検定<br/>→ 第一種過誤を名目αに戻す"]

Mauchly の球面性検定:球面性が成り立つかを検定します。帰無仮説は「球面性が成り立つ」。p<0.05p<0.05 で棄却されたら球面性が崩れている疑い、というのが基本の読み方です。

Greenhouse-Geisser 補正:球面性が崩れているとき、FF 検定の自由度に補正係数 ε\varepsilon(イプシロン)を掛けて縮めることで、過大な FF を適正化します。ε\varepsilon は球面性が完全なら 1、崩れるほど小さくなる量で、自由度を ε\varepsilon 倍した(分子・分母とも)うえで FF 分布の臨界値を読み直します。自由度が減ると臨界値が上がるので検定が厳しくなり、膨らんだ第一種過誤が名目の α\alpha に戻ります。

関連する補正に Huynh-Feldt 補正があり、ε\varepsilon が大きめ(おおむね 0.75 超)のとき Greenhouse-Geisser より偏りが小さいとされます。逆に ε\varepsilon が小さいときは Greenhouse-Geisser の方が無難、という使い分けが一般的です(この使い分けの目安は文献・ソフトで揺れがあるため要最新確認)。

⚠️ Mauchly 検定には弱点があります。小標本では球面性の崩れを見逃しやすく、大標本では些細な崩れも棄却しやすい(検出力が標本サイズに振り回される)。このため「Mauchly が有意でなくても、初めから Greenhouse-Geisser 補正を使う」「混合モデルで相関構造を直接モデル化する」という実務的立場もあります(競合リスク・線形混合モデル の線形混合モデルが代替の主役)。


4. 経時測定データと脱落・欠測

4.1 縦断データと脱落

同一被験者を時間軸に沿って繰り返し測るデータを経時測定データ(縦断データ・longitudinal data)と呼びます。反復測定 ANOVA はその解析の一つです。経時測定で避けられないのが脱落(dropout)——副作用・転居・効果不満などで被験者が途中で離脱し、以降が**欠測(missing)**になる現象です。

欠測の発生メカニズム(MCAR / MAR / MNAR)の分類は 欠測データ・EMアルゴリズム と共通です。臨床試験で深刻なのは、脱落が結果に依存して起きる(例:効かない人ほど抜ける)MNAR・MAR の場合で、これを素朴に埋めると結論が歪みます。

4.2 LOCF(最終観測値繰越法)とそのバイアス

LOCF(Last Observation Carried Forward, 最終観測値繰越法)は、脱落した被験者の欠測をその人の最後に観測された値で埋める単純な方法です。「最後に測れた値が以降もずっと続いた」と仮定して全員を最終時点まで埋め、解析します。かつて臨床試験で広く使われました。

よくある誤解:「LOCF は保守的(効果を控えめに見積もる)から安全」——これは誤りです。LOCF が保守的になる向きは限られていて、むしろ効果を過大に見せることもあります。

決定的な反例が進行性に悪化する疾患(アルツハイマー病など)です。この種の疾患では、治療の目的は「悪化をできるだけ遅らせる」ことで、放っておけば被験者の値は時間とともに悪化していきます。ここでプラセボ群の方が早く脱落する(効果がないので脱落しやすい)と何が起きるか。

結果として、本来は実薬が優れているのに、LOCF だとプラセボが実薬に並ぶ・上回るように見えてしまう——効果を過小評価する向きのバイアスです。逆に、改善していく疾患で実薬群が早く脱落すれば効果を過大評価しえます。バイアスの向きは脱落のタイミングと結果の時間変化の組み合わせで決まり、一律に保守的とは言えないのがポイントです。

加えて LOCF には統計的な欠点があります。観測されていない値を観測されたかのように扱うため、欠測が持つ不確実性を無視し、標準誤差を過小評価して信頼区間を不当に狭めます。

graph TD
  DIS["進行性に悪化する疾患<br/>放置すると値は悪化"] --> DROP["プラセボが早く脱落"]
  DROP --> CARRY["プラセボは悪化前の良い値を繰り越し"]
  CARRY --> BIAS["プラセボが実薬に並ぶ・上回って見える<br/>→ 効果を過小評価(保守的でない)"]
  DIS2["改善していく疾患"] --> DROP2["実薬が早く脱落"]
  DROP2 --> BIAS2["効果を過大評価しうる"]

こうした問題から、現在のガイドラインは LOCF を推奨せず、欠測の不確実性を反映する手法(混合効果モデルによる反復測定 MMRM、多重代入法など)と、何を推定したいかを明示する estimand の枠組みへ移行しています(ガイドラインの内容は改訂が続くため要最新確認)。

4.3 クロスオーバー試験と持ち越し効果

クロスオーバー試験(crossover trial)は、同一被験者に期を分けて複数の処置を順に与える設計です。例:第I期に実薬→第II期にプラセボ(別の被験者は逆順)。各被験者が自分自身の対照になるため、被験者間の個人差が大きく相殺され、並行群間比較より少ない人数で効率的に効果を測れます(反復測定の利点と同じ理屈)。

最大の前提は持ち越し効果(carryover effect)がないこと——第I期の処置の影響が第II期にまで残ると、第II期の結果が前の処置に汚染され、処置の比較が崩れます。これを防ぐため、期と期の間にウォッシュアウト期間(washout period)——処置を行わず前の効果が抜けるのを待つ期間——を設けます。

要するに「クロスオーバーは個人差を消して効率的だが、持ち越し効果が残ると台無しになる。だからウォッシュアウトで前の処置を抜く」。効果が長く残る薬や不可逆な処置(治癒してしまう・後戻りできない介入)にはクロスオーバーは向きません。


5. 試験での問われ方(1級)

医薬生物学分野での1級の典型的な問われ方を、論点ごとに整理します(出題範囲・配点は要最新確認)。


6. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 必要標本数の式に「2」が付くのはなぜですか? 1標本のときと何が違うのですか?

2群を比較するからです。検定統計量は2群の平均の差 XˉTXˉC\bar X_T-\bar X_C で、独立な2つの平均のばらつきが足し合わさるため、差の分散は σ2/n+σ2/n=2σ2/n\sigma^2/n+\sigma^2/n=2\sigma^2/n になります。この「2」が標準誤差を通じて最終式の分子に残ります。一方、1つの群の平均を既知の基準値と比べる1標本設計では、ばらつきは1群ぶん σ2/n\sigma^2/n だけなので係数2は付かず、必要数はおよそ半分になります。2群比較のつもりで1標本の式を使うと必要数を過小に見積もるので、「何と何を比べる設計か」を最初に確認してください。

Q2. なぜ反復測定(同じ人を繰り返し測る)と検出力が上がるのですか?

人ごとの個人差を誤差から追い出せるからです。独立群の比較では、もともと値が高い人・低い人という個人差が全部「誤差(群内変動)」に放り込まれ、分母を膨らませて FF を小さくします。反復測定では同じ人を繰り返し測るので、その個人差を被験者間変動として別枠に取り出し、誤差から差し引けます。F=MS条件/MS誤差F=MS_{\text{条件}}/MS_{\text{誤差}} の分母が小さくなるぶん、同じ効果でも FF が大きくなり有意になりやすい——これが検出力の向上です。対応のある tt 検定が「差」の系列だけを見て個人の水準差をキャンセルするのと、まったく同じ理屈です。

Q3. 球面性の仮定が崩れると、なぜ検定が甘くなる(第一種過誤が増える)のですか?

FF 検定が前提する誤差の分散構造(どの条件ペアの差も同じばらつき)が崩れると、実際の誤差の自由度が見かけより少ないのに、FF 統計量は名目の自由度で評価されてしまいます。結果として FF が本来より大きめに出て、FF 分布の臨界値を超えやすくなる——つまり「効果が無いのに有意」と判定する確率(第一種過誤)が名目の α\alpha より膨らみます。Greenhouse-Geisser 補正はこのズレを、自由度に ε(1)\varepsilon(\le 1) を掛けて縮めることで補います。自由度が減ると臨界値が上がり検定が厳しくなるので、膨らんだ過誤が α\alpha に戻る、という仕組みです。

Q4. LOCF が保守的だと言われることもあります。結局どっちなのですか?

「保守的になる場合もあるが、常にではない」が正確な答えです。LOCF が保守的(効果を控えめに見せる)になるのは、たとえば実薬群が時間とともに改善し続ける状況で脱落が起きると、改善途中の値で止まるため効果が頭打ちに見える、といったケースです。しかし反対に、進行性に悪化する疾患でプラセボが早く脱落すると、プラセボの悪化前の良い値が繰り越されてプラセボが良く見え、効果を過小評価します(実薬が不当に見劣りする)。どちらに転ぶかは「脱落が早いのはどちらの群か」「結果は時間とともに良くなるのか悪くなるのか」の組み合わせ次第で、一律に保守的とは言えません。だから現在は LOCF を避け、欠測の不確実性を反映する手法へ移るのが主流です。

Q5. クロスオーバー試験は個人差を消せて効率的なら、いつも使えばいいのでは?

使えない場面があります。クロスオーバーの大前提は「前の処置の影響が次の期に残らない(持ち越し効果がない)」ことです。効果が長く続く薬、体に不可逆な変化を起こす介入(治癒してしまう手術や、後戻りできない処置)では、第I期の効果が第II期に残るか、そもそも同じ被験者を元の状態に戻せず、処置の比較が成立しません。ウォッシュアウト期間を置いても抜けきらない場合は使えません。また試験期間が長くなる・途中脱落の影響が大きいという難点もあります。「個人差を消せる効率の良さ」と「持ち越し効果という制約」のトレードオフで、適用可否を判断します。

Q6. 検出力分析で使う効果量 d=Δ/σd=\Delta/\sigmaσ\sigmaΔ\Delta は、試験前にどう決めるのですか?

設計時には真の値が分からないので、外部情報から「想定値」を置きます。Δ\Delta(検出したい差)は臨床的に意味のある最小の差を専門知識で決め(例:この疾患では血圧を 5 mmHg 下げれば臨床的に価値がある)、σ\sigma先行研究・予備試験(パイロット)の標準偏差から見積もります。ここが検定力分析の弱点で、想定 σ\sigma が実際より小さいと必要数が足りず検出力不足に陥ります。だから設計段階では σ\sigma をやや大きめに見るか、複数のシナリオで必要数を出す感度分析が実務では行われます。試験では Δ\Deltaσ\sigma(または効果量)が与えられるので計算に集中できますが、「これらは設計時の想定値である」という前提は理解しておくべきです。


まとめ


関連ノート