記事タイトル:疫学解析のポイント 


書き込み欄へ  ヘルプ
お名前: 山中 寿   
少し水を差すかもしれませんがご容赦下さい。
統計学的解析により「答えを出す」ために有意か有意でないかを「決める」ことは必要
かもしれませんが、P値は連続量ですし、ひょっとすると事実と虚構だって連続的に変
化するものかもしれません(すべてではありませんが)。当然のことながら、有意であ
るかどうかの判断と、それをdecision makingに使うかどうかの判断は同一ではなく、結
局は、皆が統計学的な知識と意識をもって、N,R,Pという3種類の数値を解釈するのがベ
ストかと思いますが如何でしょう。
標本数が少ない研究ではP<0.05が免罪符的に使用されている場合が多いようですが、
J-ARAMISのように標本数の多い膨大なデータを有意/非有意というアナログ的ひと言で
片づけてしまうのはいかにももったいないのですが。・・・・・・・・・・・・・
[2002年4月28日 9時49分26秒]

お名前: 鎌谷直之   
訂正と追加です。

>従って、私は日本の社会での疫学研究のPは欧米より大きく取ったほうが自己保身のため
だと思います。

Pは欧米より小さく、の間違いです。

>日本に疫学や統計学が根付かないのも、誤りの可能性を含んだ学問が
>け入れがたいのでしょう。

統計学が誤りを含んでいるのではなく、誤りの可能性を推定する。
他の学問は誤りは無いという前提で議論を進めるが、実は誤りが無いという証明は無い。
[2002年4月27日 10時18分36秒]

お名前: 鎌谷直之   
現在の統計の考えでは、タイプIエラーを固定して、タイプIIエラーを最小にするという
手法(Neyman-Pearsonの手法と呼ばれます)が取られますが、この手法による結果が正し
いかどうかということ(どの程度正しいか)は重視されず、これにより行動を変えること
による結果が重視されます。

そこで、行動の結果を考えると、日本と欧米ではかなり違います。

欧米では、積極的な行動で良い結果を生み出せば評価されますが、日本ではそうではあり
ません。欧米では積極的な行動で多少誤りがあったとしても決定的打撃にはなりません。
しかし日本では、以下に良い事をしても、少しの誤りが大きな評価低下につながります。

そのような事を考えると、小規模な研究は確かに信頼性に欠けるが、まさにそのために誤
りを冒しても大した影響は無く、Pは比較的大きくてよい事になります。大規模な研究は
同じタイプIエラーでも検出力は大きく、「もし検出力を固定するとタイプIエラーが小さ
く」信頼できるだけに影響も大きい。従って、もし間違ったときに大きな痛手になる可能
性があります。

従って、私は日本の社会での疫学研究のPは欧米より大きく取ったほうが自己保身のため
だと思います。これは皮肉っていっているのではなく、実際我々の身を守るためのものです。

小さな誤りが痛手になる事を支えているのは、日本で転職ができにくいことです。また、
真実はどうせ外から来るので、日本の中では誤りを冒さない事のほうが大切という気運が
大きいと思います。日本に疫学や統計学が根付かないのも、誤りの可能性を含んだ学問が
受け入れがたいのでしょう。
[2002年4月27日 10時14分10秒]

お名前: 赤真秀人   
久しぶりに盛り上がった話題となりましたね。

統計学的に有意でも医学的に有意義かは個々のドクターが判断すべきことは以前から記載した通
りです。ところで、何が医学的に本当に有意義なのか、を解析前に知ることは難しい、というよ
りできない。できない,知らないから解析するのだけれど、多分、体重500gや血圧1mmHg
の違いだって意味があるんじゃないかと研究者は前もって期待している。ということは、pをい
くつにすべきかは難しいのだろうけれど、0.05で許されるのなら0.05にしようとする。
そして0.05が一般に経験的かもしれないが使われている。やはり0.05で「少なくとも不
適切ではない」。私はそのように考えますし、われながら立派な考えと思いますが・・・・。
[2002年4月27日 9時28分58秒]

お名前: 谷口敦夫   
JLITではP<0.05を有意差があるとしています。この試験の登録は52421例で、日本人高コレ
ステロール血症患者を対象としたコホート研究のデザインおよび背景因子:日本脂質介入
試験、です。このような臨床試験とこの議論はかみ合わないのかもしれませんが。ところ
で、同じシンバスタチンの海外の4444例の検討、あるいは降圧剤の大規模臨床試験ではど
うなのでしょうか?少なくとも医局会の前の薬剤説明会では対象症例が多すぎるのでPは
0.001以下を有意とした、とかは聞きませんよね。大規模臨床試験は海外でも多く行われて
いるので、何らかの見解がすでにあるのではないか、とも思えますが。
[2002年4月26日 22時57分31秒]

お名前: 猪狩勝則   
梶山先生

3000から4000に及ぶサンプルサイズというのはJ-ARAMISにおいては既に規定されてお
り、これを前提とした研究デザインにおいて、自動的にalphaを0.05に設定するのか、言
い換えれば有意な差と認めるP valueは0.05でいいのか、そうでないとしたら基準はどう
決めればいいのかという研究デザインそのものの議論が現在進行中だと認識していま
す。

トライアル的な小サンプルを用いた予備実験ではalphaは0.1でもいいだろうし、
J-ARAMISに基づいた研究の一部は、それをもっていわゆるevidenceに持って行けるほど
の力があるわけで、この場合は例えばalphaを0.0001としてtype I errorを避けることを
重視するといったような研究デザインの話です。

自分で読み返してもどうやら直球の答えになっていませんね。毎度のことながら言葉が
足りずに申し訳ありません。
[2002年4月25日 22時40分11秒]

お名前: 梶山浩   
全くピントの外れた質問かも知れませんが、
エビデンスのlevel分けの際に、まず
大前提として、RCTやcase-control studyとい
った研究のdesignがあって、そこへP valueの
縛りでさらにclassfyするといったような考え
方は無いのでしょうか?
[2002年4月25日 22時1分42秒]

お名前: 猪狩勝則   
今後問題となるのは<そもそもalphaが0.05である必要はないのだという前提>が少なく
とも今の日本の医学界の現状ではコンセンサスが得られたものではないということで
す。事前に設定したalphaが0.001であって、得られた結果がP=0.01だった場合にこれを
<有意な差が得られなかった>と表現してもなかなか受け入れてもらえないであろうこ
とは容易に想像できます。一般にalphaを0.05に固定して考えているからこそ、今回<有
意水準の設定が甘いのはないか>という批判ではなく<母集団が多すぎるから統計学的
有意がすぐ出てしまうので良くない>という批判になったのだと思います。

統計学的に有意な差と医学的に有意な差を近付けるには現状では大きな壁があります
ね。
[2002年4月25日 20時10分5秒]

お名前: 猪狩勝則   
赤真先生、おそらく本質的な立場は変わらないのだと理解しています。

ただ、<P<0.05で、との条件付で「体重と関節破壊は関係している(体重と関節破壊が
無関係とは言えない)」>というのはやはりalphaを0.05に設定していることに他ならな
いと思います。alphaは事前に定めるべきと言う立場で、解析するサンプルが非常に大き
いものであれば、やはり<医学的に意味のある差>とその大きなサンプルサイズに基づ
いてalphaを厳格に定めるべきです。そうでなければ<論理的で誰もを納得させられるよ
うな解析>は実現できないと思います。

ただ現実的には事前に設定すべき<医学的に意味のある差>がどれほどなのかというの
なかなか定義しがたいものがありますので、判断に苦しむ範囲の結果であればこのス
レッドのはじめに述べたようにP値そのものを表現するに留め、それが有意であるか否か
の判断は留保すべきだと思います。

今後<J-ARAMISは臨床的には興味の持てない差を統計的に有意な差があるといって発表
する>という濡れ衣を着せられないためにも、折角の貴重なサンプルサイズはtype I 
errorを減らすために使うべきだと繰り返させていただきます。逆に興味の持てない差に
留まったと表現することでインパクトが生まれる場合も多々あると思っていますがいか
がでしょうか。

言葉足らずな自分に苦しみながらの説明でお読み苦しく申し訳ありません。
[2002年4月25日 19時20分12秒]

お名前: 赤真秀人   
私の意見は猪狩先生と違うようで本質的には変わらないとも思います。

「またそもそもalphaが0.05である必要はないのだという前提はやはりはっきりさせるべき
だと思います。」・・・私もそうです。

<母集団が多すぎるから統計学的有意がすぐ出てしまうので良くない>は明らかに誤り
ですが、今後<有意水準の設定が甘いのはないか>と言われたときにそれを否定できる
だけの言葉は僕にはありません。・・・・私もそうです。

「膝に関節破壊がある群とない群の間で体重が500g違って、それがP<0.05で有意な差で
あった、だから体重は関節破壊に影響すると結論づけることがないような視点は今後J-
ARAMISのデータを取り扱う上で重要なのではないでしょうか。」・・・この点に関しては、あ
くまで私は、今回の解析からP<0.05で、との条件付で「体重と関節破壊は関係している(体重
と関節破壊が無関係とは言えない)」と言って構わない、との立場をとります。
[2002年4月25日 17時59分45秒]

お名前: 猪狩勝則   
書き込みを続けている内に、サンプル数が多いことの最大のメリットはtype I error、
type II errorの双方を確実に減らせることにあるとの強い考えを持つようになってきま
した。
またそもそもalphaが0.05である必要はないのだという前提はやはりはっきりさせるべき
だと思います。その値は研究内容、研究規模で決められるべきものです。
膝に関節破壊がある群とない群の間で体重が500g違って、それがP<0.05で有意な差で
あった、だから体重は関節破壊に影響すると結論づけることがないような視点は今後J-
ARAMISのデータを取り扱う上で重要なのではないでしょうか。
<母集団が多すぎるから統計学的有意がすぐ出てしまうので良くない>は明らかに誤り
ですが、今後<有意水準の設定が甘いのはないか>と言われたときにそれを否定できる
だけの言葉は僕にはありません。
それではどうやって有意水準を設定するのかについては答えを持ち合わせていないので
ちょっと考えてみます。
[2002年4月25日 17時39分24秒]

お名前: 赤真秀人   
「例えば2群間で成人で体重が100g違ったり、血圧が1mmHg違うことに臨床的に意味を
求めることはナンセンスだと思います。」

私も上記は、目の前の患者さんを対象とした場合、ナンセンスなことが多いと思います。しか
し、意味がないとは思えません。担当医が自らの信念に基づいて(大げさかな?)判断すべきこ
とでしょう。

また、あくまで、0.05で区切ることも、不適切とはいえない,と言うのが私の考えです。
まどろっこしい言い方になりますが、appropriate ではなくとも、not inappropriate と考
えます。よって、0.05でもよいのではないか、ただ問題点もあることを認識しておく必要は
あると思います。残念ながら、私は少数意見なのかもしれませんけど。
[2002年4月25日 16時0分11秒]

お名前: 鎌谷直之   
私自身は猪狩先生の意見に全面的に賛成です。

理由は後日書きます。
[2002年4月25日 14時15分41秒]

お名前: 猪狩勝則   
powerをあげる、つまりtype II errorをおこす確率を減少させる上でサンプルサイズが
大きいことは善である、ということには全面的に賛成、全く異論はありません。

しかしalphaの設定が0.05であることが適切であると無制限に認める気にはやはりなれま
せん。医学的に有意な差があることが分かっている2つの母集団からランダムにサンプル
を選択した場合、抽出するサンプルサイズが小さければ統計学的な差は有意ではなくな
るし、サンプル数が大きければ統計学的に有意な差が得られます。つまりサンプルサイ
ズが大きいことは善です。しかし医学的に有意な差ではないが、わずかな差は存在する
ことが分かっている2つの母集団を大きなサンプルサイズで検討した場合に、その医学的
に意味のないわずかな差を統計学的に有意な差としてしまうということも考えられま
す。例えば2群間で成人で体重が100g違ったり、血圧が1mmHg違うことに臨床的に意味を
求めることはナンセンスだと思います。
J-ARAMISほどのサンプルサイズが大きい場合には事前にalphaの設定を厳しくしておかな
いと上記のような事態に陥る可能性があると思います。鎌谷先生のおっしゃるようにPは
一定でいいのですが少なくともその値は0.05ではなく、もっと厳しくあるべきだと思い
ます。せっかく大きなサンプルサイズを誇るのですから、それを0.05の有意水準で小さ
な差を検出するのに使うのではなくtype I errorを減らす方向で使うべきだと思いま
す。いかがでしょう。
[2002年4月25日 14時9分47秒]

お名前: 赤真秀人   
書きこんで、画面を更新してから気づきました。鎌谷先生がすでに答えられておりました。とい
っても、鎌谷先生のコメントは私にも良く理解できませんが・・・・。
[2002年4月24日 22時39分46秒]

お名前: 赤真秀人   
nが大きくなれば、ベータエラーが小さくなる,パワーが増すわけです。

nが大きいから意味がない、と主張する人は、臨床試験(治験)の意味付けも理解できていない
悲しい?人と私は思います。そのような人は、nが大きいために得られた結果だからとして、血
圧が少々高くても、コレステロールが少々高くても、高脂血症用薬や降圧薬を絶対に使わないの
でしょうか。EBM的、疫学的,統計学的思考を頭から否定するのであれば,それはそれで立派な
考えなのかもしれません。私はEBMを否定するドクターがいても、それはそれで構わないと思っ
ています(ただし、ある程度、理解した上で否定したいのであればの話です)。上記は、とても
理解した上での批判,質問とは思えませんが・・・・。

ただし、nが大きいから出たのであろう統計上での結果を、どのように実際の臨床の場で反映さ
せるのかは、個々のドクターの判断ですから、いろいろな考えがあって当然ですし、その点は
我々も常に心すべきことではありましょう。

猪狩先生のご意見ももっともなのでしょうが、どこかで区切る必要があり、0.05が適切でな
い、とは言えないと思います。少なくとも、nが大きい場合でも0.05とすることが不適切で
はない、というのが私の見解です。
[2002年4月24日 22時34分46秒]

お名前: 鎌谷直之   
猪狩先生の質問には長い答えが必要です。

Pを一定にするか、可変にするかについてはフィッシャーとネイマン、ワルドで意見が違
います。フィッシャーはPの大きさによって仮説の支持される程度が違うと考えます。
ネイマンはPは最初から決めるべきで途中で変えるべきでないと考えます。現在ではこち
らのほうが主流です。

それで正しい結論に達する事ができるのかという問いに対しては、統計的仮説検定とは、
それによって行動を決める手段に過ぎない、と考えます。最初から決めたPを満足するか
どうかで行動を変化させ、それにより成功する確率を考えるべきとネイマンは考えます。

医療に関する統計も、その結果により医療の行動を変える手段にすぎない「すぎないと
いっても一番大切なことだけど」と考えるべきでしょう。

サンプル数が多ければ多いほど結論は正しいというのは統計学の常識です。

しかし、差が小さくてもサンプルが大きければ有意性が出やすいというのは事実です。
しかし、それはそれが正しいからそうなるのであって、少ないサンプルでは正しい事でも
見逃してしまうのです。

日本人はデータによって行動を変えるという習慣が無く、そのためデータによってなんら
かの結論を出す事が嫌いだと思います。
[2002年4月24日 21時42分33秒]

お名前: 猪狩勝則   
山中先生
統計解析をする意義は標本から母集団を推定することにあるわけですから、標本数をで
きるだけ母集団に近付ける意味は非常に大きいと思います。J-ARAMISの標本数が評価さ
れることはあっても否定されることには何の根拠もないし、誤りでしかありません。今
後さらにJ-ARAMISの存在の意味は大きくなると思います。
ただし、比で表現する解析にはもちろん何の問題もないわけですが、nに依存するP 
valueの意味付けでは、4000ものnを使って有意水準の設定が昔ながらのP<0.05というの
では問題があるのではないかと、私はJ-ARAMISの解析を始めた当初から考えていました
(実際山中先生のおっしゃる古谷先生の御発表ではその辺りを有意となさっておりまし
た)。そもそもP<0.05すなわち有意ということ自体の根拠が不明確だと認識しておりま
すが如何でしたでしょうか?。今後どのラインをもって有意とするのかについては議論
の必要があると思いますし、鎌谷先生に教えていただきたいと思います。連続値であるP
をデジタルに有意と有意でないの二つにわけること自体にも問題があって、微妙なとこ
ろはP値そのものを表現するに留まり、それが有意であるのか否かはさらに検討が必要だ
と思います。
[2002年4月24日 14時1分18秒]

お名前: 古谷   
鎌谷先生 勉強になりました。今後の解析に生かしたいと重います。
[2002年4月24日 11時50分46秒]

お名前: 山中 寿   
私は直接聞けなかったのですが、今日のリウマチ学会の古谷先生の骨折に関する発表
で、母集団が多すぎるから統計学的有意がすぐ出てしまうので良くない、等という発現
があったようです。「ソーダソーダ」という声も聞きます。私はとんでもないと思うの
ですが、こういう発言に何らかの科学的意義はありますか?皆さまの意見を聞きたいと
思います。
[2002年4月22日 12時33分2秒]

お名前: 鎌谷直之   
Incidenceとprevalenceの関係について解説。

「生きる」ことはprevalenceで、「死ぬ」ことはincidenceだといいましたよね。

今、生きている数、即ち人口を集団A,Bで数えたとします。
そして、Aの人口がBよりはるかに大きかった。
これで何が言えるでしょう。

出生率がA>B?

もちろんそれも関係するでしょう。しかし、寿命が関係しますよね。
出生率が同じでも、寿命がAの方が長ければ人口はA>Bとなります。

従って、人口(prevalence)は、出生率(incidence)と寿命(duration)が
関係している事がわかります。

prevalence=incidence x duration

従って、人口だけ見たのではA, Bの本質を比べられない。
出生率がA=Bであれば、寿命の違いが人口の違いに影響していると考えられる。
出生率がA>Bであれば、出生率が関係していると考えられる。

以上のように、prevalenceの比較により本質的な違いを言う事はむずかしい。
Incidenceがわかればprevalenceからdurationの違いも検討できます。
[2002年4月22日 8時15分26秒]

お名前: 山中 寿   
実際の事例を解析してはじめていろんなことがわかってきたように思います。
J-ARAMISデータを使う方は、論理的で誰もを納得させられるような解析をお願いしま
す。
なお、個人情報に関してのデータの取り扱いには十分注意して下さい。
[2002年4月20日 15時3分54秒]

お名前: 鎌谷直之   
疫学解析のポイントは

1. インシデンスとプリバレンスを明確に区別すること。

2. 発症頻度は(発症した数)/(発症するリスクのあった人の数)
特に分母が大切。発症頻度を比較するときは、この分母がそろっているかが大切。

3. コホート研究とcase-control研究の違いの本質は、
exposed-unexposed、と疾患発症あり-なしとの関係。
コホートでは、exposedとunexposedの集団で疾患の発症のあるなしを見て、比べる。
case-controlでは発症した集団と発症しなかった集団で、exposed, unexposedの割合を
比べる。

J-ARAMISはコホートですから、発症のあるなしで、exposed-unexposedの違いを検討
するのは本質的におかしい。Exposed-unexposedの違いで発症のあるなしを比較すべ
き。

例えば、薬物Aの服用ある無しの二つのグループで骨折のインシデンスを比較するのが正し
い。
骨折のあるなしで、薬物Aの服用のあるなしを比べるべきではない。


また、J-ARAMISのデータを他の集団のデータと比較するときには分母である、at risk集
団の同質性が必要。特に、年齢補正は必ず行う必要があることが多い。ただし、年齢でイ
ンシデンスに差が無いという証拠があれば別。また男女補正も行ったほうが良い。ただ
し、性別でインシデンスに差がないという証拠があれば別。
[2002年4月19日 20時22分34秒]

このテーマについての発言をどうぞ。
氏名
E-mail URL
※ 書き込みはご自分がいれた改行+カラム端でも自動改行されます。

半角カナは使用しないようにしてください。文字化けします。
記事一覧に戻る