書き込み欄へ
ヘルプ
お名前: 鎌谷直之
1/6/01
午前の最初のセッションは自然言語の解釈のアルゴリズムについて。
Medlineの文献から望む部分を自動的にまとめるプログラムを作成しているようである。
しかし、なかなかむずかしい部分が多いようである。
次は、ゲノムと代謝経路との関係について、シミュレーションを主体とする発表がなされて
いた。特にDNA microarrayのデータから、ある遺伝子が転写されると、別の遺伝子が
転写されたり、抑えられたりするはず。それをデータに合うようにモデルを作っている段階
のようだ。
最初のHarteminkと言う人は最尤法を使って、モデルの適否を評価することを行っている。
Baysian network modelという名前で、得られたデータで仮説の評価をする方法のようだ。
図にかけるようなモデルを複数作って、データからどちらがすぐれているかを評価する。
これまでの決定論的な解析から確率論をいれたところが新しい。
次のMakiという人は確率論は使わずに、微分方程式で系を作っていた。このように日本人
とアメリカ人の大きな違いは決定論的な解析と確率論的な解析の違いが一番大きいようだ。
次は色々の遺伝ネットワークモデルをシミュレーションで評価する研究。線形モデル、非線形
モデルなどをこれで評価する。評価の尺度はroboustness, consistency etc..
線形モデルが意外とパワーが高い。非線形もでるは訓練が困難。Arkin's modelがいろんな
点からすぐれているというが、これが具体的にどのようなものかはわからなかった。
次は、栄養素をいれたときに系がどのような反応をするかのシミュレーション。
我々を納得させるには実際のデータとの対比がまだ必要であろう。
次は観察データからの逆エンジニアリングという題のもの。モデルを構成して、
それをプログラムの形で可変にしておいて、実際データを入力し、それに
合うようにプログラムを進化させるというアイデア。
コンピュータの世界でも、プログラムをコンピュータの中で進化させるというアイデアがあって、
私も昔、進化するプログラムの実験を行ったことがある。この時問題なのは、暴走して
しまうことである。そこで、常に暴走を監視するシステムが必要である。また、突然変異を
起こしたプログラムと元のプログラムのどちらがすぐれているかをどのように判定するか、
である。このあたりにはまだ改善の余地があると思った。
[2001年1月7日 14時22分18秒]
お名前: 鎌谷直之
講演はたんぱく質のアミノ酸配列から立体構造を予測するプログラムがどれくらい正確か
の講演があった。まだ、正確に予測するには程遠いようである。
ポスターセッションがあった。
ものすごくたくさんの発表があったので、思い出したものから紹介したい。
DNA microarrayのデータに関する発表が一番多かった。
やはりかなりデータがばらついて、特に発現が多い遺伝子以外は信頼
性に乏しいという発表や、先日Cancer細胞と正常細胞で発現パターンが
違って、予後も予測できるという発表があったが、信頼性に乏しいという
発表があった。
DNA microarrayをゲノムと思っている人がいると思うけど、あれはゲノム
ではないんだよね。だから、世代を超えて安定なものではない。信頼性に
保証が置けないのは当然だと思うけど。
ゲノムの次はプロテオームだとかシステムだとかはやらせようとするひと
がいるけど、ゲノムが重要なのは新しいからでも、データが豊富だからでも
無いと思う。個体と個体のつながり、生物のすべての現象の基礎がゲノムだ
から重要だと思う。
発表では、連鎖解析でSNPのエラーがあるとき、タイプ1エラーをILINKで
推定できるという発表があった。ILINKの対応表にエラーを書きこむことで
できるらしい。
また、相関解析でQTLを行うときのパワーに関する発表があった。ANOVAを
用いるとパワーは低く、Mann-WhitenyやKW (省略しない形は忘れた)が
パワーが高いという。ぱらめとりっくでやるともっとパワーは高いと思うが
もちろんタイプ1エラーが増えると思う。
そのほかに、新しいクラスタリング法や系統樹を作る方法、DNA microarray
のデータをまとめるソフトウェア、その他もろもろがあった。
結構面白かったのは、SNPデータがあるときと無いときで、治験のパワーの
シミュレーションをやった研究があった。色々パラメータに不明のものがあるが
SNPデータを入れることでパワーが上昇するという。日本の製薬会社でも
このあたりの研究もやればいいのに。
コンパックの人が「Who won in the genome research? Compaq!」と大口
をたたいていた。連鎖解析をやったことがあるか、と聞いたら、よくわからないから
後で連絡すると言っていた。何か、彼らは目的のソフトウェアに合わせて、
CPUやOSを最適化する技術を持っているらしい。日本の会社ができるかなー?
彼らは、ゲノムを征するコンピュータ会社が世界のコンピュータを征するといっていた。
[2001年1月6日 17時14分23秒]
お名前: 赤真秀人
「近未来の医学の予測」のパラグラフは確かに当たっていると感じます。
他の項目は難しくて良くわから無いところが多いですが、皆さんも「近未来の医学の予測」
を是非、読みましょう。(しかし、そうは思わない、そんなはずはない、との感想があって
もよいと思います。当センター以外のドクターには多いのではないでしょうか?)
[2001年1月6日 10時52分15秒]
お名前: 鎌谷直之
1/5/01
午前中はDNAとたんぱく質の相互作用の話。
SIDD (stress-induced DNA duplex destabilization)。
Benhamはストレス(熱などの)による二本鎖DNAの不安定性を数理的に解析した。
ストレスを加えると日本鎖DNAは特定の個所で不安定になり、一本鎖になる。
それはストレスによる不安定化の力と、塩基の相互作用による安定化の力の関係
によるものである。
例えば、IHFの結合モチーフを持つ遺伝子では、不安定個所はIHF結合部位に限られる。
そして、IHFの存在下では、そのほかの部位は極めて安定となる(実験的に)。IHFの
非存在下では他に不安定な部位が多数出現する(実験的に)。
このような法則は一般的であり、数理的なエネルギー計算でSIDDの部位は予測でき、
そこがたんぱく質結合部位である可能性が高い。
次は、BenosというひとによるDNAたんぱく質相互作用のエナジー計算を確率的に行う
アルゴリズムの話。
SAMIE: Statistical algorithm for modeling interaction energies.
Neural networkの手法を使って、データにより最尤法を用い教育して、塩基とアミノ酸の
一対一対応のエネルギーを計算するアルゴリズムを組み立てる。
入力データは蛋白、DNA結合エネルギーに関するデータベース。
今までの方法よりすぐれて核酸蛋白結合部位を予測できたという。
Liuという人はBioProspectorという、DNA microarrayにより、同時に転写される遺伝子
の5'配列に有意な配列を探すためのプログラムを発表していた。
この手法にはMCMCのGibbs samplerが用いられている。共通のモチーフを探した
後に、その優位性を測定するためにGibbs samplerを用いてMonte Carlo法により
モチーフ点数(a motif score)の優位性を検定するようである。面白いのは、ターゲットに
なるモチーフに、開始点はもちろんのこと長さにも制限が無い事である。
MCMCを用いるとこのようにターゲットの長さも可変にできるようである。
MCMC=Markov chain Monte Carlo
同時に転写される=co-expressed
次の発表者はPavlidisという人で、この人もNeural network手法により配列を解析している。
彼は、プロモーター配列により遺伝子を分類することを試みているが、分類のカテゴリー
を作るために、あらかじめ分類された配列をneural networkに学習させ、新しい配列を
分類している。この時用いるのはやはり隠れマルコフモデルで、EM (expectation-
maximization)アルゴリズムを用いる。評価にはFisher score vectorを用いている。
これからはちょっと近未来の医学の予測です。
このような近代情報学的な手法はすぐに臨床に応用されると思います。
臨床家が理解できるわけはないって?
だっていまでも理解できないことを毎日使っているでしょう。
例えばGOTですが、これがどのような反応で、それにはどのような分子相互作用が働いて
どのように化学エネルギー変化が起こっているか理解できないけどつかっているでしょう。
統計だとカイ二乗検定だって、カイ二乗分布とはどのような分布か、なぜカイ二乗検定
を使うのか、そもそも統計的検定とは何なのか多くの臨床家はわからずに使っている
でしょう。でもちゃんと学問も臨床もそれでなりたっているでしょう。GOTの無い臨床
などは考えられないでしょう。統計的検定の無い臨床研究はありえないでしょう。
おそらく臨床家はまもなく、マルコフ過程、最尤法、EMアルゴリズム、モンテカルロ法
ニューラルネットワークなどという手法を臨床で多用するようになると思います。おそらく
それはなんとかStatとかSASのような誰でも使えるようなプログラムに組み込まれてね。
あるいは、現在、処方などを発行するコンピュータ端末が、更に臨床医の思考を補助
するようになる。処方をする前に、その人の遺伝子配列がすべてわかって、危険な
薬とか有効な薬が個人毎にわかると役に立つでしょう。そのうち、ある遺伝子を持って
いると明らかにある薬の副作用が起きやすいとき、その薬を処方して重大な副作用
が起きたら訴えられる時代が来ると思う。もし薬の添付文書にそれを書いていなければ
薬会社が訴えられる。もし書いてあれば、それを知りながら処方した医師が訴えられる。
そのような情報が十分に臨床に生かされる事で、副作用は減少して、治る患者の割合
は増えると思います。
今だって、「今日の治療薬」や「今日の臨床検査指針」、あるいは各種ガイドライン
の自分の見たい個所が直ちに自分の机の上の端末に表示されたり、糖尿病の
推奨カロリーやRAの診断基準、寛解基準などが欲しいときに直ちに表示されると
うれしいでしょう。得られるすべてのデータから、可能なすべての有効な情報を抽出
することは臨床で最も大切なことだと思う。
[2001年1月6日 10時28分57秒]
お名前: 鎌谷直之
すみません。
学会名は
Pacific Symposium on Biocomputing2001
です。
ゲノムのドラフトの発表の場所は大変な人だかりでした。
世界的にはこれほど興味をもたれているのに日本では
なぜ無関心なのか不思議でした。
ご存知だと思いますが、最初のゲノムのドラフトの発表は
セレラ社長とフランシスコリンスと、なんとクリントン
の共同発表だったのです。
[2001年1月5日 12時56分31秒]
お名前: 鎌谷直之
学会のkey note lecture, David Haussler の" A working draft
of the Human Genome" が迫力もあり面白かった。
正直言って、昨日の講演はあまり面白くなかった。しかし、この
講演は良かった。
BAC cloneの配列を元に、全ゲノム配列を決めるためのプロジェクト
の中心は今やUCSC (University of Calfornia at Santa Cruz)に
あるらしい。ここのKentという若い教授がすばらしい能力を持っていて
配列のassemblyをするすぐれたプログラムを作ったのでここでやる
ことになったらしい。
方法は、データベースのBAC cloneの配列(これをsequence cloneと
いう。今やゲノム配列はDNA clone->sequence cloneに)から端がセンス、アンチセンス
を含めてoverlapしている部分を探してsequence clone contig (SCC)と
いうのを作る。現在、データーベースにはヒト染色体全配列の60倍の配列
が得られている。それがsequence clone一つあたり平均150 kbあり、それが1 M
pieceある。1 M x 150 K = 150 G
全ゲノムは3ギガなので確かに約60倍。
また、mRNAの配列を調べて、同じmRNAの二つの部分が二つのsequence clonesに
それぞれ存在する場合は、二つのsequence clonesがそばにあると考える。しかし、
contigより考え、それがあまり長いintronを必要とする場合は再考する。これを
bridgeという。また、全配列はこれまでのマーカーでの遺伝子地図であるGenethon、
Marshfield、GM99 (radiation hybridによるもの)、Whitehead YACライブラリーとも
照合する。しかし、これらとはかなり違いがあるという。これらはESTなので、EST
として調べたのであろう。EST=expression sequence tags
これらのsequence cloneの並び方が一方向でないことが問題で、場合に
よっては反対方向の事もあるので、すべてのsequence cloneを順方向
にならべるassembly processが重要。このようにそれぞれのsequence
cloneのidと場所、方向性を決定した情報をclone layoutという。
現在までに得られたclone layoutを含む情報は、以下のサイト
www.genome.ucsc.edu
にあるらしい。
UCSC Genome Browserというのを用いると良いらしい。
そして、それらのsequence cloneの二つ以上がカバーしている部分は
deep coverage sequence contigと呼ばれ、それは全配列の1/3、一つ
のcloneのみでカバーされている部分はdraft sequence contigと呼ばれ
それが1/3。完成された部分からfreeze of sequenceを行うという。
そこで、いつその作業が終わるかというと(おそらく全ゲノムがfrozenに
なる時期)、は
今年の5/2までに70%、10/7までに88%、が終わる。
インターネット上には7/7に出す予定という。
これまでにわかった事実。
全ゲノムの半分はAlu,L1などの繰り返し配列で、全ゲノムの8%はLTR。
ゲノムのGC含有には場所により差があって、GC含有が多いほど一般に
遺伝子が多い。AC含有が多い場所の遺伝子はイントロンが長い。
イントロンの平均サイズは3365
mRNAの平均サイズは28327
エクソンの平均サイズは234
一遺伝子の平均エクソン数は9.7
ゲノム配列から遺伝子を予測するプログラムはすべてHMM(隠れマルコフ
モデル)を用いている。GenScan, GeneWise, Genie, GenomeScanなどがある。
全遺伝子数は30k以上。全遺伝子が何個かは不明。
彼の結論
全ゲノム配列決定には高速コンピュータと洗練されたアルゴリズムが重要である。
2003年にすべての配列の決定が終了する。
次のチャレンジは、表現型と配列のリンクになるであろう。
[2001年1月5日 12時52分46秒]
お名前: 鎌谷直之
今日の午前中は配列のコンピュータ解析の発表。
Grateという人はUCSCでSIMDというパラレルプロセサーを開発した
らしい。Single-instruction multiple-data processor。速度が非常に速く、
通常のコンピュータより6-20倍速いという。アルゴリズムを新しく
組んでいるらしい。Smith-Waterman法、隠れマルコフモデルでViterbiや
最尤法を行った計算で、これまでに見つからなかった配列検索ができる
という。
次は、Gudaという人がたんぱく質の構造をモンテカルロ最適化法に
よって行う仕事を発表していた。
たんぱく質の構造についてちょっと不明の所があって理解できない
部分があった。
Koshiという人がたんぱく質の分子進化の話をしていた。昔は、アミノ
酸が皆ないっしょにして、平均的に変化する速度を求めたが、Kimuraは
transition, transversionの速度が異なるとして求めた。しかし、場所に
よってそれは異なる可能性がある。例えば、たんぱく質の構造上の
アルファへリックスとベータシート、ターンで異なる可能性がある。
隠れマルコフモデルを用いて最尤法でたんぱく質の構造上の違いを求めたところ、残念ながら
構造の場所ではアミノ酸の進化速度に差はなかった。一般に、分子
の内側にあるほうが外側にあるより進化速度は速く、疎水アミノ酸
の方が親水のアミノ酸より速かった。
しかし、そんな結論なら前から知っている。
アミノ酸の変化速度はどのような法則になっているのであろうか。
RzhetskyはMCMC法(Markov chain Monte Carlo法)を用いて
測定された速度の信頼限界を求める方法を発表した。
もともと、速度はガンマ分布をするというモデルが一般的であった。
しかし、たんぱく質のグループによる微妙な違いを考慮して
MCMC法によるプログラムを作成した。プログラム名がTSUNAMI
らしい。なんでその名前なのかは聞きそびれた。
Yangという人がHIVの分子進化について、やはり最尤法を用いた
分析を行っていた。従来の方法は、変化するサイトを考慮せず、
複数のサイトの平均を取って、ほとんどすべてのサイトが中立進化
をすると結論づけていた。しかし、一部のサイトがdiversifying(即ち
ダーウイン進化)をするにしても、これではその部分が隠されてしまう。
これまでは、同義進化速度をdSとし、非同義進化速度をdNとして
計算していたが、最尤法を用いることにより次のような仮説を検定できる。
即ち、帰無仮説=ダーウイン進化部位は全く無い。対立仮説、ある。
それにより計算すると約10%の部位はダーウイン進化をすると推定される。
やはり、データに乏しい時代には平均値で考えるしかないので、
多くの人が単純に期待値を計算して満足したり、連続数理モデル
で微分方程式を解く手法が主流であった。
しかし、データが膨大になるとモデルは複雑にせざるを得ない。
そこには隠れマルコフモデル、最尤法、EMアルゴリズム、マルコフ
チェインモンテカルロなどの手法が必要になる理由があるのであろう。
対象は異なっても、我々と全く同じような考えや手法を用いている
のに驚いた。
講演の中でも言っていたが、多分、bioinformaticsの専門化は
もっと生物学の事を知って、その情報を入れるべきである。また、
純粋な生物学者はもっとデータの分析手段の訓練を受けるべきである。
[2001年1月5日 12時51分50秒]
お名前: 赤真秀人
明けましておめでとうございます。
ところで、鎌谷先生が何という学会に出席されているのか、医局員には
わからない人も多いようです。ビジネスマンになられたのかと思っている
ドクターもいるかもしれません。
[2001年1月5日 10時47分23秒]
お名前: 鎌谷直之
High performance computingの話は、Compaqの人で、自分の会社
のコンピュータがはるかに速い。ゲノム研究が進んだのは自分たちの
コンピュータのためだ、ということでした。
確かに、 CompaqがDECを買収して以来、Alphaチップを手に入れ、
Multiprocessorや並列でものすごくはやいマシンを作っているようです。
SMP, MPP,cc−NUMA,などいろいろのCPUやら、が
あるようです。OSはlinux, unix, NTといっていました。
結論、高速計算ならCompaq。
[2001年1月4日 17時27分13秒]
お名前: 鎌谷直之
本日の学会。
遺伝的ネットワークとか、DNA mcroarrayのデータの処理方法とか
そういうことが中心でした。いずれもDNA microarrayの発達と関係
がありそう。膨大な発現変動情報を処理するためのツールと、それ
を原理的に説明する法則が必要となったのであろう。
しかし、あんまり面白くなかった。というより、あまり進歩していないと思った。
ある遺伝子が発現して、その発現によりある遺伝子の発現が
おさえられる。ある遺伝子の発現は、次の遺伝子の発現を引き起こす。
そのようなシステムがどのように動くかをコンピュータでシミュレーション
するのですが、現実の発現からはまだまだ距離が大きい。
それによって、何か新しいことが発見できた、というような連鎖解析の
ような事はまだない。やはりゲノムがなぜこれほど強力か、というと
やはりメンデルの法則が数理的に厳密なためだと思う。やはり、経済
や遺伝子の発現などはこれほどの厳密性がなく、そのようなシステム
は数理に乗りにくいのであろう。
Boolean networkというのがあるが、これはものすごく単純なシステム
で、それでもいろいろ複雑なことが定義できる。しかし、私のような
素人にも簡単に底が見える。ということはまだたいしたことないな、
と単純に思ってしまう。
前に、これに似たE-cellというのをやっているひとがいて、「研究とは
所詮遊びだ」と言っていたが、なるほどそうだと思った。我々の研究は
幸い世の中の役に立つのでいいなと思った。
しかし、あまりに現実に密着しすぎると研究者に夢が無くなってしまう。
このあたりの兼ね合いがむずかしいところであろう。
7時p.m.-10.p.m.はHigh throughput computingのセミナーがある。
並列計算など、楽しみなので明日報告します。
[2001年1月4日 13時7分56秒]
このテーマについての発言をどうぞ。
※半角カナは使用しないようにしてください。文字化けします。
記事一覧に戻る