20160229 データシェアリングシンポジウム(ラウンドテーブルのみ)

第7回RDA総会にあわせて開催された「データシェアリングシンポジウム科学の発展への起爆剤 ~データ駆動型科学の推進に向けて~」でのラウンドテーブルの書き起こしメモを公開します。

概要

開催概要 Overview
データシェアリングを円滑に推進するため、数々の課題の解決方法を検討する国際的な会合であるResearch Data Alliance（以下RDA）が2013年に創設されました。JSTはこの度、第７回RDA総会を誘致するのにあわせ、日本の研究者向けのデータシェアリングに関するシンポジウムを開催します。本シンポジウムはJSTとRDA共催による、アジア地域初となる「第７回RDA総会」に先立って開催されます。
オープンサイエンス促進の国際的潮流を受け、アジアでようやく議論が活発化しはじめたデータシェアリング。第７回RDA総会では、欧米を中心とした世界各国のデータに関わるプロフェッショナルと研究者が集う３日間の充実したプログラムを開催。その前日の「データシェアリングシンポジウム」は、政府・学術界の有識者による講演とセッションで構成され、参加者とデータシェアリングの可能性と取り組みについての議論を深めます。日本、アジア、世界。３つの観点からデータシェアリングを考える貴重な４日間となるイベントです。シンポジウムとRDA総会、多くの方のご参加お待ちしております。
データシェアリングシンポジウム

ラウンドテーブル

登壇者(※敬称略、メモ本文中では苗字のみで表記します)

武田英明（ファシリテータ）
村山泰啓
伊藤聡
中村春木
柳田敏雄
辻井潤一

ディスカッション書き起こし

武田: まず、お互いに他の講演者に聞きたいことや納得しないことはありますか？出ないみたいなので本題に。
武田: 共通の理解を深めるために司会から。データシェアリングにおける、インセンティブをどうするか、バリアをどう取り除くか？について。
村山: 地球惑星科学についてはデータを共有して研究を進めようと言う雰囲気がある。質問の前提として成果をどう扱うか、みたいな話がある。自分のいる分野では誰も反対しないからどんどんやればいいんじゃないですか、という意見になる。日本の学協会だとどうであるかというと、コミュニティ全体でのオープンサイエンスへのインセンティブやバリアをまだ持っているであろうと思われる。なので、、素地としては、古くから、ある種のデータについては共有すべきという総意が形成されてきているいから、そういったことをやろうとするのに適した分野であろうとは思う。他の分野について解決を図ったりインセンティブを見出していくことについては、今後必要なのかなとおもう。
武田: 地球科学の分野では元々サイエンスのなかにそれが組み込まれている感があるということですね。
伊藤: 材料科学については2つ。データの提供者(オープンにしたひと)が下手をすると提供損になる。データを提供した人が、それを使う人と同じようにメリットがないといけない、これが問題。あとひとつはDBをつくるとかデータキュレーションをするといったことは手間がかかるが論文が書けない。そうなると研究として評価されない。でも、1つ良いDBができると論文が何十本もかけるくらいの貢献になるはずだから、そういったことを評価する枠組みが欲しい。
武田: 材料科学だと比較的新しいというか違うアプローチになっていると、それをどう普及させていくかが要点でしょうか。
伊藤: 材料科学については理科年表のような資料がある。大昔はオープンだった。でも、今はそれに変わるものをオープンにして運営していく必要がある。
中村: バイオ系。アカデミアと企業の場合でぜんぜん違う。まずアカデミアについては、バイオ系は以前からオープン化が進んでいて、1つは、ジャーナルにも関係してくる。DBをつくるとか運営する、技術をつくること、については専用のジャーナルやissueがまとめて発表する。実はIFがどのジャーナルの運営元もセンシティブになってきている。なのでDBカテゴリを作って、DBを作った人が投稿すると、DBを使うときには必ず引用されるのでIFがあがってホクホクするといったビジネスモデルができあがっているので、DBを作ることのインセンティブはあがってきているようにおもう。もう1点、ジャーナルについて、先の話になるかもしれないが、現在のIFやピアレビューの仕組みはアレしてきている。何がピアレビューだと思うことが非常に多い。日本人は世界で一番下手くそな英語の使い手でもあるので、英語で論文を書く時に、データをきちんと書くことはできるが、英語でストーリーテーリングをするのはネイティブスピーカーにはどうしても劣りがち。本当にそれでいいのかと考えると、データジャーナルという言葉が午前中に出てきたが、サイエンスにおいてデータをきちんと集めるということが本質ではないかということで、さらに、IFというのは、そのデータが何回使われたのかということができるとおもうので、訳の分からないジャーナルのIFではなく、個々のデータのIFということについて、それぞれの研究者が何をしたのかもう少し尊重されるようになるのではないかと考えている。
武田: 企業側は？
中村: 製薬企業など、タンパク質の構造データを大量に持っている、ビッグファーマーは数千件とかそういう規模のデータを企業がもっている。それが色々な理由で出てこないという問題がある。アメリカではD3Rというプロジェクトがあったり、日本でもデータを出そうとする動きがあるが、企業の研究者レベルでは、出しても良いようなデータもあるが、規範というか、企業で得られたデータをなんで公にしないといけないのか！という考え方はある。これは日本だけではなく世界的に言えること。企業のデータのコントリビューションは大きいと思うが、考えていかないといけない、
柳田: 生命科学の分野は構造データがかなりDB化されてオープン化されていることはされている。特にライフサイエンスの場合は、机の上で、スモールサイエンスとして仮説を立てて、大発見をして、PD1のような形で、1人の研究で(企業と組んで)数千万の大発見がある。そういうことにワクワクする人は他人には話さない。自分しかでいない、自分だけでデータを取る、ということについては、何をしているかについてすら話さない。データを出すなんてあり得ない。何十年か前にワトソン研に行った時には、いまどういう論文を読んでいるかを隣のポスドクにすら明かさない。それで何をしようとしているかバレたら自分が損をするので。自分が良い研究をしたい、偉くなりたい、というのがインセンティブなので。融合研究ができますか？というと、それは無理、という空気がある。なので多分インセンティブはない。障害になるのは、個人の大発見したいという気持ち。人と協力して大発見しようなんて研究者はいないですよ。なので色々な会でデータシェアリングをしようというと、そんなものはサイエンスではないといって総攻撃を受ける。
武田: サイエンティストのモチベーションとしては分かる。過去の成果に依存して自分の成果を作っているということがあるはずなので、両方が言えるはず。
柳田: 理研や産総研を見ていて思うが、ある程度のスケール、人材、予算が必要なので、それは一般の大学には無理なので、理研のようにある程度ミッションオリエンテッドで、ある程度センター長のリーダーシップを発揮できる環境があるはずなので、そういうのはともかくとして。。データドリブンな研究について、成功例がいくつか出てくるとついてきてくれる人がいると思う。アメリカや韓国や中国などでデータドリブンな研究がうまく行ったと聞いて青ざめながら急に日本もやりはじめる、というのが最も怖いと思っている。
武田: データシェアリングやオープン化において全体のトーンであると思う。いろいろ、オープンに出来ないデータはともかくとして、オープンにすると良い成果があるということがある分野ではある。アメリカやヨーロッパではそれに気づいていて、それをやっている。気づいた時にパタッ…ではこまるので、2016年は既に遅いのかもしれないが、まだ間に合うかもしれない。
柳田: 間に合うかもしれない、ということではなくて、かなり戦略的にやらないと、自発的にはやらないので。もっと戦略的にやるべき。CRESTをやりますなんとかって言っても最も大事なデータは公開しないわけなので、うまく考えて戦略的にJSTがやらないと。
武田: 今日の核心的な問題に来ていると思うが、戦略的にやったらいい、ということはどんなことを考えているのか？
柳田: どんなにアイデアがあるわけではないが、規模感、金、リーダーシップ、研究者に対する保証が必要。そういう環境をつくること。辻先生が言うように、AI研究者とデータを取る人が1つ屋根の下で、議論をやるような形の環境を作らないと。人材もいないので、人材育成も込みでやるシステムをつくる。じゃないと、誰がお前の持ってきたようなデータを、ってなるし、誰がお前にデータなんかを提供するか、ってなるよね。
武田: バイオとAIでもよいが、どちらかがどちらに頼むということではなく、オープンな文化を共有するということを自ずと・・・
柳田: 自ずじゃない。かなり環境を作らないといけない。作ってバイアスをかけまくって、リーダーシップをとらないと。個々のサイエンティストはデータシェアリングなんてやりたくないんだから。
辻井: データシェアリングを考えた時に、計算機科学分野あたりでのオープンソース運動みたいなものは凄いうまく行った。それはなぜ？と考えると論文の引用回数がどうのとかを気にしない若い人たちがいて、ダウンロードされて使われていることを大事にするみたいな空気があるのかなと思う。それに影響を受けてノリが変わってきている分野もあるはず。しかし、先ほどの話ではそうなっていない、それはなぜ？
自動運転を考えた時に事故したときの責任は誰にいくのか？という話もある。クルマの場合は1つの欠損から玉突き事故みたいな感じでどんどん事故が起きる場合もあると思う。そういうときどうするのか？の問題もある。
データを作った時のアトリビューションが難しくなってきている。そのアトリビューションがレファレンスだけで行われているのが1つ悪いコトではないかと思う。研究者が動かないよねって。
武田: 自動運転車が世にでるようになると、プログラムを公開する、テストデータを公開する、といったことを行わないと社会的に受け入れられないのではないか。そうしないと、複数の会社が作っている時に、道路で走り始めた時に何が起きるのかわからないわけで。
辻井: 使うデータが少し変わると変わってくるとか、ペーパーに書いた内容だけでプログラムを作っても同じように動かないとか。プログラム全体をオープンソースにして、あるいは更にデータまでくっつけてやらないと納得されないし評価も難しくなってきている。ペーパー単体で評価するのがダメになってきているのは確かで、生命科学分野でプロトコルごと公開とか結果の詳細まで公開とか、そういったところに端を発するプレッシャーでオープン化を図る動きは出てくるのではないかと思う。

以上