20160206 大向一輝先生「All about CiNii」

概要

筑波大学 知識情報・図書館学類の集中講義「知識情報学特別講義I」にて、国立情報学研究所の大向一輝先生(@i2k)からCiNiiのこれまでについて講演を拝聴する機会がありました。そのときのメモを公開します。こんなにじっくりと時間をかけてCiNiiについて話したことはないし、自分のなかでもまとめ直しを行う機会になった、と仰っていました。

※Internet Archive Wayback Machineを併せて参照するとイメージが抱きやすいかもしれません。

講演内容

自己紹介

CiNiiの「なかのひと」になるまで

  • 2005年に就職して初めてCiNiiをうちがやってたんだ!ということを知った。言われてみれば確かにNIIという単語がサービス名に含まれている。
    • 「僕から見たら結構ひどいサービスで、確かに論文を探すために使わざるを得ないサービスではあるけど、使っていて楽しくない。こんなの誰が使うんだ?」
  • 僕がNIIにいて、ウェブ系であるということは、他所の人から「あれってどうなんですか?」と言われることを意味する。ちょっと許せない。
    • やってる部署に文句を言っていたら「そこまで文句を言うならやってみろ」と言われ、開発に関わるようになった。
    • 少なくとも学生の頃にはこういうことをやることになろうとは微塵も想像してなかった。それが結局2005年ころからやっていて10年が経った。
  • オープンデータ、データ公開には守りと攻めの両方がある。あと1、2年すると、オープンデータ、オープンサイエンスと大学図書館はどう付き合うのかみたいなことが大きな課題になってくるだろう。

CiNiiの運用体制について

  • Q. 何人くらいでこの仕事をやっているの?
  • A. 15人くらい。1サービスあたり1.5人で面倒を見るということになってる計算。当然、自分たちでプログラミングまではできないので外注する。ただし、企画(どんなものが必要か検討)とか、障害対応などは行なっている。

これまでのCiNiiの歩みを振り返る

2005年「サービス公開」

サービス公開(実際には、2004年には試験公開していた?)

2006年「パーマリンクとオープン化」

これまでは書誌情報の公開に制限があった。書誌情報くらいはいいだろう、本文ならともかく。それまでは検索結果一覧までしか見られず、書誌情報を見るためには契約が必要だった。
ここでGoogleがきた。Googleはそんな公開されていないページを検索結果に反映しないし、できないので。そのために必要な準備としてパーマリンクの制定と、書誌情報のページに誰もがアクセスできるようにすることがあった。
書誌詳細画面を綺麗に、当時のHTMLは大向先生が自ら書いた。

2007年「黒船到来とアリ地獄作戦」

当時、いわゆる檄文を書いた。いま見てみると、怒っているのはよくわかるんだけど。。
要点はパーマリンク、きちんとしたURLをつけること。そうすると検索エンジンから誘導が可能で多くのアクセスが期待できる。そのパーマリンクは有料ユーザのみに公開ではなく一般に公開しよう。そのときにHTMLをちゃんとしよう、本文への誘導をちゃんとしようとか、そういうことが書いてある。
Googleに喰われるかもしれない問題は、CiNiiがそのまま全く無視されるわけではなく、どんな入り方をされても最後に到達するのはCiNiiのパーマリンクなんだ。だから検索画面はスキップされるかもしれないけど、パーマリンクへの経路を増やすことをやらないといけないのであって、連携したほうがいい。

2008年 「暗黒時代」

平成19年4月、Googleに解放された。それまでは月間100万アクセスしかいかなかったが、伸び方が爆発的に増加した。その影響で、コンピュータが停まるようになった!(嬉しい悲鳴)

2009年 「"まともな"ウェブサービスへ」

サービスのまとも化。落ちないようにするとか

2010年:「サービスのうしろに人がいる」、「人と論文(著者検索)」

ウェブサービスは人間がやっているようにあまり思われていない気がする。たとえば、Googleとか食べログとか、人間がやっているように思われない。機械がやっているから機械が全部やっているような気がしてくるけど、本当は、人がいて、人の思いがある。それを利用者に実感してもらうことは大事。
Twitterアカウントを作成したにぃ。CiNiiの読み方が分からない→「サイニーです」と延々とリプライするのが初代なかのひとの仕事。



著者検索実装(同定識別が課題に)、Yahooと連携した「Yahoo!論文検索」、のちにYahoo!爆速化に伴ってリストラ。

2011年 「知識インフラとは何か」、「図書館の本丸へ」

震災に伴う停電によるサービス停止。当時の停電のスケジュールが書かれたホワイトボードは今でもとってある。

参照: #がんばれCiNii #がんばれNII #祝CiNii復活 - Togetterまとめ

2013年「レガシーからの脱却」、「仮想化」

NACSIS WebcatはCで実装されているらしい。コンパイル後のバイナリコードはあるけど、元のソースコードがどこにあるのかわからんとか、前担当者の独自機能が実装されていたりとかするので、メンテナンスが大変だった。
→もうCiNii Booksにしちゃおう。NACSIS◯◯がいいんですけど、とかいう意見もあった。「NACSISってなんですか?僕が就職したのはNIIなんですけど」(この件は2015年の第17回図書館総合展フォーラム「2020年のNACSIS-CAT/ILLを考える」でも話題にあがった。)

2014年「制度面でのオープン化」、「UI/UXと"いいもの使ってる感"」

目録所在情報サービスにCCライセンス付与(利用条件の明示, 目録所在情報サービス )
CiNiiデザイン変更(Articlesは緑、Booksは青、フラットデザイン)

2015年「CiNii Dissertations開始」、「スマホ対応」

博士論文検索Dissertationsの公開(スペルが難しいのでURIには使わず、/d/とした)
スマホ対応(レスポンシブデザイン、Dで試行し、その後、A、Bに導入)

CiNii Dは特殊な位置付け

  • インターネット上での原則公開化 データはこれから出てくる。
  • いまは探すことがそんなに一般的ではない(意味が無い、引っかかっても中身が見られないから)としても、今後は本文見られるようになる。
  • ニーズがあれば実装できますよというプロモーション的な側面もある。
  • オープンサイエンスの話もしたが、学術情報流通の世界においては新しいものが色々たくさん降ってくると考えられる→NIIとして対応できることを示す
  • もちろん検索できて便利という側面はある。完全にユーザのためだけ、ということではない。立ち位置の微妙な違い。
最近のご自身の研究について
  • 同姓同名の論文分類
    • 同姓同名はすごく難しい。
    • 日本人のなかで研究者の同姓同名が最も多いのは、「高橋徹」(KAKEN - 研究者検索結果)。
    • 「高橋徹」さんが20人くらいいる。あらゆる分野に「高橋徹」さん。

20160226 KEIO大学図書館国際フォーラム: 研究支援と図書館 ~研究サイクルを取り巻く「混沌」に図書館はどう向き合うか~

2016年2月26日に慶応義塾大学三田キャンパスにて開催されたKEIO大学図書館国際フォーラム(年1開催、今回が2回目)でのメモを公開します。例によって粗いメモです。
講演者は、OCLC Researchのコンスタンス・マルパス氏、ORCID Asia-Pacificの宮入暢子氏。

概要

-開催趣旨-
研究成果の質と量がランキング等の大学の評価に直結するようになり、研究力強化への図書館としての積極的な貢献が重要な課題であるという意識が定着しつつあります。この課題への取り組みは欧米において進んでいる感がありますが、日本国内でも、文部科学省の有識者会議において研究データの利活用への図書館の積極的な関与の必要性が言及されるなど、図書館が研究支援で果たす新たな役割への要請が高まってきています。
そのような状況の下、研究サイクルに目を向けると、一連の過程を支援する有用なツールやプラットフォームが日々出現し群雄割拠の様相を呈していますが、多くの図書館では、この変化に関与していくと言ってもどこからどう取り組んだらよいものか、手をこまねいているのが実情ではないかと思います。
今フォーラムでは、まず、この課題についてのOCLC Researchでの最新の研究成果をベースに、「研究支援と図書館」を取り巻く状況を概観します。次に、具体的な取り組みとして、今後の研究成果の管理・利活用に不可欠な要素である研究者IDの代表格である「国際研究者識別子ORCID」について、基本的な解説とともに研究の現場でどのように活用されているのか、図書館との接点をどう見出せるのか等について共有します。そしてこれら講演の内容を踏まえた上で、今後に向けての議論を行いたいと考えています。
今回の企画が、日本での「研究支援と図書館」の関わり方・スタンスを今後考えていく上での一助になればと思っています。皆様のご参加を心よりお待ち申し上げます。

慶應義塾大学メディアセンター | メディアセンターについて | 第2回KEIO大学図書館国際フォーラム

コンスタンス・マルパス氏「Library Support for Research Information Management some emerging trends」

大学図書館の蔵書の価値(に関する変遷)、国ごとの学術研究活動を取り巻く環境(ファンディング等)の違い、研究活動活動の発生と普及、大学URAのこと、図書館の位置付けの変化(以前: 図書館という環境のなかに利用者がいる。現在: 利用者の環境のなかに図書館がある、あるいは、利用者に対して図書館が参与?していく)、ResearchGateおよびResearchGateにおける大学ごとのグループの話、researchmapや機関リポジトリ等の話題、研究データやメタデータ、識別子の話題など、たくさんの話題がありました。
私個人の関心はデジタル識別子にあるので、その内容だけですが、印象深かった点について。

  • 研究成果に対する識別子(DOI)。研究者(ひと)に関する識別子(ORCID)に続いて、組織の識別子が必要になる。
    • たとえば、各大学、各部門、あるいはビジネススクールといった対象・粒度の識別子。
    • 識別子についてはスコープによる3つのレベルがあり、それぞれ、「local identifier」(組織内あるいは特定のシステムの中でのみ機能する識別子。つまり他のシステムとの互換性のない識別子)、「national identifier」(特定の国や地域のなかでのみ通用する識別子。たとえば日本の科研費申請番号)、「global identifier」(国や地域を越えて通用する識別子。たとえばORCID ID」がある。これらを日本語訳するとどうなるのだろう?という疑問はあるが、とてもわかりやすい表現だと思った。造語的なものなのか、広範に通じる用語なのか、どちらなのだろう?
  • ORCID iDについて
    • カーネギーメロン大学の図書館は、昨年あるキャンペーンを行った。教職員に対してORCID iDの入手を支援し、その識別子を機関内の識別子と紐付けるということを行なっている。
  • figshareについて
    • 研究成果すべてに対してクレジットを与えるfigshare、学術研究活動を構成する様々な形態の成果が含まれている。
    • 大学以外のインフラにいかに依存するようになったかを示す好例だと思う。従来型のモデルである、図書館の管理/運営する機関リポジトリとは異なるムーブメントだから。研究アクティビティやそれにまつわるデータを扱う大学図書館を考える上で重要な知見である。

宮入暢子氏「ORCID: connecting research and researchers」

  • ORCIDについて
    • ORCID Asia-Pacificのスタッフ、アジア担当のスタッフは、現在、香港にいるサポートスタッフと宮入さんの2人のみ。2名で、ニュージーランド、インド、パキスタンあたりまで広範囲をカバーしている。
    • ORCIDの発足について: 2009年の終わりに、研究者識別子サミットが開催された。そこでのディスカッションがきっかけとなって2010年にORCIDという組織が発足。とにかく名寄の問題を解決することに注力した組織である。
      • 「ORCHID」という蘭の花を意味する単語があるが、ORCIDはスペルが違うのでご注意を。
      • ORCIDは研究者プロフィールサイトではない。
  • 「著者名の曖昧性の問題(Name Ambiguity Problem)」とは何か


(共著論文で)「僕は38番目の著者なんだよ」「わあ、そいつはひどい」「ああ、それだけじゃないんだ。共著者のうち、Wangという姓の38番目なんだよ。」「オー(Ohさんと掛けている)」
日本人の名前でいうと、田中宏和さんは同姓同名がたくさんいるという話題がある。
田中宏和さん

田中宏和さん

  • ORCID iDの登録数の推移
    • 配布資料中のs14、Over 1.9 million researchers have registered for an ORCID identifier.
      • 右肩上がり。
      • オレンジ色は研究者自らが手動登録した場合を指す。
      • 緑色(65%)は、第三者機関(たとえば大学、出版社、研究助成機関など)が何らかのシステムを作り、そのシステム経由してIDが発行された場合を指す。
      • 青色は大学等の機関が一斉にIDを振ってしまいたいということでバッジで処理した場合。これはうまくいかなかったので現在は使われていない。研究者自らがコミットすることが重要である。
  • ORCID IDの入力にはWeb APIを経由する
    • ORCID iDを第三者機関に渡す時にマニュアルで入力して渡さないこと。
      • OAuthみたいな仕組みを使って渡す/認証を行うことを推奨している。それ以外はやめてくれと推奨している。
      • 他人のIDを入れたり、あるいはミスタイプしたり、といったことが起こりうるし、それを検証する術がないため。
      • マニュアルで入力する実装が行われているウェブサービスもある。例えば、researchmapが該当する。実装を変更してもらえないか交渉を行なっているのだとか。
      • 仮に実装が変更されるとして、既に入力されているデータはどう扱うのだろう?、そもそもresearchmapにORCID iDを入れている人はどれくらいいるのだろう?(あまり多くない気がするが)ということが気になった。

ディスカッション

司会進行は市古みどり氏。ディスカッションのメモについても、私にとって印象深かったところのみです。他に、人材(スタッフ)やマネジメント(お金のことも含め)に関する話題もありましたが。

はじめに復習を兼ねて質問をする……前に、プレゼンを行った二人に補足したい事項、不足していた事項など確認する。お互いのプレゼンに対するコメント、あるいは、補足したいことなどがあれば。

マルパス氏: プレゼンのなかで話したことではあるが、更に補足する。大学図書館の課題は、大学全体の学術研究支援の情報マネジメントのサポートがある。また、個別の研究者に対する支援も非常に重要であるし、実際に、この点で図書館が積極的に動く、あるいは、積極的であると見られること、は大事。これらは必須。さらに、日本の機関リポジトリインフラがもつ特徴的な事項に触れておきたい。機関リポジトリを最近政府から出されているオープンリサーチに関する関心事と惹きつけてこの動向を見ていきたい。アメリカでも研究大学図書館において既存の機関リポジトリインフラを使って国レベルで求められているオープンサイエンスの要請に答えようとはしている。しかしアメリカにおいては個々の機関リポジトリのレベルは多様でばらつきがあるので、それに比べて日本の機関リポジトリのネットワークは非常に強固であり、国の要請に応えるためにJAIROも存在している。日本のほうが強固な基盤を持っているのではないか。日本の大学コミュニティが国のマンデートに答えよう、支援しようとしていることは非常に興味深い。日本のこれまでの努力のレベルと、コンソーシアムあるいは国家レベルでやってきたことがこれからどのように進展するのかは個人的にも注視したい。

宮入氏: 海外の事例については話したが日本の状況は話さなかったので触れたい。ORCIDは研究者が個人レベルでIDを取得する(完全無料)ほかに、研究機関あるいは出版社などからORCID memberになっていただいたところから会費を取るということをしている。400以上のmemberがいるが、まだイーブンになるにはほど遠い状況。
memberを増やしていきたい。NII,JST、2つは私企業、NIMS(昨年9月、最新member)の5機関がmember。正式サービスはNIMSのサービスが最もAPIを駆使してよく作ってあるのではないかと思う。これは年度が変わって4月のお披露目と聞いているので。
よくいただく質問として、researchmapやresearcher resolverとの連携がある。マニュアルで入力するのは困るといったが、それを地で行っているのがresearhmap。これはJST、NIIにお願いをしている。
プライバシーの説明をしなかったので説明したい。各アイテムに3つのオプションがあり、1.完全public(誰でも見られる、サーチエンジンも拾う)、2.自分にしか見えない設定(あまり意味、必要性はないかも)、3.trusted party?(一般には公開されていないしウェブからも見えないが、ログインして認証してトークンを渡した機関からは見てもらえるというオプション。研究者がガンガンデータを流したくはないがpublisherや大学、助成金支援機関には使って欲しい、といった場合には使えるオプション)。
性別や生年月日を入れるオプションはない。メールは入力できる(プライバシーオプション可能)。どこに所属しているが、どこの所属であるか、どういった出版物があるのか、といったことは公開情報に近い気がする。これらをきちんと使ってもらえるようにする、というのがORCIDデータ。なのでsensitiveなデータは置いていない。

宮入氏: 図書館に話をするとURAの範疇なのでURAにいってくれ。URAに言うと図書館に言ってもらえないとなんとも、みたいな対応がある。figshareみたいなものがあるとき、大学として、データが散逸してしまう問題にどう向き合っていくか?
マルパス氏: トレードオフ。確かに現在、研究者のコミュニティのなかでSNSの利用が高まっていて、こういったものが受け入れられている状況がある。Academia.eduやresearchgateには触れたが、そのほかにもMendeleyやGoogle scholarなどもある。研究者自身が投稿するというものについて、大学図書館が運営する機関リポジトリではなく、自らが自由に投稿するサービスのほうが成功してきているということを念頭に置く必要がある。なぜ外部のサービスが積極的に利用されているかについては注視する必要がある。研究者が求めている機能や特性があるのだとおもう。機関リポジトリについてそれほど研究者が利用しないことはなぜなのか考える必要がある。求める機能がないとか特定の機能がないとか。特定の研究者が外部サービスを使っているという状況から、機関リポジトリを使うように呼び戻すことが可能かどうかについては、大学が同じレベルのものを提供することがない限り難しいと思う。外部のリポジトリやプラットフォームが利用されているという状況をまずは認識する必要がある。同時に、個別の研究者が外部サービスを使っていることにメリットがあるということがあるのは確かだが、商業的な、外部のサービスが引き続き存続するかどうかは疑問が残るところなので。これは研究者にとってもトレードオフ。保証はまったくないわけなので。図書館がやってくれるように、研究者が発表するのを支援してくれるようなサービスが存続する保証があるかどうかを踏まえる必要がある(?)。
最後に付け加えたい点としては、インフラに関するリテラシー。インフラに対するリテラシーは確かに図書館が支援できる分野だと思う。figshareのようなインフラに関しても様々な属性があるということを認識する必要があるとおもう。プレゼンのなかで図書館は意識的にスチュワードシップのコーディネーションをしていく必要があると申し上げたが、figshareのようなリポジトリというのも大学のような研究機関のインフラの拡張版として捉えることが可能であることを認識する必要がある。実際にfigshareは研究機関向けのサービスもあるので、機関によってはデータインフラをfigshareによって運用している例もある。こういった商業インフラを悪いと言っている訳ではなく、こういったものを使うことに伴う諸条件を認識する必要があるという話。
アメリカやイギリスで機関リポジトリに移行が発生している。機関リポジトリがある機関において包括的なアーカイブであることを求める期待から、状況が変わり、機関リポジトリの機能はその機関の書誌情報(bibliography)であるということを求める動きに変わりつつある。なので、コンテンツのリポジトリではなくメタデータのリポジトリであるという風に位置付けが変わっているということが起きている。もともとはコンテンツの包括的なアーカイブであろうと言う期待があったが、これを研究者なり教員が自ら投稿するということで実現しようと言う試みは失敗に終わったと思っている。また、現在はリポジトリのインフラの一部でなければならないという、出版に関する環境において、方向性が力強く働いているということに対する認識もあるとおもう。カリフォルニア大学やオクスフォード大学では、機関リポジトリはメタデータのハーベスティングをするためのものだ、という位置付けに変わっており、教員の出版物に関する情報は外部のリソースを使ってやっていこうと言う風に位置付けが変わってきている。なので、機関リポジトリの機能や、何を求めるのか、管理の方法、といったものが変わりつつある状況にあると言える。
ということで、機関リポジトリをコンテンツのアーカイブとして使うということに関しては、外部のサービスで実現していこうと言う動きがあるなかで、figshareの重要性が高まっている。figshareは一般的にどんなものでも投稿できるという性質があった。研究データマネジメントツールとして使えるという素地は元々あったのだとおもう。figshareで最も多く使われているカテゴリはデータセットなので、figshareにデータセットを投稿したい、投稿して満足する、といったニーズが多いのであれば、figshareを機関のデータセット置き場として使おうという動きが出てきたのだと思う。ORCIDについては、グローバルなインフラということで、様々な媒体で公表してきた成果をORCIDにインテグレートしようという動きがあるとおもう。

宮入氏: 商業サービスとしてのresearchgateやfigshareについては立ち上げた人は元々研究者で、使いやすい/使いたいツールがなかったから作ったというところに端を発するもの。大学に身をおいているわけでもなく研究者でもないような自分のような人間にとってはfigshareに投稿するというのはごく自然な動き、しかもDOIが登録されてサムネイルまで付いてウェブサイトに簡単に埋め込めるみたいなサービスはあっただろうか。他方で、NIMSのように使い勝手の良い、レベルの高いサービスを展開しようとする動きもある。

以上

20160229 データシェアリングシンポジウム(ラウンドテーブルのみ)

第7回RDA総会にあわせて開催された「データシェアリングシンポジウム 科学の発展への起爆剤 ~データ駆動型科学の推進に向けて~」でのラウンドテーブルの書き起こしメモを公開します。

概要

開催概要 Overview

データシェアリングを円滑に推進するため、数々の課題の解決方法を検討する国際的な会合であるResearch Data Alliance(以下RDA)が2013年に創設されました。JSTはこの度、第7回RDA総会を誘致するのにあわせ、日本の研究者向けのデータシェアリングに関するシンポジウムを開催します。本シンポジウムはJSTとRDA共催による、アジア地域初となる「第7回RDA総会」に先立って開催されます。

オープンサイエンス促進の国際的潮流を受け、アジアでようやく議論が活発化しはじめたデータシェアリング。第7回RDA総会では、欧米を中心とした世界各国のデータに関わるプロフェッショナルと研究者が集う3日間の充実したプログラムを開催。その前日の「データシェアリングシンポジウム」は、政府・学術界の有識者による講演とセッションで構成され、参加者とデータシェアリングの可能性と取り組みについての議論を深めます。日本、アジア、世界。3つの観点からデータシェアリングを考える貴重な4日間となるイベントです。シンポジウムとRDA総会、多くの方のご参加お待ちしております。

データシェアリングシンポジウム

ラウンドテーブル

登壇者(※敬称略、メモ本文中では苗字のみで表記します)

  • 武田 英明(ファシリテータ)
  • 村山 泰啓
  • 伊藤 聡
  • 中村 春木
  • 柳田 敏雄
  • 辻井 潤一

ディスカッション書き起こし

武田: まず、お互いに他の講演者に聞きたいことや納得しないことはありますか?出ないみたいなので本題に。
武田: 共通の理解を深めるために司会から。データシェアリングにおける、インセンティブをどうするか、バリアをどう取り除くか?について。
村山: 地球惑星科学についてはデータを共有して研究を進めようと言う雰囲気がある。質問の前提として成果をどう扱うか、みたいな話がある。自分のいる分野では誰も反対しないからどんどんやればいいんじゃないですか、という意見になる。日本の学協会だとどうであるかというと、コミュニティ全体でのオープンサイエンスへのインセンティブやバリアをまだ持っているであろうと思われる。なので、、素地としては、古くから、ある種のデータについては共有すべきという総意が形成されてきているいから、そういったことをやろうとするのに適した分野であろうとは思う。他の分野について解決を図ったりインセンティブを見出していくことについては、今後必要なのかなとおもう。
武田: 地球科学の分野では元々サイエンスのなかにそれが組み込まれている感があるということですね。
伊藤: 材料科学については2つ。データの提供者(オープンにしたひと)が下手をすると提供損になる。データを提供した人が、それを使う人と同じようにメリットがないといけない、これが問題。あとひとつはDBをつくるとかデータキュレーションをするといったことは手間がかかるが論文が書けない。そうなると研究として評価されない。でも、1つ良いDBができると論文が何十本もかけるくらいの貢献になるはずだから、そういったことを評価する枠組みが欲しい。
武田: 材料科学だと比較的新しいというか違うアプローチになっていると、それをどう普及させていくかが要点でしょうか。
伊藤: 材料科学については理科年表のような資料がある。大昔はオープンだった。でも、今はそれに変わるものをオープンにして運営していく必要がある。
中村: バイオ系。アカデミアと企業の場合でぜんぜん違う。まずアカデミアについては、バイオ系は以前からオープン化が進んでいて、1つは、ジャーナルにも関係してくる。DBをつくるとか運営する、技術をつくること、については専用のジャーナルやissueがまとめて発表する。実はIFがどのジャーナルの運営元もセンシティブになってきている。なのでDBカテゴリを作って、DBを作った人が投稿すると、DBを使うときには必ず引用されるのでIFがあがってホクホクするといったビジネスモデルができあがっているので、DBを作ることのインセンティブはあがってきているようにおもう。もう1点、ジャーナルについて、先の話になるかもしれないが、現在のIFやピアレビューの仕組みはアレしてきている。何がピアレビューだと思うことが非常に多い。日本人は世界で一番下手くそな英語の使い手でもあるので、英語で論文を書く時に、データをきちんと書くことはできるが、英語でストーリーテーリングをするのはネイティブスピーカーにはどうしても劣りがち。本当にそれでいいのかと考えると、データジャーナルという言葉が午前中に出てきたが、サイエンスにおいてデータをきちんと集めるということが本質ではないかということで、さらに、IFというのは、そのデータが何回使われたのかということができるとおもうので、訳の分からないジャーナルのIFではなく、個々のデータのIFということについて、それぞれの研究者が何をしたのかもう少し尊重されるようになるのではないかと考えている。
武田: 企業側は?
中村: 製薬企業など、タンパク質の構造データを大量に持っている、ビッグファーマーは数千件とかそういう規模のデータを企業がもっている。それが色々な理由で出てこないという問題がある。アメリカではD3Rというプロジェクトがあったり、日本でもデータを出そうとする動きがあるが、企業の研究者レベルでは、出しても良いようなデータもあるが、規範というか、企業で得られたデータをなんで公にしないといけないのか!という考え方はある。これは日本だけではなく世界的に言えること。企業のデータのコントリビューションは大きいと思うが、考えていかないといけない、
柳田: 生命科学の分野は構造データがかなりDB化されてオープン化されていることはされている。特にライフサイエンスの場合は、机の上で、スモールサイエンスとして仮説を立てて、大発見をして、PD1のような形で、1人の研究で(企業と組んで)数千万の大発見がある。そういうことにワクワクする人は他人には話さない。自分しかでいない、自分だけでデータを取る、ということについては、何をしているかについてすら話さない。データを出すなんてあり得ない。何十年か前にワトソン研に行った時には、いまどういう論文を読んでいるかを隣のポスドクにすら明かさない。それで何をしようとしているかバレたら自分が損をするので。自分が良い研究をしたい、偉くなりたい、というのがインセンティブなので。融合研究ができますか?というと、それは無理、という空気がある。なので多分インセンティブはない。障害になるのは、個人の大発見したいという気持ち。人と協力して大発見しようなんて研究者はいないですよ。なので色々な会でデータシェアリングをしようというと、そんなものはサイエンスではないといって総攻撃を受ける。
武田: サイエンティストのモチベーションとしては分かる。過去の成果に依存して自分の成果を作っているということがあるはずなので、両方が言えるはず。
柳田: 理研や産総研を見ていて思うが、ある程度のスケール、人材、予算が必要なので、それは一般の大学には無理なので、理研のようにある程度ミッションオリエンテッドで、ある程度センター長のリーダーシップを発揮できる環境があるはずなので、そういうのはともかくとして。。データドリブンな研究について、成功例がいくつか出てくるとついてきてくれる人がいると思う。アメリカや韓国や中国などでデータドリブンな研究がうまく行ったと聞いて青ざめながら急に日本もやりはじめる、というのが最も怖いと思っている。
武田: データシェアリングやオープン化において全体のトーンであると思う。いろいろ、オープンに出来ないデータはともかくとして、オープンにすると良い成果があるということがある分野ではある。アメリカやヨーロッパではそれに気づいていて、それをやっている。気づいた時にパタッ…ではこまるので、2016年は既に遅いのかもしれないが、まだ間に合うかもしれない。
柳田: 間に合うかもしれない、ということではなくて、かなり戦略的にやらないと、自発的にはやらないので。もっと戦略的にやるべき。CRESTをやりますなんとかって言っても最も大事なデータは公開しないわけなので、うまく考えて戦略的にJSTがやらないと。
武田: 今日の核心的な問題に来ていると思うが、戦略的にやったらいい、ということはどんなことを考えているのか?
柳田: どんなにアイデアがあるわけではないが、規模感、金、リーダーシップ、研究者に対する保証が必要。そういう環境をつくること。辻先生が言うように、AI研究者とデータを取る人が1つ屋根の下で、議論をやるような形の環境を作らないと。人材もいないので、人材育成も込みでやるシステムをつくる。じゃないと、誰がお前の持ってきたようなデータを、ってなるし、誰がお前にデータなんかを提供するか、ってなるよね。
武田: バイオとAIでもよいが、どちらかがどちらに頼むということではなく、オープンな文化を共有するということを自ずと・・・
柳田: 自ずじゃない。かなり環境を作らないといけない。作ってバイアスをかけまくって、リーダーシップをとらないと。個々のサイエンティストはデータシェアリングなんてやりたくないんだから。
辻井: データシェアリングを考えた時に、計算機科学分野あたりでのオープンソース運動みたいなものは凄いうまく行った。それはなぜ?と考えると論文の引用回数がどうのとかを気にしない若い人たちがいて、ダウンロードされて使われていることを大事にするみたいな空気があるのかなと思う。それに影響を受けてノリが変わってきている分野もあるはず。しかし、先ほどの話ではそうなっていない、それはなぜ?
自動運転を考えた時に事故したときの責任は誰にいくのか?という話もある。クルマの場合は1つの欠損から玉突き事故みたいな感じでどんどん事故が起きる場合もあると思う。そういうときどうするのか?の問題もある。
データを作った時のアトリビューションが難しくなってきている。そのアトリビューションがレファレンスだけで行われているのが1つ悪いコトではないかと思う。研究者が動かないよねって。
武田: 自動運転車が世にでるようになると、プログラムを公開する、テストデータを公開する、といったことを行わないと社会的に受け入れられないのではないか。そうしないと、複数の会社が作っている時に、道路で走り始めた時に何が起きるのかわからないわけで。
辻井: 使うデータが少し変わると変わってくるとか、ペーパーに書いた内容だけでプログラムを作っても同じように動かないとか。プログラム全体をオープンソースにして、あるいは更にデータまでくっつけてやらないと納得されないし評価も難しくなってきている。ペーパー単体で評価するのがダメになってきているのは確かで、生命科学分野でプロトコルごと公開とか結果の詳細まで公開とか、そういったところに端を発するプレッシャーでオープン化を図る動きは出てくるのではないかと思う。

以上