20160317 研究データとオープンサイエンスフォーラム~RDA東京大会における議論を踏まえた研究データ共有の最新動向~

2016年3月17日のNDLでのイベントに参加しました。最後のディスカッション部分のみですが、手元のメモを公開します。
※私の聞き取れた/書き取れた範囲の内容です。もし、なにか問題がありましたらコメント欄などでお知らせください。

イベント概要

研究データとオープンサイエンスフォーラム~RDA東京大会における議論を踏まえた研究データ共有の最新動向~
(終了しました)

研究データに関する世界的な国際会議である研究データ同盟(Research Data Alliance:RDA)東京大会※がこのたび開催されることとなりました。これを機会に、研究データ共有に関する国内外の最新動向を広く共有するためのフォーラムを開催します。

日本でも研究データに関する動きが最近は加速しつつあります。例えば、ジャパンリンクセンターでは研究データへのDOI登録実験プロジェクトが進み、研究データの共有を目指す新たなコミュニティが広がりつつあります。また、国もオープンサイエンスの推進を前面に打ち出しており、研究活動や図書館活動等における仕事の進め方にインパクトを与えることが予想されます。

こうした潮流をどのように捉えればよいでしょうか?RDA東京大会における議論や国内外の動向を踏まえながら、研究者や図書館員をはじめ様々な立場の人々が共に考えていける場にしたいと考えています。基礎的知識に関する講演もありますので、研究データに興味はあるものの敷居が高いと感じている方も、どうぞお気軽にご参加ください。

研究データとオープンサイエンスフォーラム~RDA東京大会における議論を踏まえた研究データ共有の最新動向~|国立国会図書館―National Diet Library

ディスカッション(質疑応答) 16:40~17:40

司会進行は村山泰啓先生。最初に村山先生による各登壇者発表要点まとめの提示(下記)、その後、ディスカッション。

各登壇者の発表要点まとめ(以下敬称略、内容は村山先生による)
  • (北本) 研究データのオープン化
  • (武田) コミュニティ、DOI、日本vs外国
  • (村山) 国際動向への対応、国内での研究データ基盤
  • (能勢) データ業績、データ出版・データ引用
  • (小野) 相互理解、キュレーション、メタデータ、DCC
  • (近藤) Transdisciplinary, Knowledge action network, Long tail
  • (蔵川) データ本体ではないメタ情報、枠組みや運用に関する話題
  • (池内) データ人材・育成、データサイエンティスト、データキュレーター、キャリアパス、法的枠組み
  • (三角) 図書館員スキル・バックグラウンド、アーカイブの文化、サイエンスと人文・社会
  • (福山) 永続的アクセス(長期保存)
ディスカッション内容(一部漏れあり)

Q. 今日の参加者で図書館員・図書館業務に携わったいる人は?
A. 1/3くらい
Q. 研究者は?
A. 1/3くらい?
Q. 出版関係者?
A. 2,3名
Q. それ以外の人は、、
A. 結構いる。助成機関の人とかかな。

Q. テーマが膨大すぎて突っ込むべきところが分からないが、図書館員の立場として。誰にというわけではないが、図書館員が研究データに関われるかどうか/どこに関わるか、は難しい問題であるが、研究者から信頼される人かどうか(この人に任せていい!というところ)について、どういうスキルや人物であれば任せられるというイメージがあるかどうか
A. (能勢)難しい質問。データを扱う部署の大学図書館員と話したことがあるが、そういう人たちは情報をどう扱うかを普段から認識している。バックグラウンドを話さなくても議論がすぐにできる。そういう部署の人と話したときには、信頼できるとすぐに感じた。図書館で情報を扱っている人であれば特に不安は感じない(大学の中での経験から)。逆に、研究者の中でもデータのオープン化について知らない人がいる。図書館員はそういう人を扱いたくないと思うかもしれない。研究者も図書館員も、オープンサイエンスというキーワードに反応する人であれば共通の土俵に居る気がする。それ以外の人には響かないのかも。
A. (村山)欧米のライブラリアンの話を聞くと、図書館員がコンサルをやっているという話もある。ちゃんとデータをオーガナイズするやり方をアドバイスしてくれる(研究者に対して)というスタンスの議論がある。そうでないと、研究者は、自分の研究が出来て、論文が書けて、データは手元にあるよ、ということにしか関心がない。データ資産を残すということに関してライブラリアンのprofessionやexpertiseであるかと。

Q. コンサルをやっているのは図書館情報学の博士だとか化学の博士だとかを持っていて、さらに図書館員をやっているから任せておけというノリだが、日本のライブラリアンにはなかなか当てはまり難い気がする。かと言ってそういう人が育つのを待っているほどの余裕はない。任せてくれればなんとかするよという立場でも自分自身あるが、浮世絵とか訳わかんないものをこれまでも扱ってきたのだからなんとかなるよといいたいのだが、どういう風にアプローチすれば良いのか
A. (小野)村山さんの話は高度な話。分野によって違うと思う。DIASとかであればデータベースの知識をもっている人もいる。自分たちでデータ管理できてしまう。そういうところでは、データをそんなに預けたいという意識はない。人文系とか、自分たちで管理できないところはニーズが有ると思う。まずはニーズの見極めからはじめたらよいのではないか。その意味で、図書館にデータ保存をやるなということを言っているのではなくて、周辺情報からはじめたらという意味でメタ情報からはじめたらということを話した。仮に自分が図書館員にデータを預けるのであれば、真面目な人だが、(図書館員には)真面目な人が多いと思うので問題ない。あとはインフラとしての安定性や持続性。これはNDLは抜群だと思うし。最低ラインとしては、情報やデータベースの知識が最低限あるほうがよい。民間の業者で全部ふっ飛ばしたとかああいうのはナシ。
A. (近藤)地球研でディスカッションをやった。データライブラリアンの役割ということを話し合った結果、データライブラリアンは2層に分かれるという結果になった。レファレンスとして、どこに何があるかどういった資料があるかということと、そのデータを使うとこういうことができるよということ、の2層。
A. (北本)任せるという時に2つの側面がある。1つはtrust(信頼されているから任せる)。分野を超えるにはtrustが必要だということ、それは重要、美しいやり方。もう1つはあまりhappyではないかもしれないが、苦痛を除くというものがある。苦痛を除くことで任せてもらうというやりかた。一方でデータ公開が面倒と思っている研究者が実は多いはず。そこが実は図書館員がやるという可能性もあるし、もうひとつは、今日の話には出てこなかったが、商業出版社が凄く意識しているところ。苦痛を取り除くのは商業系の人たちのほうが得意。未来としては図書館員がやるか出版社がやるかというところ。trustを築くこと、その一方で苦痛を取り除くこと、を意識するほうがよい。

Q. 医療系に携わってきた身として。日本に一番欠けているのは共同利用型のデータベースだということを30年くらい言ってきた。大きな切り口ではなく、個々の問題に対して異分野の人たちが集まってやらないと具体的なソリューションは出てこないとずっと感じ続けている。その辺りが物足りないと感じたのは、学術会議でもあったが、日本の遅れというのはいつもfollowerになってしまうところ。日本独自のパラダイムシフトが必要(科学技術の進歩や社会科学の考え方による)だが、1962年以降日本発のアイデアは出てきていない。日本発の変える発想が出てこないのはなぜか。そのあたりの話を聞きたい。発想があるのかどうか。
A. (武田)直接の答えにはならないが、RDAのとき面白いと思った出来事。RDAのなかに特殊なグループがあり、農業系のグループがある。小麦のデータの相互運用性みたいなことをやっていて、これは本当に小麦の話をやる。なぜそういった取り組みがあるのかというと、あれはむしろ逆で、農業データをやっている人がRDAをつかってグローバルなデータ共有を実現しようとしている。当事者は農業系の研究者や機関である。あれはむしろRDAを道具にしている感じ(どちらかというと)。分野の研究者や当事者がその気にならないといけなくて、あれはむしろそのひとたちがその気になってRDAをテコにしてグローバルなデータセットをつくろうとしている。RDAのような活動を日本でやろうとしたとき、仕組みは恐らく同じで、フレームワークは用意するけど乗るかどうかはそれぞれの分野の研究者や当事者がその気にならないとダメ。ある意味、こういったものをつくれば、その気になれば、ここに来れば良いことがあるかもしれないよということが言えるかもしれない。いまのところはその程度かなと思う。

Q. 20年くらいアメリカの大学にいて、図書館を使う機会があった。かなり情報は英語で処理していかないと、先ほどのスピーカーのように、言っていることがわからなかったという報告になると思う。皆さんどれくらい英語の文献を読むのに時間を費やしているのか聞きたい。
A. (村山)それはものによって違いますよね。それは国際化するうえでの日本人の国際コミュニケーションのスキルの程度ということ?
Q. スキルというか、データそのものの理解ができないということにたいする懸念
A. (村山)文献からデータを使おうと言う視点?
Q. メタなところで追いついていないのではないかという懸念
A. (村山)それは先程の文脈で、分野によってどのデータがどんなふうに使われていくかということで、適不適があったりモチベーションの違いが遭ったり、、
Q. 自分は人社なのだが、日本は人社について予算も少ないし、人社自体が科学じゃないと仰る方がいて。人社が科学じゃなかったら科学自体が成り立たないのではないかと思う。
要するに、バーっと日本語で文献をみたところ、シンプルな形で書いていて、フォーマットは真似ているが、そこに流れている思想性みたいなのはフォローできていないままやっている印象がある。なので、データばかりになると、何がそのなかに含まれていないのかという議論が非常に大切で。誰が書き手であり、どういうことが保存されていて、それが日本の女性の地位のことを言うと、、データを見ていたら国際的には156位です。それは国会議員の数が全世界で156/18X位。そうするとパブリックスペースでどういう言語が使われているかという歴史まで辿らないといけない。図書館というパブリックスペースのなかでどういったデータが蓄積されていくのか行かないのかという議論に行かないといけなくなる...(後略)
A. (北本)ご質問の話は、デジタル・ヒューマニティーズに関わっている身として、ジェンダーの話はよく出てきて、データが偏っているのではないかという話はある。アーカイブされたデータについて、バイアスがあるのかとかいうのはデジタル・ヒューマニティーズやデジタル・スカラーシップとして分析されるべきこと。だがそういった分析はデータ自体がないと分析できないし、データがある場合に批判的な検討を行うことも重要であるが、今回の議論ではないと思う。ジェンダーやマイノリティーはデジタル・ヒューマニティーズの研究として行なわれるべきだと思う。

Q. 先ほどの議論を今日の趣旨に無理矢理持って行くと、RDAの中で日本のプレゼンスをどうやって高めていくかということに至ると思う。第8回に臨む上で、日本のプレゼンスを示すうえで、今回の出席からの感想を踏まえて、何かできることがあるのかどうか?
A. (村山)東京だから出席した、という人がいるのも事実なので、どれだけ出席できるかどうか。ヨーロッパではデジタル科学基盤の整備プログラムのなかで旅費等が支援されているから出ている部分もあると思う。そういった中でどう考えるべきか。

(コメント?) RDAは情報を貰いに行く場所でない。CODATAのほうが議論など内容としてはよっぽどマトモなので。RDAに乗り込むだけではなくて日本でイベントをやったらいいのではないか(という趣旨だったように思う※筆者の解釈)

Q. NDL電子図書館担当。RDA関係ではないがUCLAのライブラリアンと話をしたときに、UCLAではhumanities macroscopeという(略称huma)人文向けのオープンプラットフォームをつくり、自由にデータを使える、自由にデータを公表できるという紹介があった。大阪大学のシンポジウムでも紹介していた。日本ではなかなかプラットフォームを作るところまで至らないとは思うが、本日話を聞いたなかで、何か使えるよという形にしていくのもひとつのやりかただとおもうし、図書館員的にはメタデータ整備などもやらなければならないが、何か目に見える形でまずやっていくことを考えるのも1つかなあと思う。いわゆる人文以外で何かやっているという事例はあると思うが、サイエンスとしてのhumanitiesも何かできればいいなという感想を抱いた。そういう意味では人文系で何かプラットフォームが動かせないだろうか?お前やれよと言われたらつらいものがあるが。何か考えのある人がいればコメントを。
A. (村山)ある種特定の分野で成果を出すこととプラットフォーム事業をやるということがなかなか調和に時間がかかることである。すぐに効果が目に見えないということがあるかとおもう。質問の趣旨とはずれるかも知れないが、いくつかの議論を踏まえて、整理を兼ねていうのであれば、小麦のデータのWGの話があったように、特定分野で何かやろうという試みもあるのだが、実はそれ以外にRDAなどとは全く関係ないところで、DIASもそうだしライフサイエンス統合DBもそうだし、それぞれ独自に活動して成果をあげているところもある。それと違う部分でのプラットフォーム事業というところでのRDA、G8あるいはG7でトップダウン形式で要望がきている。効用はすぐに見えないが、プラットフォーム事業がそろそろ動き始めないとまずいのではないかと思っている人がいるのではないか。個々の事業における成果を追求していくことが並行しているなかでの、情報学やライブラリアン、図書館情報学的なデータのまとめ方に効果があるということを思っている人がRDAという場で可視化されていると解釈される。ここで出てこない分野は、いずれここに出てくる/つながってくるということを言っている先生もいる。最初はとにかく分野横断でやっていくということを言っている人がいたが、最近はフリースケールネットワークという言葉を使っている人もいる。

Q. 研究者はどこにデータを持っていけばいいのか?再利用するときに、どう再利用されるのかということに対する不安感についてどうするか。人がそこに持っていけるようにする取り組みが重要(中身が見られるのか、見られないのか、あるいはダークアーカイブのような取り組みとか、に関する前置きつきのコメント)
A. (武田)今日1つわかることは、そもそも複数のレイヤーがあって、それぞれの事情ごとに考えないといけないということ。1つは、お互いにどうデータが使われるかという、使い方やライセンスのレベルもあるし、さらにその上には信頼できるかどうかというtrustのレベルもある。ライセンスだけでは解決できないからtrustがいるとか。下側で、データを置きたいときのインフラの話もある。3つ4つの層があって、分野ごとに違う問題だなあと思っている。全体の構造を理解するのが大事なことであって、ただ、理解しただけではアクションにつながらないので、そこは大きな問題。そのためには、ヨーロッパのプロジェクトが興味深いのは、EUDATの方とイベントをやったのだが、情報系の人とドメインサイエンス(極地データの人とか、言語リソースの人とか、個別サイエンスのひと)と共同してプロジェクトを回すことになっていること。情報系は横に繋ぐ(ドメインを越えて繋ぐ)ことをやっていて、ドメインサイエンスの人は縦のつながりで、複数の人たちを取り込んでプロジェクトをやるのがそれぞれのコミュニティのミッションになっていて、この分野ではこれがいるけどこれがいらない、この分野では、といったことを調べている。こちらは公開しないけど保存しておきたいとか。こちらは巨大データだからサイトごとにコピーしたいとか、個別の事情とニーズがある。やっていて分かることがあるはずなので、日本でもある程度の規模のドメインサイエンスのプロジェクトをやる時に、必ず情報系の人間とセットでやることをするとか。悪いパターンは、情報系が単なる便利屋になってしまうことがあると困るので、情報系は情報共有インフラで団結というか、それで1つのコミュニティを作って、このプロジェクトではこういうのがあるからこういう技術を使おうとか、縦と横を繋ぐような研究プロジェクト構成を目指して行って、個別の問題を洗い出して解決するのが遠いようで近道かなあとおもう。ヨーロッパはそれを意識してやっているのではないか。その全体を見ているのがRDAだったりという構造ではないか。研究者を動かしやすいのはある程度の規模の研究プロジェクトが走る時なので、そういうときにうまく仕組みを組み込みたい。どうやったらいいのかはわからないけど。

Q. 図書館情報学の研究者。OAをやっていたが、人社も含めて、論文や著作の形で成果を求められていたところが、もっと細かいところまで求められてきているのが多くの図書館情報学者の所感ではないか。大蔵経データベース*1などは人文系でまさにやっていて目に触れやすいものではないか。テキストデータがあって、そのすべてのところで画像データと結びついていて、もちろん中国語やチベットや現訳から、といったところから、NIIのWeb APIとも連動、NDLサーチも組み込まれていて。なのでテキストを読んでいて、みるとNDLサーチで出てくる論文ともリンクしている。私が見ていて思ったのは、これがオープン化の意味だと。NIIがWeb APIを公開しているからこそ可能になった組み合わせなので、自身を含め、研究ドメインごとに何ができるのかわからない、どういう風になっていて、どう繋がるのか、がみえないのが不安の要因では。そのつながりが見えることが1つの意義では。すべてがオープンになっていったときに何かでうまく繋がってくれれば最終的にはオープンなプラットフォームになるのではないか。今はまだ見えないがつながりうるという意味で、まずは巨大な山をいくつか見て、それではダメな部分、できない部分、long tailの部分、について図書館員がうまくすれば担当できるかもしれないという夢物語を抱いた。
A. (村山)ちゃんと見せていくこと、基盤を作っていくこと、はRDAやEurope Commissionでも共通の問題意識であり課題であるとおもう。

Q. (九州大学大学図書館員) 大学や出版社がデータリポジトリを作らないといけない機運が高まっているが、NIIは何か考えているのか?
A. (武田)現状何かあるかと言われれば、ない。ただ、やりたいとは言っていて、所内では議論もしている。本当にできるかどうかは常々考えながらやっている。やりたいという意識はあるが、それに足る状況にはないので、そこは悩ましいところ。あまりそれができるまで待っているとは言わずに、どんどん行動力のある大学は独自でやってほしい。むしろ九大がやっているから!と言いたいくらい。
A. (村山)long tail small dataについてはNDLのWARPが収集してアーカイブしている。なので3年前の京大のページなどが見られる。自分の仲間のページについて、小規模なテキストなどはホームページの一部として保存していたりするので、そういうのを含めて日本のアーカイブ体制は、実はあるところにはある。ないものはなんだろう?ということを改めて分析したらいいかなとおもう。WARPの各ページにDOIが振られたらよいと思う(笑)。

以上