WikiCiteの紹介 - コーギーのしっぽ

はじめに

本エントリーは、Wikimedia Advent Calendar 2018 - Qiitaの16日目の記事として、WikiCiteというイベントの紹介と参加報告を行なうための文章です。ブログのエントリーとしては、なかなか久しぶりの更新です。

同Advent Calendarにおいて最も関連する内容は、「Scholia - Fumihiro Kato / 加藤文彦」で紹介されているScholiaというアプリケーション、サービスです。また、「WikidataからWikipedia記事の下書きを自動生成するMbabel - Qiita」の内容も、(1) WikidataのデータをTemplateを用いて他プロジェクト (Wikipedia) から呼び出す機能である点、(2) 特定の記述を半自動的に生成する機能である点が共通する要素であると捉えています。特に (2) は、後述する「Cite Q」というTemplateと発想やアプローチが似ています (ただ単に、発想やアプローチ自体が、割とありがちなものであるということかもしれませんが)。

筆者は、筑波大学大学院の博士後期課程学生で、専攻は図書館情報学です。研究では、Wikipedia上の学術文献の参照記述として、特に「DOI (Digital Object Identifier、デジタルオブジェクト識別子) 」を対象とした分析に取り組んでいます (researchmap)。ですので、WikiCiteと私の繋がりは「Wikipedia」と「DOI」です。

なお、本エントリーにおいては、基本的には人名に敬称等は付けず、そのまま記載することにします。

内容が長くなってしまったので、WikiCiteについて既に知っているという人は冒頭の内容はスキップすると良いでしょう。まったく知らない人は、興味が持てそうな部分だけ断片的に目を通すのが良いと思います。もし、私が他人の立場だったら、一字一句すべてに目を通そうとは思わないだろうので……。。

WikiCiteとは

WikiCiteは、Wikimedia Foundation の Director, Head of Research, Research である Dario Taraborelliが中心となっているイニシアチブであり、コミュニティです。

Darioは、学術出版物の引用 (citation) データを制約なく流通させ、利用するための Initiative for Open Citations (I4OC) というイニシアチブ*1における中心人物でもあります。

彼 (ら) のビジョンは、(1) 引用情報を含む (可能な限り多くの) 書誌データを自由に利用できるようにし、(2) それらのデータを柔軟に登録・蓄積できるようなインフラを構築・整備し、(3) WikiProjectをはじめとするウェブ上の様々なプラットフォームやサービスから柔軟かつ便利に使えるようにする、ということであろうと解釈しています。 (1) は、I4OCをはじめとする活動によって、(2) は、 (少なくとも現状では) Wikidata によって、(3) は、 WikiCiteを中心として展開されている様々なプロジェクトや試みを通じて、実現が目指されているものと私自身は解釈しています。

WikiCiteにおけるコミュニケーションのためのチャンネルは、主にML (メーリングリスト) のwikicite-discuss、Twitterのハッシュタグ #WikiCite、Twitterアカウント @Wikicite です。Twitterのハッシュタグはもちろん、MLもオープンですので、具体的な参加者や取り組み、意見交換等に興味があれば、とりあえず覗いてみるのが良いでしょう。

既に少し述べたように、WikiCite運営者のビジョン自体が幅広く、また、少なからず野心的であるため、WikiCiteコミュニティやイベントにおける参加者の属性や関心も多様です。WikipediaやWikidata等のWikiProject自体に強い関心がある人 (Wikimedia Foundationに所属する研究者やスタッフを含む) もいれば、WikipediaやWikidataの編集者として多くの貢献を果たしている人、学術出版関係者や引用データベースを構築している人、ライブラリアン (大学図書館員を含む) 、GLAM寄りの人もいます。あるいは、私のように、研究対象としてWikipediaや書誌情報に関心がある参加者もいます。もちろん、実際の参加者の属性はもっと多種多様で複雑なものですし、全員がWikiProjectにおいて編集者として活動しているわけではありません。やや強引かもしれませんが、WikiCiteにおける共通の関心は「Bibliographic data」と「WikiProject」と言えるでしょう。

以下では、本エントリーのスコープとして、2016年から年に1回開催されているイベントとしてのWikiCiteを扱います。

WikiCiteに参加して

このエントリーの執筆時点で、WikiCiteは過去に3回開催されているイベントです。2016年から、年に1回のペースで開催されています。私自身は、2016年にベルリンで開催された「WikiCite 2016」(初回) を除き、2017年にウィーンで開催された「WikiCite 2017」と2018年にサンフランシスコで開催された「WikiCite 2018」に参加しています。日本人では唯一の参加者です (いつまで使える表現なのだろうか?)。

私が参加したWikiCiteは、いずれも、当日はライブ配信が行なわれ、アーカイブとしても動画が残っています。

また、年1開催のWikiCiteやMLでのやり取りだけでなく、Wikimania のようなイベントでも議論の場が設けられているようです。Wikidata:WikiCite/Roadmap - WikidataにはWikimania 2018においてプロジェクトの方向性についてディスカッションが行なわれた記録が残っています。Wikimania 2018での議論を通じて、WikiCiteに関するいくつかの方向性が定まってきつつあるようで、WikiCite 2018では、それらの方向性をベースにグループ分け等が行なわれていました。

WikiCite 2017、2018ともに、3日間のイベントです。参加者および所属の一覧は、イベントのページに掲載されています (2017、2018)。プログラムや個別の発表内容等もすべて公開されています (2017、2018)。

イベントの内容は、1日目がConference、2日目がSummit、3日目がHackです。1日目は、WikiCiteプロジェクトの概要や、これまでの歩みや今後の方向性を含む内容が、基調講演や現在進行中の各自のプロジェクトに関する紹介を通じて発表されます。2日目は、1日目の内容を踏まえつつ、いくつかのグループに分かれての討論 *2 をします。最後に皆で集まってグループごとに成果を報告し、共有します。3日目は、前の2日間を踏まえつつ各自のアイデアをブラッシュアップし、関連するアイデア同士はグループとして統合したうえで、各グループに分かれてアイデアソン&ハッカソンをします。2日目と同様に、最後に各グループの成果を報告・共有し、全体的な検討をしたのち終了です。

2018年は、2日目の夜に「Social」がありました。文字通り、参加者同士の「親睦」の時間です。Social以外でも、休憩時間中やグループごとの作業において、参加者間で会話をすることはもちろん可能ですが、参加者間での交流が特にやりやすいのはSocialでした。サンフランシスコのバーに行ってお酒や食べ物を摘みながら (立食なので自由に移動して) 参加者同士で会話ができ、相手のバックグラウンドが少しずつ見えたことと、自分の研究に関係が深そうなプロジェクトについて発表していた人物と直接会話できたことが嬉しかったです。

また、2017年と2018年ですら方針が一定ではありませんが、1日目を中心に、Lightning Talk (LT) の枠が設定されています。何か短時間で発表したり呼びかけたい場合は自由に登壇することができるため、とても有用です。私は、自身の研究紹介として、分析結果の興味深い部分を中心にLTとして報告を行なっています (2017年の発表資料、2018年の発表資料) 。特に2018年は発表時間が3分と非常に短かく (事前の準備不足も相まって)、うまく話せなかった気がして落ち込みましたが、おそらく分析結果自体がシュールで目を惹くものであったため、発表後に「面白いトークだったよ」、「興味深い結果だけど、あの編集者は何者なんだ?」と声をかけていただく機会が多々ありました。このように、たとえ短時間の発表であっても、共通の話題ができることと、自発的に話しかけなくても相手から話しかけてくれる機会が増えることは実にありがたい効果です (特に、英語を流暢に扱うことが難しい私にとっては)。

さて、ここまで一般的な事項ばかり長々と書いてしまいました。2017年、2018年と参加した範囲で、私にとって興味深かった内容をピックアップします。

DarioによるKeynote: WikiCiteが目指す方向性?

個別具体的な話題は後述しますが、WikiCite 2018に参加して驚いたことのひとつに、WikiCiteが目指す方向性として、Wikipediaで参照されているコンテンツのみに留まらず、(究極的には) あらゆる情報源に関するデータを蓄積しようとしていると示されたことが挙げられます。

docs.google.com

Keynoteでは、「Wikipedia上で、DOI、PubMed (PMID, PMCID) を使って引用されている学術文献については、すべてWikidataのアイテムとして利用できる状態になった」ということがサラッと述べられていました。地味かもしれませんが、やはり、これは凄いことだと思います。そのうえで、もっと対象範囲を広げたいという考えのようです (なんと野心的なことか) 。具体例としては、WikidataでのBookのカバレッジはもうちょっと頑張りたい。また、学術文献であっても、たとえば、DOIのような識別子がないものや、書誌データへのアクセスが制限された文献や歴史的資料はカバーできていない。ニュース記事、特許、テレビ番組、オーラル資料等は、データモデルの検討から行なう必要がある。かなり大規模なデータセットになってきたのはいいけど、名寄せ等は十分にできていない、などなど。

Can @Wikicite be a Bibliographic Commons @ReaderMeter #wikicite pic.twitter.com/lrsRBAT1eS
— Susanna Ånäs (@susannaanas) 2018年11月27日

正確に理解できているか怪しい部分もあるのですが、方向性としては大きく3つのシナリオがあるようで、それぞれ、「(S) WikipediaをはじめとするWikiProjectで参照されているコンテンツに対するデータベースを作る」、「(M) 前出の (S) よりもスコープを広げ (Zika Corpusのような) WikiProjectで参照されているコンテンツの単なるデータベースを超えた枠組みを目指す」、「(XL) 書誌的なデータなら何にでも対応できるような基盤となるプラットフォームを作ろう」が検討されていました。来年はXLがベースラインになっている可能性もありますが；

初日の発表を聞いたり、個別に質問したりして分かったことですが、ライブラリアンやカタロガーのような属性の参加者は、そもそもWikipedia上で参照されているからどうであるといったことに軸足を置いていないようです。当然と言えば当然ですが、彼らは、自分たちの作っている様々なリソースに関するデータセットについて、なるべくオープンなライセンスを付与し、とりあえずはWikidataに突っ込んだ後、そこから連携可能な対象から (最大限、使い勝手の良い形で) 参照できるようにすることを考えているようです。つまり、大前提として (S) プランではないのです。一部の参加者に個別に質問した印象では、たとえば日本国外の大学図書館ではWikidataに対して組織的に注目が集まっていて、その一環として参加しているというわけではなく、どちらかというと個人の関心のもと、登録先や連携先としてWikidataが良さそうだと思って動こうとしている風でした。国や地域ごとに事情は異なるかもしれないので、全体的な傾向はまったくわからないのですが、Wikidataがオープンなインフラであるということと、既に大規模なデータ登録が行なわれた実績があることが背景にはあるような印象です。将来的な展望や位置づけは不明ですが、いまのうちにWikidataと連携する姿勢を見せておけば古参ぶれる可能性があり、悪くない選択肢かもしれません。

さて、私自身にとっては、そもそもの研究の分析対象からして (S) の範囲で収まってしまっていますし、(M) や (XL) の案について「泥臭い」と捉えている節が多分にあるのです。ただ、(M) や (XL) を目指そうとする人たちがどんな人なのかは少し分かる部分があり、その点は気づきでした。とりあえず、一番広いスコープでは何をしたいって意見が出るんだろう? ということが知りたかったという理由から、WikiCite 2018の2日目、Summitでは、XLのグループに参加しました。途中で疲れて抜けてしまったのですが、ライブラリアンやカタロガー、GLAM寄りっぽい人がいたのでしょうか。データモデルの検討をやりたいと言っている人もいれば、Wikidataに自分たちのデータセットを放り込みたいものの、同時にデータの品質についてもコントロールできるようにしたい、という意見も出るなど、色々な意見が出ていた以上のことは、よく分かりませんでした。

Cite Q

WikiCite 2017にてAndy Mabbettが紹介しているのを見て初めて知りましたが、「Cite Q」という名称のTemplateの開発が行なわれています。詳細はTemplate:Cite Q - Wikipediaを参照のこと。

Cite Q Template自体の導入状況は言語版ごとに異なる (どの名前空間で利用可能か等) 様子ですが、これは学術文献や書籍等の出典を記述するためのTemplateの一種です。この手の出典を記述するためのTemplateは複数存在し、たとえば、Template:Cite journal - Wikipediaなどがありますが、前提として、Templateに合わせて書誌事項を手作業でコピペする必要があります。あるいは、DOI Wikipedia reference generatorのように、DOIなどの識別子からTemplateに合わせた記述を自動生成するサービスも存在します。

これらの仕組みとは異なり、Cite Q Templateは書誌情報を記録した「WikidataのエントリーのID」を指定して呼び出すだけです (もちろん、前提として、Wikidataに当該のコンテンツのIDが存在する必要がありますが) 。

たとえば、Template:Cite Q - Wikipediaで示されている具体例ですが、

{{Cite Q|Q15625490}}

と記述すると、

Jeffrey T. Williams; Kent E. Carpenter; James L. van Tassell; Paul Hoetjes; Wes Toller; Peter Etnoyer; Michael Smith (21 May 2010), "Biodiversity Assessment of the Fishes of Saba Bank Atoll, Netherlands Antilles", PLoS ONE, 5 (5), doi:10.1371/JOURNAL.PONE.0010676, PMC 2873961, PMID 20505760

の記述が自動生成されます。仕組みとしては、Wikidata上のエントリーであるBiodiversity assessment of the fishes of Saba Bank atoll, Netherlands Antilles - Wikidataに書誌情報を登録し、それを呼び出しています。また、著者名は著者のエントリーと紐付ける、雑誌名は雑誌のエントリーと紐付ける等の対応付けを行なうことで、より詳細な出力結果を得ることに成功しています。

ただ、これは何らかの方法で対応する項目同士をリンクさせる必要があります。もちろん、元々の関連性が自明で、誰でも容易に理解できる (あるいは何らかの機械的な処理によって実現可能である) ものであれば話は簡単ですが、そうでないものも多数あるでしょう。この例では、論文著者のうち「Kent E. Carpenter」のみにWikipediaへのリンクがありますが、これはKent E. Carpenter - Wikidataに英語版Wikipediaへのリンクが登録されているからです。ただ、第一著者のJeffrey T. Williams - WikidataのエントリーもWikidata上には存在し、ORCIDのiDなども紐付けられています。すべてを手作業でやっているわけではないようですが、いずれにせよ部分的にはかなり泥臭い作業を伴うことが行なわれています。

実は、私のエントリーもある (Jiro Kikkawa - Wikidata) のですが、これはFinn Årup Nielsen - WikidataがWikiCite 2017の期間中に作ってくれました。イベント期間中、観察していた印象では、大体いつもラップトップでポチポチとWikidataのエントリーをいじり、Scholia側の出力結果を見ては修正を繰り返していたように見えました。つまり、彼らが取り組んでいるプロジェクトとは、そのような世界です。非常に尊い試みだとは思いますが、私自身は何も貢献できていません。

話が横道に逸れましたが、どれくらい同定識別を含む処理に努め、いかにして精度を高めるかという話は、どちらかと言うとWikidata側の話です。他方で、Cite Q Templateの素晴らしい点だと思うのは、(Wikipediaの各言語版および各ページに書誌情報を分散させるのではなく、) Wikidataに書誌要素とその値を集約できることです。仮に、すべての言語版からCite Q Templateを本格的に使用できる環境が整うと、書誌事項をその都度手入力する必要はない (繰り返し使用することができる) し、言語版ごとに英語表記のスペルが異なることもないし、単純なミスも生じにくいです。また、何か修正や変更を加えたい場合においても、Wikidataのみを修正すれば、Wikipedia上でCite Qを使って呼び出されている記述すべてに反映されるでしょう。これは、たとえば撤回論文などのケースにおいても有効でしょうし、そもそもWikipediaのTemplateについてほとんど知らない人にとっても使いやすいかもしれません。つまり、これはWikipediaの出典Template界における書誌ユーティリティの実現です。胸が熱くなりますね。

Andyに「将来的にはCite Qがスタンダードになるのかな?」と質問したところ、WikiCite 2017の時点では、「その点は、Wikipediaコミュニティのコンセンサスを形成できるか否かにかかっていると考えている。しかし、それには時間がかかるだろう。」というような返事でした。

Citoid

Cite Q Templateと似た話と言えば似た話ですが、Citoidという、IDを指定するだけでCiteできるMediaWikiの拡張機能が開発されています。説明によると、URL、DOI、ISBN、PMID、PMCID、QIDのいずれかを指定すれば、該当コンテンツの書誌事項を自動的に取得してくれる機能です。ビジュアルエディターのなかで動くというデモが行なわれていました。

Citoid、Cite Q Templateともに、学術文献の参照記述を手動で記述しなくてもOKな世界を目指すという点では目的を同じくするものであると言えるでしょう。

なお、日本語版WikipediaにおいてもCitoidを導入するための動きがあるらしく (⚓ T192528 Use NDL API for ISBN/book data、Wikipedia:井戸端/subj/ビジュアルエディターに参照ツールとcitoidサービスを導入する提案 - Wikipedia)、CiNiiや国立国会図書館サーチ (NDL Search) に関するAPIやライセンスについて、Citoidのなかのひとに聞かれました。私が知る範囲のことは答えましたが、CiNiiもNDL Searchも個人がやっているレベルのサービスではないはずなので、もっと適切な人とやり取りできたほうが先方によっても有益であるはずなのにな、と感じました。

あと、もはやCitoidとは関係ありませんが、(最近話題の) J-STAGEのことも一応書いておきます。

Internet Archiveのなかのひとから、J-STAGEのメタデータやコンテンツをクローリングするにはどうすればよいのか? という質問を受けました。メタデータについてはDOI側から取得するのが良さそうであると回答し、JaLCメタデータとDOI Citation Formatterについて紹介し、デモンストレーションをしました。J-STAGEについても、個人がやっているレベルのサービスではないはずなので、もっと適切な人とやり取りできたほうが先方によっても有益であるはずなのにな、とは感じました。正確に聞き取れたかどうか確証がありませんが、コンテンツをクローリングしたい理由を尋ねると、「もちろん、Porticoのようなダークアーカイブがあることは知っているけど、たとえばJ-STAGEでフリーになっているコンテンツのデータは含まれていないし、見られなくなったら困るからアーカイブしたいんだよね」というような話でした。コンテンツのクローリングに関しては、良いアイデアを持ち合わせてはいませんが、彼らはコンテンツ自体のライセンスを自らは有さない、プラットフォームの提供者に専念しているので、「そんなこと言われても、個別の学協会に聞かないと一切の対応はできない」というロジックになる可能性が高いと個人的には思いますと拙い英語で伝える努力はしました。(もし、事実とまったく異なることを言っていたら、ごめんなさい。)

Scholia

先述のFinn Årup Nielsenが中心となって開発されているアプリケーション、サービスである「Scholia」ですが、Scholia - Fumihiro Kato / 加藤文彦の説明が非常に分かりやすくて素晴らしいので、是非そちらをご覧ください。

1点だけ補足すると、Nielsenが自らの発表のなかで、頻出Topicおよびそのスコアを表示する機能を紹介していました (たとえば、このページなど)。text-to-topicsのページにテキストを入力して実行すればTopicを自動抽出するのだそう。改めて尊いと感じましたが、やはり、それと同時に「泥臭いような気がする」と思う自分がいました。

このような泥臭いと感じる部分は、個人的には正直「うーん」と思っています。あまり大声で言う勇気はないのですが、ここで胸の内を吐露すると、Web of ScienceやScopusが商業的プロダクトとして成立するうちは、依然として、泥臭いままなのではないかと思いますし、眼を見張るようなブレイクスルーがあるのかどうかに関してはやはり懐疑的です。人海戦術的なアプローチで取り組んでいる人たちがいるなかで、どれだけ優位に立てる可能性があるのだろうかとも感じます。いや、たとえ、優位に立つことが目的でなかったとしても、どのような部分に独自性が現れるのかは疑問に思っています。しかし、その一方で、WikiCiteのコミュニティに出入りするようになってからというもの、オープンであることを前提にした基盤やシステムのポテンシャルはすごいなと感じるのもまた事実です。結局、これらの思いの間で揺れる自分がいて、彼らのビジョンがあまり掴めていないのかもしれないなとも感じます。それゆえに「大胆」や「野心的」などの形容をしたくなるのだろうと思いますが、蓋を開けてみれば大胆でも野心的でもなかったという可能性が、まったくないわけでもないのかもしれません。

Zika Corpus

Daniel Mietchenが中心となって構築されているコーパスとして、ジカ熱に関するデータセットを構築するプロジェクトがあります。詳細は、Wikidata:WikiProject Zika Corpus - Wikidataを参照のこと。

私自身、あまり内容を理解できていないのですが、DarioがWikiCiteの紹介をするときに前述の「Scholia」と並んで最もよく参照しているプロジェクトです。おそらく、という前置き付きですが、単純に関連する書誌情報を集めてくるだけでなく、関連性を可視化したり、名寄せをしたりといったところに力を注いでいるのでしょう。

Daniel自身は、東京大学 (?) に出入りしていたことがあって、日本の学術情報まわりのことにも知識があるようです。WikiCite 2017では、日本人研究者の名寄せに役立つリソースについて知っていないかと話しかけてくれたのですが、残念ながら、あまり力になることができず；

ここまで書いて改めて思いますが、ほとんどZika Corpus自体の説明になっていませんね；折を見て勉強します……。

Understanding where Wikipedia needs citations through data science

docs.google.com

私自身の研究関心と合致する部分が多く、とても興味深いので絶対に直接話を聞こうと思ったのは、Wikimedia FoundationのResearcherであるMiriam Redi による「Understanding where Wikipedia needs citations through data science」という発表です。

Wikimedia Foundationのブログを通じて断片的には知っていましたが、現在、Wikipediaの各言語版において、どのページからどの識別子が参照されているかの情報を含む大規模なデータセットが構築されており *3、同データセットでは、Wikipediaのページに対してTopicの推定が行なわれていることが興味深かったです (数年前に同様のことをしようとして、これは無理だと思って諦めた経緯があるので)。具体的なTopicの推定方法に関する論文は直接聞いたら教えてもらえましたが、(1) 学術文献の参照記述はどれだけクリックされているのか? 、(2) Topicごとにクリックされる割合等は異なるのか、(3) そもそも、参照記述は出典として記述されているのか、単なるハイパーリンクとして記述されているだけで出典ではないのか、などの話題に興味津々でした。あまり自分の専門に関係することを書き連ねても意味がないかもしれないので、簡易紹介に留めますが、いま自分がやっていることと関係する部分がかなりあったので、Socialの時間に話しかけました。先方は先方で、「あなたの構築しているデータセットは、私達がやっていることとはアプローチが異なっている点が興味深い。お互いに、どれくらい符合するのかしらね?」と言っていたので、最終日のアイデアソンでは手元のデータセットと照合して結果を眺めながら、「これは結構面白いね」と話し合いました。

WikiCiteに参加するには?

参加意思がまったくない人には無益な情報だと思ったので、後に回しましたが、参加するにあたって重要な事項です。

今更ですが、WikiCiteは招待制のイベントです。どれくらいありふれた形態なのか分からないので、なんとも言えませんが、私自身にとっては独特だと感じられるものであるため、とりあえず、ひととおりの内容を書いておきます。

WikiCiteの開催が決まると公開されるエントリーフォームに必要事項を入力し、審査を受ける必要があります。審査自体は、イベント自体のキャパシティよりも参加希望者が多いために行なっているらしく、自分が何に興味を抱いていて、どのような目的で参加したいのかを記入し、提出します。しばらくすると結果の通知が届きます。

通知には少なくとも2種類があるようで、初めて申し込んだとき (WikiCite 2017) は、Waitlist行きでした。Acceptされた場合には主催者からAcceptの通知およびInvitationが届き、その時点で本当に参加するか否かを決めることができます。もちろん辞退することも可能で、Waitlistは、このような辞退者によって枠に空きが生じたときに後から追加でInvitationを送るために設けられた予備の枠です。当初は、Waitlist行きの案内を受け取った時点で、実際に参加することはなさそうだし、自分には縁がなさそうだと思っていたのですが、その後に辞退者が出たようで、かなり直前になってInvitationが届きました。2回目の挑戦、すなわちWikiCite 2018では、一発でAcceptの通知が届きました。ただ、その直前に「想像以上に多くの申込みがあって嬉しい悲鳴である。予定よりも審査に時間がかかっているけど、もうちょっと待ってね」の案内が流れていたので、これはダメそうだと内心思っていました。ですので、結果を見てとても驚きましたが、WikiCite 2017に参加したことで、どんな人物で、何に興味があって、ということが明らかであったことがポジティブに作用したのかもしれません。

なお、私はその立場にないので、これは推測でしかないことを予め断っておきますが、実際に関連するプロジェクトやプロダクトがある人は、そのことをエントリー時点で明記するとスムーズに事が運びそうな印象があります。もし、それが個別のWikiProjectに直接関係しない場合でも、たとえば、論文や著者の名寄せに関する試みや、オープンアクセス版のコンテンツが出版者版とは別に公開されている場合に見つけ出せるようにするための基礎データセット等であれば、場合によっては歓迎されそうな印象があります *4。なぜなら、他にも関連するプロジェクトやプロダクトに従事している参加者がいる場合、お互いに得るものがあるでしょうし、それらの共通の属性をもつ人同士でグループとして活動したり、長期的にWikiCiteにフィードバックを与えられるような効果が期待できると考えられるからです。実際に、2018年のエントリーフォームにおいては、他の参加者やWikiCiteコミュニティ自体にどのような貢献を果たすことができると考えているのかを記述する項目がありました。私は、日本人なので、潜在的な参加者層としても圧倒的にマイノリティーだと思いますが、実際に参加してみると、「日本の学術文献のメタデータを収集中なので、もし知っていたら教えて欲しいけど」や「日本人の研究者に関する情報に対して名寄せをしてWikidataに反映したいんだけど」等の問い合わせを複数回受けたことがあるので、きっと、需要はあるはず。

開催時期については、正直、よく分かりません。WikiCite 2017の閉会時には「次回はバロセロナでのWikimaniaの時期にあわせて開催するつもり」と言っていた気がしますが、実際には全く異なる時期にサンフランシスコでの開催でした。スポンサー等との交渉状況にも左右される難しいものであるらしく、開催前に (学内での渡航支援の申込みに出そうとしたら、開催場所も日程も不明などという状況では、申請自体を受理できないと言われた都合で、渋々) Darioに連絡したところ、そんな雰囲気の返事をいただきました。開催地については、日本で開催されることだけはないだろうと思いますが、ヨーロッパとアメリカで交互に開催するのか、そうではないのかも分かりません。ただ、Wikimedia Foundationのスタッフが水面下で準備を頑張っていそうな気配があるので、Wikimedia Foundationのオフィスが所在する国や地域で開催される可能性が高いのではと思います。そういえば、WikiCite 2018にはインドからの参加者が思いのほか沢山いました。理由は分かりませんが、インドでの開催もありえるのでしょうか。

おわりに

いかがだったでしょうか (ありがちな、まとめサイト風に)。

当初は軽い気持ちで、2年分の内容で印象的なことを押さえてみようと思っていましたが、実際に書き始めてみると冗長極まりない文章になりました。しかし、文章自体が長い割には、WikiCiteそのもの、または、WikiCiteでどんなことが行なわれているのかなどの情報をうまく記述することができなかった気がします。まだまだ、自分の理解が不十分なことも原因のひとつですが、次回以降参加することがあれば、もっと努力して理解を深められるようにしたいと思います。

ところで、末筆ながら、このエントリーを書いたきっかけのひとつは、Wikimedia Advent Calendar 2018 - Qiitaの作成者である加藤さんにお声がけいただいたことです。ありがとうございます。

ちょっとした裏話としては、今年の WikiCite の invitation を受けるためのエントリーにて「私が参加することで、特に、アジア地域でのアウトリーチに資すると考える。また、将来的な教育・研究活動において、WikiCiteで得られた経験を最大限活用したいと考えている」という旨の記述をしたことが挙げられます。後者は、近い将来の話として書いたつもりで、いますぐアクションを起こす話ではないという言い訳の余地があります。しかし、前者については、招待を受けて参加しておいて一切何もしないというのは問題かな? という (若干の) 良心の呵責がありました。とは言っても、このエントリーを公開することによって何か直接的かつ大きな貢献に繋がると本気で思っているのかと問われれば答えは否ですが、もし、WikiCiteを既に知っていて関心を持っている人のみならず、新たに興味を持った人、次回は参加してみたいと考える人がいれば、それは意味があることだと考えますし、書いてよかったと思います。

最後に、WikiCiteに限らず、日頃からあらゆる角度でご指導・ご支援いただいている高久先生と、文句を言わずに温かく見守ってくれている父に感謝を表し、〆たいと思います。

次回更新がいつになるのか (そもそも次回更新があるのか) 不明ですが、それでは、また。

*1:カレントアウェアネスに素敵な記事があります。たとえば、「引用データのオープン化を推進するイニシアティブI4OC立ち上げ | カレントアウェアネス・ポータル」、「引用データのオープン化を推進するイニシアティブI4OC、立ち上げから1周年 | カレントアウェアネス・ポータル」、「引用データのオープン化を推進するイニシアティブI4OC、Crossrefに登録された雑誌論文の参考文献のOA率が50％を超えたと発表 | カレントアウェアネス・ポータル」など。

*2:普段ほとんど英語に触れない怠惰な大学院生には最もつらい時間ですが、Etherpadに内容のメモを書いてくれるメンバーが大体いるので、話の流れや雰囲気はギリギリ分かるような感じです。要反省。

*3:Redi, Miriam; Taraborelli, Dario (2018): Accessibility and topics of citations with identifiers in Wikipedia. figshare. Dataset. https://doi.org/10.6084/m9.figshare.6819710.v1

*4:その場合は、既に公開されているデータセットやプロジェクトとの関係性や連携内容が明確なものが良さそうです