図書の網

@lumelyのブログです.概ね研究や教育の話を書きます.

【掲載報告】CA-E No.324: L-Crowdによる日本の書誌誤同定/書誌割れ問題の解決に向けて

こんにちは,lumelyです.

授業資料としてBD付きガイドブックを買ってきたのですが,うちにはBD視聴環境が無くて困っています.DVDとCD再生環境も欲しいのですが,安価で耐久性なども良い環境があればご教授頂けると嬉しいです.モニタ,スピーカは別途用意するので再生・出力が出来れば何でもよいです .

今私が同率1位タイ程度のエフォートを割いている取り組みは「都道府県総合目録の将来像に関する研究プロジェクト」なのですが,その宣伝の一環としてCA-Eに記事を掲載頂きました.カレントアウェアネス-Eは国立国会図書館が運営する,図書館及び図書館情報学に関する最新ニュースを配信するメールマガジンです.

3行でまとめ

  • 書誌誤同定/書誌割れ問題を解決する可能性がある唯一の現実的な手段はクラウドソーシング
  • 都道府県総合目録の将来像に関する研究プロジェクト」で配信している書誌同定タスクは2017年5月中旬ごろまでには大幅にアップデートを行うため今後にご期待頂きたい
  • 上記プロジェクトの紹介記事がCA-Eに記事を掲載.エンジニアではない人にもある程度取り組みの内容を理解して頂けるよう,用語には非常に注意を払った

目次

 

背景: 書誌誤同定/書誌割れ問題,ISBN

あらゆる図書館では,図書などの資料を受け入れる際,それらを管理するために蔵書目録と呼ばれるものを作成します.この目録はかつては図書目録カードと呼ばれる紙のカードに記載していましたが,今日では電子的に作成しています.

目録の作成にはある程度の基準があり,司書資格の取得にあたっては必ず目録作成実習が行われます.また,実際には担当者が1から作っていることはほとんどなく,MARC(MAchine Readable Cataloging)と呼ばれるデータを活用しています.このMARCには様々な種類がありますが,日本においては図書館流通センターが作成しているTRC MARCが最も利用されています.

しかし,副題やシリーズもの,版の扱いなどは担当者によって見解が分かれることも多く,また目録は手入力で作成するが故にタイプミスがしばしば起こるため,ある単一のメディアに対して,完全には一致しない複数のデータ(書誌データと呼ばれます)が作成されます.これは,ある単館における蔵書の管理という点においては特に問題にはならないのですが,隣接図書館,同じ都道府県の図書館,さらには日本全国の図書館の蔵書を横断的に検索するシステムにおいては,書誌誤同定,書誌割れと呼ばれる問題の原因となります.

ここで,書誌誤同定とは本来は別のものが同じものとしてまとめられてしまうこと,書誌割れとは本来は同じものが別のものとして分割されてしまうことを指します.書誌誤同定は同じものを1つにまとめて扱うNDLサーチのようなシステムにおいて発見性を著しく下げる要因になりますし,書誌割れは検索結果に同じものがたくさん並ぶことの原因となり,Googleなどのサーチエンジンに比べ,ディスカバリーサービスと呼ばれる資料を発見する図書館サービスに対する信頼性を大きく損ねます.

また,理想ではISBNを用いれば同定を完璧に行うことが可能なはずですが,実際には出版者がISBNを使い回す,版が変わってもISBNを変えない,入力ミスをしてしまうなどの運用上の問題や,そもそもISBNがない数十年前以上に刊行された図書に対してはどうしようもないなどの様々な理由により,ISBNだけでは満足のいく同定を行うことができません.

 

L-Crowdと都道府県総合目録の将来像に関する研究プロジェクト

今流行の機械学習などを駆使すれば同定の再現率は多少は上昇するかもしれませんが,図書館が最終的に目指すのは「完璧な」同定ですので,そのためにはどうしても個々のデータを1つずつ修正しなければなりません.しかし,作業量があまりにも膨大であることや,究極的には現物を確認しなければ同じものかどうかの判定ができないなどを理由として,この問題は非常に古くから認識されつつも,ある意味では黙認される状態が続いてきました.

一方図書館とは離れた手法として,2005年に提唱され,最近は日本においても段々浸透してきたクラウドソーシングがあります.クラウドソーシングはクラウド,つまり群衆とアウトソーシング,つまり外注を組み合わせた用語であり,不特定多数の群衆に何らかの作業を委託するという考えです.一般的なアウトソーシングとの違いは誰に実作業をお願いするか委託者は直前,あるいは終わるまでわからない,ということにあります.

日本においてクラウドソーシングを行う場としてはランサーズYahoo!クラウドソーシングが有名ですが,大学等の研究者が中心となって構築・運用している非営利・オープン・汎用な場としてCrowd4Uが存在します.L-CrowdはこのCrowd4Uを活用した,「インターネットでできる図書館ボランティア」という標語を掲げたプロジェクトです.このL-Crowdと協力して京都府内の図書館の書誌データのクリーニングを行うプロジェクトとして,都道府県総合目録の将来像に関する研究プロジェクト京都府立図書館,株式会社カーリル,同志社大学図書館情報学研究室,筑波大学知的コミュニティ基盤研究センター,千葉大学附属図書館/アカデミック・リンク・センター及び国立国会図書館により2016年11月に開始されました.

 

書誌同定を行うマイクロタスク

クラウドソーシングには様々な種類がありますが,Crowd4Uが採用しているのはマイクロタスク型クラウドソーシングというアプローチです.これは,少人数で行うには困難な問題を非常に細かい「タスク」という単位まで分割することで,作業者1人1人の負担や作業の並列性を高めようという手法です.この手法はウォーリーを探せのような,特別な知識や経験を必要とせず,かつ並列の作業が可能な問題において大きな効力を発揮します.例えばウォーリーを探せにおいては画像を100分割し,100人が一斉に分割した後の1枚の画像を担当することで,1人でやるより最大100倍の効率でウォーリーを探すことができます.

もちろん,書誌同定においては同定のレベル(クラス)というものが存在します.例えばある1組の図書において,片方にはタイトルに副題が含まれており,もう片方にはその代わりに備考欄に副題が記載されているような場合,それらは同じ図書である,ということはほぼ誰でも判定できるかと思います.しかし,著者が異なる場合(片方は○○編集委員会,もう片方は実際に執筆した人々の実名が列挙など)は判断に迷う人が出てくるでしょうし,シリーズものにおいて片方だけに年代や巻号がある場合,現物を見なければ判定することは不可能です.

本プロジェクトにおいては,クラウドソーシングでこれら全ての判定を行うことを目指してはいません.クラウドソーシングの本質は「専門家以外ができる作業は専門家以外が担当し,専門家をその専門性が発揮できる作業に集中させるようにする」ということにあります.同様に,書誌同定においても人間であれば誰でも同じと判定できるような組合せだけは群衆に任せ,群衆には手に余る難しい同定作業は図書館職員のような専門家に注力して頂く,という目論みがあります.

 

タスクデザインと今後の予定

クラウドソーシングに関する研究テーマの1つは,タスク結果の質を最大化させつつも,作業者への負担を最小化するようなタスクのデザインです.特に,Web上で行うマイクロタスクにおいてはレスポンスやCSS,JavaSciptによる細かなデザインが結果の質や作業者への負担に大きく影響してきます.

都道府県総合目録の将来像に関する研究プロジェクトのタスクは2017年2月14日に配信を開始して以来8万以上実施されましたが,レスポンスが悪い,ボタンのデザインが悪いなど色々なフィードバックを頂いており,現在はその修正及びテストを行っているところです.遅くとも2017年5月中旬にはかなり様変わりする予定ですので,是非ご確認頂き,タスクに取り組んで頂ければ大変嬉しく存じます.

 

CA-E1907

上記のような話の記事をCA-Eに「E1907 - L-Crowdによる日本の書誌誤同定/書誌割れ問題の解決に向けて」という題目で掲載頂きました.文字制限にかなり苦しみましたが,「クラスタリング」「ヒューリスティック」などの専門用語を極力使わないように最新の注意を払った*1ため,比較的読みやすいかとは思います.2,000字程度ですので,是非ご笑覧ください.

 

*1:というよりも,編集からご指摘頂き始めてそれらは意味が通じないことに気が付いた