メタデータの必要性について | |
月井雄二(法政大) | |
インターネット上で公開された学術情報は,誰もが容易にアクセスできるため,今日では多くの人々がネット上から学術情報を利用している。しかし,情報量のあまりの増加は,一方で情報の検索効率を低下させる,という深刻な問題を引き起こしている。すなわち,検索エンジンを利用して情報検索を行う際,単一のキーワードで検索すると,無関係な情報(ノイズ)が無数に検索されてしまい,必要とする情報に思うように辿りつけないという事態にしばしば遭遇する。逆に,それらのノイズを除外しようとして複合検索をすると,今度は必要とする情報を取りこぼしてしまう危険性が高くなる。 このため,近年,インターネット研究者の間では,網羅的でかつ効率的な情報検索をいかにして実現するかが大きな課題となっている。その解決手段として提案されているのが,メタデータ(情報のための情報とも呼ばれ,各WebPageの内容の主な特徴を示した情報)を各WebPageに付加するという方式である。そして,そのメタデータをWebPageに付加するための書式をメタタグという(注:各メタタグは,その種類を示すelementsと,メタデータの内容を示すcontentsによって構成される)。 ただし,このメタタグが有効になるためには,一方にメタタグにある情報を収集してインデックス化する検索エンジンが存在しなければならない。現在,一般の検索エンジンの多くが採用しているメタタグは,Author, Keywords, Descriptionの3種類のみである。 例: <META name="Author" content="Yuuji Tsukii"> <META name="Keywords" content="Biology, Protistology, Taxonomy, Protist, Ciliophora, Oligohymenophorea"> <META name="Description" content="Images of Protozoa"> 解説:<META ・・・・> この部分は,WWWブラウザの画面には表示されない。 一方,学術目的で提案されているメタデータの中でもっとも知られているのは,Dublin Core(http://purl.oclc.org/dc/)と呼ばれる書誌情報系のメタデータである。Dublin Coreは,15のelementsからなり,かなり詳細なメタデータを付加することができる。 Doublin Coreに準拠したMETA文の例(http://vancouver-webpages.com/META/): <META NAME="DC.title" CONTENT="HTML META, REL and REV Tags"> <META NAME="DC.creator" CONTENT="Andrew Daviel"> <META NAME="DC.creator.email" CONTENT="andrew@vancouver-webpages.com"> <META NAME="DC.subject" CONTENT="HTML, META, HTTP, metadata, LINK, dictionary"> <META NAME="DC.description" CONTENT="An etymological dictionary of HTML META, REL and REV tags, and HTTP headers, as used to improve search engine indexing, select character sets, etc."> <META NAME="DC.publisher" CONTENT="Vancouver Webpages"> <META NAME="DC.type" CONTENT="Dictionary"> <META NAME="DC.format" CONTENT="text/html"> <META NAME="DC.identifier" CONTENT="http://vancouver-webpages.com/META/"> <META NAME="DC.language" CONTENT="English"> しかし,Dublin Coreはあくまで書誌情報を想定して作られているため,個々の学術分野に適合したelementsは含まれていない。このため,現在は各分野ごとに,各々に特化したメタデータが考案され,その利用が呼び掛けられている(参照:http://www.diffuse.org/)。 また,生物多様性条約関連では,Clearing House Mechanism(http://www.biodiv.org/chm/)と呼ばれる通信方式が提唱されているが,これにもメタデータが使われている。以前提案されていたメタデータは非常に複雑なもの(Federal Geographic Data Committeeが設定したメタデータに準拠)で研究者が個人で対応できるものではなかったが,最近はDublin Coreを採用しているようである(?確認中)。 Dublin Coreは,ネット上にあるすべての情報を対象としているため,記述方式が複雑で膨大な内容とならざるをえないが,研究資材情報のみを対象としてMETA文を考えた場合,より単純な構成でも十分役立つはずである。そこで,現在約5000ページある原生生物画像データベース用の htmlファイルに以下のようなMETA文を挿入した。ここでは,将来,META文の利用が広まった場合,Dublin Coreなどのより一般的な記述方式と矛盾しないように配慮しつつ,生物系研究資材情報用検索エンジンに固有のMETA文を考案した。 下記のサンプル文中で<META name="Keywords" ,<META name="Description" の部分は一般に利用されている表現形式であり,<META name="Field" ,<META name="Organism" の部分は,研究資材情報用のMETA文としての利用を考えている。 http://protist.i.hosei.ac.jp/PDB/Images/Ciliophora/Epistylis/index.html の例 <html> <head> <title>Protist Images: Epistylis</title> <META http-equiv="Content-Style-Type" content="text/css"> <META name="Author" content="Yuuji Tsukii"> <META name="Keywords" content="Biology, Protistology, Taxonomy, Protist, Ciliophora, Oligohymenophorea"> <META name="Description" content=""> <META name="Field" content="Biology, Protistology, Taxonomy"> <META name="Organism" content="Protist, Ciliophora, Oligohymenophorea"> </head> <body class="mnch" bgcolor="#FFFFCC" text="#003333"> なお,メタデータによる統合的検索を実現させるためには,本来,WebPage制作者側が,あらかじめ全体で合意された統制語彙を使ってメタデータを記述する必要がある。そこで,「原生生物情報サーバ」に挿入したメタタグが将来広範な生物系サイトでも利用されることを想定して,生物学上の統制語彙の候補となり得るものを厳選してcontentsを作成している。 一方,この作業と平行してBRNetプロジェクトの中で生物系情報専用検索エンジン(Bio-Crawler,http://bio-crawler.dna.affrc.go.jp/)の改造の一つとして上記の生物系用メタタグを検索する機能が付加される予定である。そこで,この検索エンジンを利用して,挿入したメタタグが有効に機能するかをチェックし,必要があれば検索エンジン作成者と連携しながら改良を行うことにしている。
|
Doublin Core Metadata Initiative http://purl.oclc.org/dc/ |
Diffuse http://www.diffuse.org/ |