TOP業務システム> ドキュメント管理から考える最適なデータベースとは
Office&XML
CMSの可能性を飛躍させるOfficeXMLの適用

第2回:Office XMLドキュメントをデータベースで管理する

著者:インディゴ  高橋 陽一   2006/9/1
前のページ  1  2  3
ドキュメント管理から考える最適なデータベースとは

   ネィティブXMLデータベースとは、文字通り「XML」の管理に最適化された、XML専用のデータベースである。つまり一般的なデータベースであるリレーショナル・データベースは、本来的には表形式の情報を格納するためのデータベースであり、階層型にて情報を格納するXMLを格納する場合、いったんその階層型から表形式へと再定義/変換を行う必要がある。

   他方で、ネィティブXMLデータベースは、当然ながらXMLをそのまま格納することができる。しかしこれだけでは、双方ともに一応はXMLを格納できるという点において相違がないため、その違いが明確に理解できないかもしれない。そのためここでは、対象をOffice XMLドキュメントに、その中でも特にWordドキュメントに限定してその違いを考えてみることとしたい。

   上記の説明では、触れなかったが、通常データベースに情報を格納するためには、スキーマと呼ばれる厳格な構造定義が必要となる。簡単にいうと、個々の項目に格納される値に一意のラベルを定め、あるいは個々の項目に格納可能な値のタイプやサイズなどを規定するものであり、リレーショナル・データベースでは斯様な「厳格な定義」に即して情報が格納されるため、データの整合性と検索性が保たれているのである。

   しかし、ここでマニュアルや契約書などのようなWordで作成されるドキュメントをデータベースに格納するケースを想像してみて欲しい。管理対象のWordドキュメントのピンポイント検索、および部分的な再利用を促すためには、当然ドキュメント全体を「意味」に即し「可能な限り小さな単位」に分解/細分化し、個々にラベルを付けてゆく必要があるだろう。

   このような際には、意味階層の構造としては最も基本的な「章/項/節」がベースになるのだが、この「章/項/節」といったラベルはそもそも汎用的な構造であり、「一意性」と「厳密さ」に欠ける。

   例えば「章」は何度でも繰り返し適用されるだろう、また「章」の下にいくつ「項」が存在するかは不定であり、あるいは「項」の下に「節」が存在する場合もあれば、しない場合もある、というように非常に曖昧で抽象的なのである。このような「曖昧な構造」の情報を、「厳格な定義」が必要なリレーショナル・データベースに格納するのは本来的に無理があるのは自明のことであろう。

   しかし、ネィティブXMLデータベース、中でもスキーマ定義が不要なNeoCoreXMSのようなXMLデータベースであれば、この問題を解決可能である。

   つまり、スキーマレス型のXMLデータベースでは基本的に「XML形式のファイルであれば」格納可能であり、高性能な検索/管理を行うことが可能なのである。この特性をOffice XML(ここではWord)との組み合わせで考えると、例えば特に章立てのないプレーンなWordドキュメントであろうと、「章/項/節」といった汎用的な構造のみ有するWordドキュメントであろうと、カスタムスキーマが適用された厳格な構造を有するWordドキュメントであろうと、とにかくOffice XMLのファイルであれば格納できることを意味する。

   そして、このスキーマレス型XMLデータベースの柔軟性こそが、ドキュメント管理を行うデータベースに不可欠な要素であると筆者は考える。そもそも、スキーマを策定し、ドキュメントに対し厳密な構造化を行うのは、その再利用や検索性向上を鑑みた場合に、重要な観点ではあるのは間違いないであろう。

   しかし、実際はそれらを「厳格かつ適正に定義する」ことは業務と技術双方の高度な専門知識とノウハウが必要であり、さらに変化のスピードが速い業務/組織の状況に即し随時それらを維持改変して行くことも必要となる。

   斯様な負荷を考えた時、最初は「章/項/節」程度の汎用かつ「緩やかな構造化」、もしくは「構造なし」の状態から段階的にスタートし、徐々に「厳格な構造定義」を行う。あるいは、再利用や検索の重要度に応じて「構造なし」「緩やかな構造」「厳密な構造」の3種類のドキュメントを並存させ、それらを同時に管理できることの意味は、表形式ではなく階層形式の情報構造を有するWordのようなドキュメントを管理/運用する上では、非常に重要なのではないかと筆者は考えている。

まとめ

   今回は、Office XMLとXMLデータベースが「ドキュメント管理」において重要な理由を、可能な限り非技術的な観点から説明してきた。そこで次回は、Office XMLとXMLデータベースを組み合わせた具体的なソリューション事例として、Document to Databaseソリューション 「DocuDyne」 をベースに、OfficeXMLが実現する新しい概念のドキュメント管理について紹介することとしたい。

   なお、XMLデータベースに関する技術的な解説としては、以下の連載が参考になるだろう。

エンジニアの視点から活用するXMLデータベース
http://www.thinkit.co.jp/free/tech/32/1/
隠されたニーズを引き出すXMLデータベース
http://www.thinkit.co.jp/free/trend/23/1/

前のページ  1  2  3


インディゴ株式会社 高橋 陽一
著者プロフィール
インディゴ株式会社  高橋 陽一
システム・インテグレーション事業部 ソリューション開発部 マネージャー/インフォメーション・アーキテクト

XML及びセマンティック系技術を活用した次世代コンテンツ管理ソリューションの企画/開発に従事。現在は、「Microsoft Office」とXMLデータベース:NeoCoreXMSの連携によるECMソリューション「DocuDyne」のプロダクトマネージャーとして、「ドキュメントの部品化」による次世代のコンテンツ・マネージメント・システムの普及/啓蒙に取り組んでいる。また上記と並行して、XMLベースの画像記述言語SVGとセマンティック技術を活用した「次世代位置情報ソリューション」の企画/開発にも取り組んでいる。


INDEX
第2回:Office XMLドキュメントをデータベースで管理する
  はじめに
  ドキュメント管理:「技術」が先か「ユーザ」が先か
ドキュメント管理から考える最適なデータベースとは