大正新脩大藏經テキストデータベース ホーム (original) (raw)
日本の仏典の国際標準化に向けて
聖徳太子御製『勝鬘經義疏』のTEI版を公開しました
SAT大蔵経テキストデータベース研究会(以下、SAT研究会)では、2007年のテキストデータベース完成以降、人文学の研究資料のデジタル化に関わる国際的な標準との関わりについての研究開発に積極的に取り組んできました。すでに、文字の扱いに関してはUnicodeにおける仏典外字の登録、テキストの構造化に関しては、TEI (Text Encoding Initiative)協会において東アジア/日本語分科会の設立を推進するなど、単に我々が国際的な状況を後追いするのではなく、むしろ、我々が関わる、日本を含むアジア全般の人文学デジタル資料が国際的な状況において適切に扱われるように、国際的な状況の変革にも注力してきました。そのような中で、このたびは、日本の仏教典籍として、聖徳太子御製とされる『勝鬘經義疏』を、UnicodeとTEIに準拠した形で作成しました。また、SAT DB2018を介することで、Web画像共有の国際標準仕様であるIIIF (International Image Interoperability Framework)にも対応可能です。
『勝鬘經義疏』TEI/XML版(20200402版)
上記ファイル用のTEI Schema: tei_all_ja.rnc
こちらの『勝鬘經義疏』のTEI/XML準拠データを用いることで、たとえば以下のような様々なことが技術的には可能になります。
- 一部の漢字の微細な形の違いの表示と一括検索(IVS)
- 『勝鬘經義疏』に引用される『勝鬘經』当該箇所の参照
- 文書中に登場する固有表現(人名・地名・書名等)の抽出と外部リソースとのリンク
- 返り点の表示・非表示、それを用いたテキストの分析
- 大正新脩大蔵経編纂時に参照された異文情報の抽出と参照された対校本それぞれの自動的な再構築・表示・より正確な分析
- 大正新脩大蔵経の頁画像の参照
- …
ただし、今回公開したものは、そのような国際的な規格・仕様の、未だ一般には余り利用されていない最新の部分までも活用して作成した試作版であり、これに合わせたアプリケーションを用いることが前提になっているものです。国際的な標準規格・仕様に準拠したものですのでデータとしての持続性はきわめて高いですが、新しすぎてアプリケーションがまだ十分に開発されていません。したがいまして、多くの方にとっては、このままでは利用することは困難であると思いますのでご注意ください。SAT研究会では、この試作版公開を通じて、以下のことを目指しています。
- UnicodeにおけるIVS及びCJK Ext.Fの利用に関するフィードバックの収集
- 日本語の歴史的典籍におけるTEIエンコーディングの適用方法の提案
- TEIエンコーディングに関するフィードバック収集
- IIIFの活用方法に関するフィードバックの収集
- 次世代の文字エンコーディング・テキストエンコーディングに対応する閲覧・分析・編集用アプリケーション開発の支援
今回の試作版における人文情報学技術上の提案・留意事項は、ファイル中のに記載しておりますのでご参照ください。
なお、SAT研究会としても、この種の文字エンコーディング・テキストエンコーディングに対応できるツールの開発に取り組んでおり、それほど遠くない時期に公開できる見込みです。
人文学資料のデジタル化には、実に様々な観点があります。それらを十全に実現することは極めて難しく、30年以上の歴史を持つTEI協会でさえも、未だ発展途上であり、今後も発展を続けていかなければならない使命を負っています。SAT研究会では、関連する国際的な動向の中で、仏教・アジア・東アジア・日本・インドといった立場を反映させるべく地道な取り組みを続けています。この種の事柄に取り組んでいる方々、関心をお持ちの方々におかれましては、ご理解・ご協力のほど、何卒よろしくお願いいたします。
SAT研究会の一連の取り組みにご関心がおありの方は、下田正弘・永崎研宣編『デジタル学術空間の作り方 仏教学から提起する次世代人文学のモデル』(文学通信, 2019年刊行)をご覧ください。なお、この書籍は、紙版で販売されていますが、オープンアクセス版も提供しておりますのでお気軽にご覧ください。
2020年4月2日 SAT大蔵経テキストデータベース研究会