後期に入って一度も開かれていない密教文献情報処理研究会ですが,来週の木曜日(12月13日)4時30分より,久しぶりにやります。
議題は「TEI文書と全文検索」。

TEI(Text Encoding Initiative)とは人文科学系の資料を符号化する際の標準フォーマットを開発している団体で,その規格に則って記述した文書のことをTEI文書といいます。最近ではTEI Day in Kyoto 2006なんて催しもあって,日本でもそれなりに知られた存在になってきました。
CBETAの『大正新修大蔵経』も全てTEI文書になっています。

本研究会では8年後までに『真言宗全書』の電子テキスト化を考えているわけですが,そのフォーマットとしてもTEIを採用する予定。

そこで,一度このフォーマットについて知識を共有しておきたいと考えています。

それからもう1つ。

最近,SennaやHyperEstraierなど多くの新しい全文検索エンジンが登場しています。それらはMecabによる分かち書きやN-Gramなどをサポートする最新のシステムですが,はたして,送りがなや返り点の付く漢文や最近ようやく実用レベルになってきたユニコードチベット文字の処理には適しているのでしょうか?

このあたりについて,最先の自然言語処理の論文などを読みながら,考えていきたいと思います。
お時間のある方は是非ご参加ください。

なお,詳細は以下を参照。

議題
TEI文書とその全文検索
場所
密教合同研究室
日時
2007年12月13日 午後4時30分~午後6時頃まで
参加対象
どなたでも(ただしXMLや構造化文書,全文検索について予備知識を持っていた方が楽しいと思われます)