From: Masami-hirara-Hirabayashi <masami@sfc.keio.ac.jp>
Real-Date: Sat, 22 Jan 1994 03:05:43 +0900
Subject: [infotalk,00733] Re: japanese index search 
Message-Id: <9401211806.AA01485@mail0.sfc.keio.ac.jp>


ひらばやしです。

In <Mailing-List:infotalk , Mail-Count:00732>
    "fujisawa@sm.sony.co.jp" writes :

<- 入ったばかりで何も知らないので、ついでにお尋ねしたいのですが、
<- この ML の FAQ/ダイジェスト/アーカイブなどの ftp site は
<- 存在するのでしょうか。

バックナンバーなら、
http://www.ntt.jp/people/takada/ml/infotalk
にありますよね。

		リコーのひらばやし@慶応SFC


From: fujisawa@sm.sony.co.jp
Real-Date: Sat, 22 Jan 94 02:46:32 +0900
Subject: [infotalk,00732] Re: japanese index search 
Message-Id: <9401211746.AA13666@fujiken.sm.sony.co.jp>



>漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
>法を試しています。
>こんなんですが、興味のある方はおられますか?


はじめまして、ソニーの藤沢ともうします。

WAIS の日本語化に興味があって、今週この ML に加えていただきました。
というわけで、非常に興味があります。


入ったばかりで何も知らないので、ついでにお尋ねしたいのですが、
この ML の FAQ/ダイジェスト/アーカイブなどの ftp site は
存在するのでしょうか。


藤沢謙二 fujisawa@sm.sony.co.jp


From: yugawa@abr.affrc.go.jp
Real-Date: Sat, 22 Jan 1994 01:54:49 +1000
Subject: [infotalk,00731] Re: japanese index search
Message-Id: <9401211647.AA00657@voyager>


松川様

夜分に失礼します。

>漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
>法を試しています。きっといろいろな問題があるのでしょうが、取り敢えず普
>通に使えていて結構便利なので御報告致します。

>こんなんですが、興味のある方はおられますか?

はいっ。すばらしい。是非使ってみたいです。

--鵜川義弘、農水省農業生物資源研究所



From: Takuji Matsukawa <takuji@robotics.is.tohoku.ac.jp>
Real-Date: Sat, 22 Jan 1994 00:57:32 --900
Subject: [infotalk,00730] japanese index search
Message-Id: <9401211557.AA22190@llama.robotics.is.tohoku.ac.jp>



はじめまして、松川@中野研.東北大と申します。

漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
法を試しています。きっといろいろな問題があるのでしょうが、取り敢えず普
通に使えていて結構便利なので御報告致します。

基本的には、

(1) 原文を特定のアルゴリズムで漢字かな混じり文をローマ字読みに変換して
WAISのインデックスを作成する

(2) MosaicからWAISの検索する際の検索文字列を(1)と同じアルゴリズムでロー
マ字読みに変換して問い合わせる

というもので、変換ツールとして高橋裕信<takahasi@tiny.or.jp>さんが作成
された漢字かな読み上げツール"kakasi"を使用させて頂きました。というより
"kakasi"の機能に全面的に依存しています:-)。

例えば、以下のような文章を"kakasi"を通して変換すると

(原文)
これは、英数字、漢字カナ混じり文のサンプルです。このようにASCII文字と
ひらがなはそのまま残り、漢字とカナだけをローマ字読みに変換して、各単語
の間に空白を入れてくれます。

(コマンド及びオプション)
kakasi -ieuc -rk -s -c'>' -Ka -Ja -Ea -ka"

  入力漢字コードの指定 -ieuc 
  変換対象の指定 -Ka:カタカナ、-Ja:漢字、-Ea:全角記号 -ka:半角カナ
  -s 空白の挿入
  -c 読み飛ばし文字の指定
  ローマ字の標記を訓令式にする(例: し -> si) -rk 

  (注) まさにこのようなことをするためにあるような、-sとか-cのオプショ
       ンが涙が出るほど嬉しいです:-)

(変換後)
これは , eisuuzi , kanzi kana mazi り bun の sanpuru です .
 このように ASCII mozi とひらがなはそのまま nokori ,
 kanzi と kana だけを ro^ma zi yomi に henkan して , kaku tango
 の aida に kuuhaku を ire てくれます .

のようになります。

これをwaisindexに食わせてやると、うまい具合に平仮名として残った部分を
無視して(下記参照)、残った英単語とローマ字読みをキーワードとみなしてイ
ンデックスを作成してくれます。

       , eisuuzi , kanzi kana mazi    bun    sanpuru      .
            ASCII mozi                      nokori ,
 kanzi と kana        ro^ma zi yomi    henkan      , kaku tango
    aida    kuuhaku    ire            .

後は、Mosaicでキーワードを入力する時に漢字で入力して、同じように
"kakasi"で変換してから検索してやるとちゃんと見つけ出してくれます。

このために、waisindexとlibwww2/HTWAIS.cを修正する必要があるのですが、 
waisindexの方のパッチがSolaris2.x用の変更と混じってグチャグチャしてい
るのでしばしの御猶予を(_o_)

こんなんですが、興味のある方はおられますか?

---
松川卓二 (Takuji MATSUKAWA)     東北大学大学院情報科学研究科
システム情報科学専攻 知能ロボティクス学講座 知能ロボティクス論
E-mail: takuji@robotics.is.tohoku.ac.jp  Tel: 022-222-1800 内4172