From: Masami-hirara-Hirabayashi <masami@sfc.keio.ac.jp>
Real-Date: Sat, 22 Jan 1994 03:05:43 +0900
Subject: [infotalk,00733] Re: japanese index search
Message-Id: <9401211806.AA01485@mail0.sfc.keio.ac.jp>
ひらばやしです。
In <Mailing-List:infotalk , Mail-Count:00732>
"fujisawa@sm.sony.co.jp" writes :
<- 入ったばかりで何も知らないので、ついでにお尋ねしたいのですが、
<- この ML の FAQ/ダイジェスト/アーカイブなどの ftp site は
<- 存在するのでしょうか。
バックナンバーなら、
http://www.ntt.jp/people/takada/ml/infotalk
にありますよね。
リコーのひらばやし@慶応SFC
From: fujisawa@sm.sony.co.jp
Real-Date: Sat, 22 Jan 94 02:46:32 +0900
Subject: [infotalk,00732] Re: japanese index search
Message-Id: <9401211746.AA13666@fujiken.sm.sony.co.jp>
>漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
>法を試しています。
>こんなんですが、興味のある方はおられますか?
はじめまして、ソニーの藤沢ともうします。
WAIS の日本語化に興味があって、今週この ML に加えていただきました。
というわけで、非常に興味があります。
入ったばかりで何も知らないので、ついでにお尋ねしたいのですが、
この ML の FAQ/ダイジェスト/アーカイブなどの ftp site は
存在するのでしょうか。
藤沢謙二 fujisawa@sm.sony.co.jp
From: yugawa@abr.affrc.go.jp
Real-Date: Sat, 22 Jan 1994 01:54:49 +1000
Subject: [infotalk,00731] Re: japanese index search
Message-Id: <9401211647.AA00657@voyager>
松川様
夜分に失礼します。
>漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
>法を試しています。きっといろいろな問題があるのでしょうが、取り敢えず普
>通に使えていて結構便利なので御報告致します。
>こんなんですが、興味のある方はおられますか?
はいっ。すばらしい。是非使ってみたいです。
--鵜川義弘、農水省農業生物資源研究所
From: Takuji Matsukawa <takuji@robotics.is.tohoku.ac.jp>
Real-Date: Sat, 22 Jan 1994 00:57:32 --900
Subject: [infotalk,00730] japanese index search
Message-Id: <9401211557.AA22190@llama.robotics.is.tohoku.ac.jp>
はじめまして、松川@中野研.東北大と申します。
漢字を含む文章を、WAISでインデックスを作成し、Mosaicで検索する簡単な方
法を試しています。きっといろいろな問題があるのでしょうが、取り敢えず普
通に使えていて結構便利なので御報告致します。
基本的には、
(1) 原文を特定のアルゴリズムで漢字かな混じり文をローマ字読みに変換して
WAISのインデックスを作成する
(2) MosaicからWAISの検索する際の検索文字列を(1)と同じアルゴリズムでロー
マ字読みに変換して問い合わせる
というもので、変換ツールとして高橋裕信<takahasi@tiny.or.jp>さんが作成
された漢字かな読み上げツール"kakasi"を使用させて頂きました。というより
"kakasi"の機能に全面的に依存しています:-)。
例えば、以下のような文章を"kakasi"を通して変換すると
(原文)
これは、英数字、漢字カナ混じり文のサンプルです。このようにASCII文字と
ひらがなはそのまま残り、漢字とカナだけをローマ字読みに変換して、各単語
の間に空白を入れてくれます。
(コマンド及びオプション)
kakasi -ieuc -rk -s -c'>' -Ka -Ja -Ea -ka"
入力漢字コードの指定 -ieuc
変換対象の指定 -Ka:カタカナ、-Ja:漢字、-Ea:全角記号 -ka:半角カナ
-s 空白の挿入
-c 読み飛ばし文字の指定
ローマ字の標記を訓令式にする(例: し -> si) -rk
(注) まさにこのようなことをするためにあるような、-sとか-cのオプショ
ンが涙が出るほど嬉しいです:-)
(変換後)
これは , eisuuzi , kanzi kana mazi り bun の sanpuru です .
このように ASCII mozi とひらがなはそのまま nokori ,
kanzi と kana だけを ro^ma zi yomi に henkan して , kaku tango
の aida に kuuhaku を ire てくれます .
のようになります。
これをwaisindexに食わせてやると、うまい具合に平仮名として残った部分を
無視して(下記参照)、残った英単語とローマ字読みをキーワードとみなしてイ
ンデックスを作成してくれます。
, eisuuzi , kanzi kana mazi bun sanpuru .
ASCII mozi nokori ,
kanzi と kana ro^ma zi yomi henkan , kaku tango
aida kuuhaku ire .
後は、Mosaicでキーワードを入力する時に漢字で入力して、同じように
"kakasi"で変換してから検索してやるとちゃんと見つけ出してくれます。
このために、waisindexとlibwww2/HTWAIS.cを修正する必要があるのですが、
waisindexの方のパッチがSolaris2.x用の変更と混じってグチャグチャしてい
るのでしばしの御猶予を(_o_)
こんなんですが、興味のある方はおられますか?
---
松川卓二 (Takuji MATSUKAWA) 東北大学大学院情報科学研究科
システム情報科学専攻 知能ロボティクス学講座 知能ロボティクス論
E-mail: takuji@robotics.is.tohoku.ac.jp Tel: 022-222-1800 内4172