Real-Writer: Masahiro Morita <hiro@jaist-east.ac.jp>
Real-Date: Fri, 09 Apr 93 21:30:29 JST
Subject: [infotalk,00119] Re: is there japanese client?
Message-Id: <9304091230.AA21455@nis.jaist-east.ac.jp>
北陸先端大の森田です。
> 日本語化で何が問題かというと、日本語の形態素解析部分が非常に問題でして、
> 英語のようにspaceで単語間が区切られていない、明確な単語の区別がつかない
> といった点です。幸いなことに、京都大学の長尾研で開発されたフリーの形態素
> 解析(juman)の使用許可がおりましたので、jumanを形態素解析ツールとして
> 取り込んでいます。が、JLE環境だとちょっと不具合があるので少し調査する
> 時間が必要です。
確かに、日本語の全文検索では(特にWAISのでやってるアルゴリズムの場合)単語
の区切りをどうするかという問題があります。形態素解析で単語に区切るのも一
つの手ではありますが、単に検索するというだけであればそこまでしなくてもい
いのではないでしょうか。次のような部分列を使うだけでもかなり効果のあるこ
とが私の大学で行なわれた研究で明らかになっています[1]。
たとえば、
動作しているというのは富士通内部で
という文章があった時に、3文字の部分列は
動作し
作して
してい
ている
いると
るとい
という
いうの
うのは
のは富
士通内
内部で
というかんじになります。この部分列を英単語と同様に扱ってやればかなりの検
索ができます。
ただし、問題もあります。それは、Signature file の大きさが英語の場合の 3
倍程度に膨れ上がる点です。これは部分列が互いに重複した文字を含んでいるこ
とに由来します。また、3 文字の部分列を使った場合、3 文字以下の文字列は全
く検索できなくなるという欠点もあります。
先日、並列計算機 CM-5 上にこのような方法で検索するシステムのプロトタイプ
を作り、結構早く動くことを確認してますし、Sun4 上でもいい成績が出ていま
す。この成果は現在、Research Report にまとめているところです。
[1] 佐藤理史. 用例検索による日英翻訳支援システム CTM2 -- 部分列インデッ
クスを用いた最適照合検索. JAIST Research Report, IS-RR-93-6I, 北陸先端科
学技術大学院大学, 情報科学研究科, 1993.
Real-Writer: Youichi Watanabe <youchan@yokohama.se.fujitsu.co.jp>
Real-Date: Fri, 09 Apr 93 17:54:56 +0900
Subject: [infotalk,00118] Re: is there japanese client?
Message-Id: <9304090854.AA25709@discovery.yokohama.se.fujitsu.co.jp>
渡辺@富士通 です。
From: infotalk@square.ntt.jp (Infosystem Talk Mailing List) さん
Date: Mon, 15 Mar 93 12:05:26 +0900
Subject: "[infotalk,00074] Re: is there japanese client? " ...
In article: "<9303150305.AA26737@seraph.ntt.jp>" ...
: さて、FAQかと思いますが、WAISのクライアント(とくにMacintosh, Windows)の
: 日本語化を私がやっている、あるいは誰かがやっている、という情報が
: ありましたら、どんなことでも結構ですので、教えていただけませんでしょうか?
takada> 富士通の渡辺さんが(仕事として)手をつけつつあるという話が、以前に
takada> 出ていました。このMLで、そこら辺の話(何をしたらよいか、どうした
takada> らよいか)もどんどん出来たら良いな、と思っています。
日本語化をやってる本人です。一応、日本語WAISはできました。JLEでの動作
は確認しています(というか、30分まえにできた)。
日本語化で何が問題かというと、日本語の形態素解析部分が非常に問題でして、
英語のようにspaceで単語間が区切られていない、明確な単語の区別がつかない
といった点です。幸いなことに、京都大学の長尾研で開発されたフリーの形態素
解析(juman)の使用許可がおりましたので、jumanを形態素解析ツールとして
取り込んでいます。が、JLE環境だとちょっと不具合があるので少し調査する
時間が必要です。
現在、動作しているというのは富士通内部で作られた形態素解析のプログラムを
使用しています。この形態素解析プログラムの配布は問題がありますので、
jumanを組み込んだ形で配布できたらと思います。
一応、社内ではフリーとして配布する形で進んでいます。まだ、日本語処理の
問題がいろいろありますので、もう少々時間がかかりますので御了承ください。
----
富士通株式会社 システム本部 渡辺 洋一(youchan@se.fujitsu.co.jp)