Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 22:08:18 +0900
Subject: [infotalk,00025] new member [hanerin@ksl.se.fujitsu.co.jp]
Message-Id: <9303081308.AA21802@seraph.ntt.jp>



たかだです。

> 富士通の塙平と申します。 
> 当社の蛯原さんからinfotalkメーリングリストを教えて頂きました。
> 私も最近WAISやGopherの恩恵に被っていまして利用させて頂いています。
> つきましてはメーリングリストに参加させて頂きたくメール致しました。

さんが入りました。よろしくお願いします。

========================================================================
NTT基礎研究所 情報科学研究部                                 高田敏弘
分散コンピューティング原理研究グループ              takada@nttlab.ntt.JP
========================================================================


Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 17:17:04 +0900
Subject: [infotalk,00024] Re: WWW for EUC code 
Message-Id: <9303080817.AA20403@seraph.ntt.jp>



たかだです。

In <infotalk:00023> "Youichi Watanabe <youchan@yokohama.se.fujitsu.co.jp>"-san writes:
> you> #violaWWWのEUCはまだやってないですよね。
> akada> これはやってないです。
> やっぱし。あれは難しいですね。

violaWWW は、むか〜し使ってみたらボロボロ core dump したんで、それっきり
手を触れていないです。ひょっとして、おススメですか?

> Gopher+はまだinstallしていませんが、gopherに関してはSun JLEの機能で
> 日本語が通るようにしています。
> gopherからWAISを呼ぶ場合にisalnum(c)で英数字のみの表示をしているところ
> がありますので、そこを漢字もOKにすればいいとおもいます。

ふむふむ。

> WAISのソースを読んでいますが、英数字以外の文字がでたるまでその文字列を
> キーワードとしていますね。ですから、このあたりを日本語らしくかえてあげる
> 必要があります。いま、京大の長尾研から形態素解析のプログラムをもらって

なるほど。私のまわりにも自然言語のプロが結構いますので、こちらでも何とか
なるかどうか聞いてみます。(でも社外に出すのは不可能に等しいかも、多分。)

> ところで、Z39.50とかWAISを解析したかたはいらっしゃいますか?

思うに、今のとこ渡辺さんが一番のプロなんではないかと... (^_^)

========================================================================
NTT基礎研究所 情報科学研究部                                 高田敏弘
分散コンピューティング原理研究グループ              takada@nttlab.ntt.JP
========================================================================


Real-Writer: Youichi Watanabe <youchan@yokohama.se.fujitsu.co.jp>
Real-Date: Mon, 08 Mar 93 16:01:09 +0900
Subject: [infotalk,00023] Re: WWW for EUC code 
Message-Id: <9303080701.AA16445@discovery.yokohama.se.fujitsu.co.jp>


こんにちは、富士通の渡辺です。 

    From: infotalk@square.ntt.jp (InfosystemsTalk mailing list) さん
    Date: Mon, 8 Mar 93 15:45:07 +0900 
    Subject: "[infotalk,00022] Re:  WWW for EUC code " ...
    In article: "<9303080645.AA19582@seraph.ntt.jp>" ...

you> EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
you> もしよければ公開してもらえないでしょうか? 

takada> あるにはありますが、パッチあてたのは私ではなく、その人も今は国内某
takada> 富士通講座(おお ^^)に逃亡中なので、しばしお待ち下さい。連絡してみます。

よろしくお願い致します。

you> #violaWWWのEUCはまだやってないですよね。
akada> これはやってないです。

やっぱし。あれは難しいですね。

takada> と... これだけでは何なので、日本語化についてすこし。

takada> Gopher: これは既に 8-bit clean ですよね(多分)。慶應のサーバーには日本語
takada> のテキストが入ってるし。あと Gopher+ protocol(*) では、ある1つのデータ
takada> を色々な形式(例えば xbm, gif, jpeg とか)で提供して、クライアントの方
takada> でどの形式を読むかを選択できるようになり、そこで言語情報(En_US, 
takada> De_DE, Fr_FR,Ja_JP など)による選択もできるようになりました。

Gopher+はまだinstallしていませんが、gopherに関してはSun JLEの機能で
日本語が通るようにしています。

gopherからWAISを呼ぶ場合にisalnum(c)で英数字のみの表示をしているところ
がありますので、そこを漢字もOKにすればいいとおもいます。

emacsからgopher.elで読む場合は問題ないのですが、clientにSun JLEのcurses
を使うとどうも、キーワード入力部分の画面がこわれてしまいます。

そうそう、あとmailを送るところもEUCの場合はなにもしてませんので、JISに
変換しないといけませんね。

takada> WAIS: これが一番問題っすね。ANSI Z39.50(*) とやらでは他国語のことは考え
takada> てないのかなあ。そもそも世界最強(^_^)の検索手法である plain text の 
takada> grepだって、日本語の場合は今ひとつしっくりこないからなあ。

WAISのソースを読んでいますが、英数字以外の文字がでたるまでその文字列を
キーワードとしていますね。ですから、このあたりを日本語らしくかえてあげる
必要があります。いま、京大の長尾研から形態素解析のプログラムをもらって
そこに当てはめられないか考えております。

ところで、Z39.50とかWAISを解析したかたはいらっしゃいますか?


Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 15:45:06 +0900
Subject: [infotalk,00022] Re: WWW for EUC code 
Message-Id: <9303080645.AA19582@seraph.ntt.jp>



たかだです。

このMLのチャーター、おだじまさんにも送りますが、その前にfjで(どのNGにふ
ればいいんだ? 思いつかん)地味に告知しようかと思います。一気に入会希望が
くると疲れそうだし。

In <infotalk:00021> "youchan@yokohama.se.fujitsu.co.jp (Youichi Watanabe)"-san writes:
> EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
> もしよければ公開してもらえないでしょうか? 

あるにはありますが、パッチあてたのは私ではなく、その人も今は国内某富士通
講座(おお ^^)に逃亡中なので、しばしお待ち下さい。連絡してみます。

> #violaWWWのEUCはまだやってないですよね。

これはやってないです。

と... これだけでは何なので、日本語化についてすこし。

--------
Gopher: これは既に 8-bit clean ですよね(多分)。慶應のサーバーには日本語
のテキストが入ってるし。あと Gopher+ protocol(*) では、ある1つのデータを
色々な形式(例えば xbm, gif, jpeg とか)で提供して、クライアントの方でどの
形式を読むかを選択できるようになり、そこで言語情報(En_US, De_DE, Fr_FR,
Ja_JP など)による選択もできるようになりました。

WWW: よく分からん。簡単にパッチかけて EUC が通るようになってるから何とか
はなるんだろうけど。真面目にやるとしたら、HTML(*) のちゃんとしたマルチリ
ンガルな形式を決めないといけないんだろうけど。でも、どうせ SGML(*) の方
でそういった規格化がやられているだろうから、これを単に持ってきちゃえばい
いような気がする。HTTP(*) や URL(*) の方は良く分からんです。

WAIS: これが一番問題っすね。ANSI Z39.50(*) とやらでは他国語のことは考え
てないのかなあ。そもそも世界最強(^_^)の検索手法である plain text の grep
だって、日本語の場合は今ひとつしっくりこないからなあ。

もちろん client program は当然日本語扱えるようにしなきゃいけないけど、何
か自分の好きな奴を一つだけやっちゃえば、あとは G, W3, W, etc. の何でも乗
り入れ可だから、まあ、それほど苦ではないと思う。

--------
# 以下、上に出てきた用語の解説です(既に知っている方には失礼)。xmosaic で
# リンク辿りながら検索して、それを cut&past すりゃこれができるんだもの。
# 便利だなあ...

(*) Gopher+ (proposed enhancements to the internet Gopher protocol):
Servers and clients understanding the Gopher+ extensions, transmit extra
information at the ends of list and request lines.  Old, basic gopher
clients ignore such information.  New Gopher+ aware servers continue to
work at their old level with unenhanced clients.  The extra information
that can be communicated by Gopher+ clients may be used to summon new
capabilities to bridge the most keenly felt shortcomings of the
venerable old Gopher.

(*) HTML (HyperText Markup Language):
The WWW system uses marked up text to represent a hypertext document for
transmision over the network. The hypertext markup language is an SGML
format.

(*) SGML (Standard Generalized Markup Language):
ISO 8879:1986, Information Processing -- Text and Office Systems --
Standard Generalized Markup Language (SGML)
This is an ISO standardised derivative of an earlier IBM "GML".  It
allows the structure of a document to be defined, and the logical
relationship of its parts.  This structure can be checked for validity
against a " Document Type Definition ", or DTD.  The SGML standard
defines the syntax for the document, and the syntax and semantics of the
DTD.  See books -- Eric van Herwijnen's "Practical SGML" and Charles
Goldfarb's "SGML Handbook".  Some of the points generally broght up in
(frequent) discussions of SGML follow.

(*) HTTP (Hypertext Transfer protocol):
This document defines the Hypertext Transfer protocol (HTTP) as
currently implemented by the WorldWideWeb initaitive software.  This is
a subset of the sed full HTTP protocol.  No client profile information
is transferred with the query.  Future HTTP protocols will be
back-compatible with this protocol.
The definition of this protocol is in the public domain (see policy ).
The protocol uses the normal internet-style telnet protocol style on a
TCP-IP link.  The following describes how a client acquires a
(hypertext) document from an HTTP server, given an HTTP document address.

(*) URL (Universal Resource Locator):
The format of a hypertext name consists of the name of the naming
sub-scheme to be used, then a name in a format particular to that
subscheme, then an optional anchor identifier within the document.  For
example, the format is for all internet-based access methods:
"scheme : // host.domain:port / path / path # anchor"

(*) ANSI Z39.50:
Z39.50 is an American National Standard that was approved in 1988 by the
National Information Standards Organization (NISO), an American National
Standards Institute- (ANSI) accredited standards writing body that
serves the library, information, and publishing communities.
Z39.50 is an applications-layer protocol within the OSI reference model
developed by the International Standards Organization (ISO).  Its
purpose is to allow one computer operating in a client mode to perform
information retrieval queries against another computer acting as an
information server.
The standard provides a uniform procedure for client computers to query
information resources such as server computers supporting online library
catalogs.  For example, the development of a client program running on
one machine may provide end users with a common means of access to a
variety of information resources attached to a computer network.
...
Anyway, it is available from /public/wais/z3950/z3950-spec.txt@think.com
and on the wais-docs WAIS server.

========================================================================
NTT基礎研究所 情報科学研究部                                 高田敏弘
分散コンピューティング原理研究グループ              takada@nttlab.ntt.JP
========================================================================


Real-Writer: youchan@yokohama.se.fujitsu.co.jp (Youichi Watanabe)
Real-Date: Mon, 8 Mar 93 10:27:58 GMT
Subject: [infotalk,00021] WWW for EUC code
Message-Id: <9303080127.AA15745@discovery.yokohama.se.fujitsu.co.jp>


こんにちは、富士通の渡辺です。

EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
もしよければ公開してもらえないでしょうか? 

僕の環境はInternetにアクセスできない(133.162がWIDEにannounceされてない)
のでInternet上のWWWサーバに直接アクセスできません。localに立ちあげる方法
などをご存知のかたがいらしたら、是非教えて下さい。

#violaWWWのEUCはまだやってないですよね。