Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 22:08:18 +0900
Subject: [infotalk,00025] new member [hanerin@ksl.se.fujitsu.co.jp]
Message-Id: <9303081308.AA21802@seraph.ntt.jp>
たかだです。
> 富士通の塙平と申します。
> 当社の蛯原さんからinfotalkメーリングリストを教えて頂きました。
> 私も最近WAISやGopherの恩恵に被っていまして利用させて頂いています。
> つきましてはメーリングリストに参加させて頂きたくメール致しました。
さんが入りました。よろしくお願いします。
========================================================================
NTT基礎研究所 情報科学研究部 高田敏弘
分散コンピューティング原理研究グループ takada@nttlab.ntt.JP
========================================================================
Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 17:17:04 +0900
Subject: [infotalk,00024] Re: WWW for EUC code
Message-Id: <9303080817.AA20403@seraph.ntt.jp>
たかだです。
In <infotalk:00023> "Youichi Watanabe <youchan@yokohama.se.fujitsu.co.jp>"-san writes:
> you> #violaWWWのEUCはまだやってないですよね。
> akada> これはやってないです。
> やっぱし。あれは難しいですね。
violaWWW は、むか〜し使ってみたらボロボロ core dump したんで、それっきり
手を触れていないです。ひょっとして、おススメですか?
> Gopher+はまだinstallしていませんが、gopherに関してはSun JLEの機能で
> 日本語が通るようにしています。
> gopherからWAISを呼ぶ場合にisalnum(c)で英数字のみの表示をしているところ
> がありますので、そこを漢字もOKにすればいいとおもいます。
ふむふむ。
> WAISのソースを読んでいますが、英数字以外の文字がでたるまでその文字列を
> キーワードとしていますね。ですから、このあたりを日本語らしくかえてあげる
> 必要があります。いま、京大の長尾研から形態素解析のプログラムをもらって
なるほど。私のまわりにも自然言語のプロが結構いますので、こちらでも何とか
なるかどうか聞いてみます。(でも社外に出すのは不可能に等しいかも、多分。)
> ところで、Z39.50とかWAISを解析したかたはいらっしゃいますか?
思うに、今のとこ渡辺さんが一番のプロなんではないかと... (^_^)
========================================================================
NTT基礎研究所 情報科学研究部 高田敏弘
分散コンピューティング原理研究グループ takada@nttlab.ntt.JP
========================================================================
Real-Writer: Youichi Watanabe <youchan@yokohama.se.fujitsu.co.jp>
Real-Date: Mon, 08 Mar 93 16:01:09 +0900
Subject: [infotalk,00023] Re: WWW for EUC code
Message-Id: <9303080701.AA16445@discovery.yokohama.se.fujitsu.co.jp>
こんにちは、富士通の渡辺です。
From: infotalk@square.ntt.jp (InfosystemsTalk mailing list) さん
Date: Mon, 8 Mar 93 15:45:07 +0900
Subject: "[infotalk,00022] Re: WWW for EUC code " ...
In article: "<9303080645.AA19582@seraph.ntt.jp>" ...
you> EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
you> もしよければ公開してもらえないでしょうか?
takada> あるにはありますが、パッチあてたのは私ではなく、その人も今は国内某
takada> 富士通講座(おお ^^)に逃亡中なので、しばしお待ち下さい。連絡してみます。
よろしくお願い致します。
you> #violaWWWのEUCはまだやってないですよね。
akada> これはやってないです。
やっぱし。あれは難しいですね。
takada> と... これだけでは何なので、日本語化についてすこし。
takada> Gopher: これは既に 8-bit clean ですよね(多分)。慶應のサーバーには日本語
takada> のテキストが入ってるし。あと Gopher+ protocol(*) では、ある1つのデータ
takada> を色々な形式(例えば xbm, gif, jpeg とか)で提供して、クライアントの方
takada> でどの形式を読むかを選択できるようになり、そこで言語情報(En_US,
takada> De_DE, Fr_FR,Ja_JP など)による選択もできるようになりました。
Gopher+はまだinstallしていませんが、gopherに関してはSun JLEの機能で
日本語が通るようにしています。
gopherからWAISを呼ぶ場合にisalnum(c)で英数字のみの表示をしているところ
がありますので、そこを漢字もOKにすればいいとおもいます。
emacsからgopher.elで読む場合は問題ないのですが、clientにSun JLEのcurses
を使うとどうも、キーワード入力部分の画面がこわれてしまいます。
そうそう、あとmailを送るところもEUCの場合はなにもしてませんので、JISに
変換しないといけませんね。
takada> WAIS: これが一番問題っすね。ANSI Z39.50(*) とやらでは他国語のことは考え
takada> てないのかなあ。そもそも世界最強(^_^)の検索手法である plain text の
takada> grepだって、日本語の場合は今ひとつしっくりこないからなあ。
WAISのソースを読んでいますが、英数字以外の文字がでたるまでその文字列を
キーワードとしていますね。ですから、このあたりを日本語らしくかえてあげる
必要があります。いま、京大の長尾研から形態素解析のプログラムをもらって
そこに当てはめられないか考えております。
ところで、Z39.50とかWAISを解析したかたはいらっしゃいますか?
Real-Writer: TAKADA Toshihiro (高田敏弘) <takada@seraph.NTT.JP>
Real-Date: Mon, 08 Mar 1993 15:45:06 +0900
Subject: [infotalk,00022] Re: WWW for EUC code
Message-Id: <9303080645.AA19582@seraph.ntt.jp>
たかだです。
このMLのチャーター、おだじまさんにも送りますが、その前にfjで(どのNGにふ
ればいいんだ? 思いつかん)地味に告知しようかと思います。一気に入会希望が
くると疲れそうだし。
In <infotalk:00021> "youchan@yokohama.se.fujitsu.co.jp (Youichi Watanabe)"-san writes:
> EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
> もしよければ公開してもらえないでしょうか?
あるにはありますが、パッチあてたのは私ではなく、その人も今は国内某富士通
講座(おお ^^)に逃亡中なので、しばしお待ち下さい。連絡してみます。
> #violaWWWのEUCはまだやってないですよね。
これはやってないです。
と... これだけでは何なので、日本語化についてすこし。
--------
Gopher: これは既に 8-bit clean ですよね(多分)。慶應のサーバーには日本語
のテキストが入ってるし。あと Gopher+ protocol(*) では、ある1つのデータを
色々な形式(例えば xbm, gif, jpeg とか)で提供して、クライアントの方でどの
形式を読むかを選択できるようになり、そこで言語情報(En_US, De_DE, Fr_FR,
Ja_JP など)による選択もできるようになりました。
WWW: よく分からん。簡単にパッチかけて EUC が通るようになってるから何とか
はなるんだろうけど。真面目にやるとしたら、HTML(*) のちゃんとしたマルチリ
ンガルな形式を決めないといけないんだろうけど。でも、どうせ SGML(*) の方
でそういった規格化がやられているだろうから、これを単に持ってきちゃえばい
いような気がする。HTTP(*) や URL(*) の方は良く分からんです。
WAIS: これが一番問題っすね。ANSI Z39.50(*) とやらでは他国語のことは考え
てないのかなあ。そもそも世界最強(^_^)の検索手法である plain text の grep
だって、日本語の場合は今ひとつしっくりこないからなあ。
もちろん client program は当然日本語扱えるようにしなきゃいけないけど、何
か自分の好きな奴を一つだけやっちゃえば、あとは G, W3, W, etc. の何でも乗
り入れ可だから、まあ、それほど苦ではないと思う。
--------
# 以下、上に出てきた用語の解説です(既に知っている方には失礼)。xmosaic で
# リンク辿りながら検索して、それを cut&past すりゃこれができるんだもの。
# 便利だなあ...
(*) Gopher+ (proposed enhancements to the internet Gopher protocol):
Servers and clients understanding the Gopher+ extensions, transmit extra
information at the ends of list and request lines. Old, basic gopher
clients ignore such information. New Gopher+ aware servers continue to
work at their old level with unenhanced clients. The extra information
that can be communicated by Gopher+ clients may be used to summon new
capabilities to bridge the most keenly felt shortcomings of the
venerable old Gopher.
(*) HTML (HyperText Markup Language):
The WWW system uses marked up text to represent a hypertext document for
transmision over the network. The hypertext markup language is an SGML
format.
(*) SGML (Standard Generalized Markup Language):
ISO 8879:1986, Information Processing -- Text and Office Systems --
Standard Generalized Markup Language (SGML)
This is an ISO standardised derivative of an earlier IBM "GML". It
allows the structure of a document to be defined, and the logical
relationship of its parts. This structure can be checked for validity
against a " Document Type Definition ", or DTD. The SGML standard
defines the syntax for the document, and the syntax and semantics of the
DTD. See books -- Eric van Herwijnen's "Practical SGML" and Charles
Goldfarb's "SGML Handbook". Some of the points generally broght up in
(frequent) discussions of SGML follow.
(*) HTTP (Hypertext Transfer protocol):
This document defines the Hypertext Transfer protocol (HTTP) as
currently implemented by the WorldWideWeb initaitive software. This is
a subset of the sed full HTTP protocol. No client profile information
is transferred with the query. Future HTTP protocols will be
back-compatible with this protocol.
The definition of this protocol is in the public domain (see policy ).
The protocol uses the normal internet-style telnet protocol style on a
TCP-IP link. The following describes how a client acquires a
(hypertext) document from an HTTP server, given an HTTP document address.
(*) URL (Universal Resource Locator):
The format of a hypertext name consists of the name of the naming
sub-scheme to be used, then a name in a format particular to that
subscheme, then an optional anchor identifier within the document. For
example, the format is for all internet-based access methods:
"scheme : // host.domain:port / path / path # anchor"
(*) ANSI Z39.50:
Z39.50 is an American National Standard that was approved in 1988 by the
National Information Standards Organization (NISO), an American National
Standards Institute- (ANSI) accredited standards writing body that
serves the library, information, and publishing communities.
Z39.50 is an applications-layer protocol within the OSI reference model
developed by the International Standards Organization (ISO). Its
purpose is to allow one computer operating in a client mode to perform
information retrieval queries against another computer acting as an
information server.
The standard provides a uniform procedure for client computers to query
information resources such as server computers supporting online library
catalogs. For example, the development of a client program running on
one machine may provide end users with a common means of access to a
variety of information resources attached to a computer network.
...
Anyway, it is available from /public/wais/z3950/z3950-spec.txt@think.com
and on the wais-docs WAIS server.
========================================================================
NTT基礎研究所 情報科学研究部 高田敏弘
分散コンピューティング原理研究グループ takada@nttlab.ntt.JP
========================================================================
Real-Writer: youchan@yokohama.se.fujitsu.co.jp (Youichi Watanabe)
Real-Date: Mon, 8 Mar 93 10:27:58 GMT
Subject: [infotalk,00021] WWW for EUC code
Message-Id: <9303080127.AA15745@discovery.yokohama.se.fujitsu.co.jp>
こんにちは、富士通の渡辺です。
EUCコードの通るWWWがあるとjun@ami.nakahara.fujitsuさんからききました。
もしよければ公開してもらえないでしょうか?
僕の環境はInternetにアクセスできない(133.162がWIDEにannounceされてない)
のでInternet上のWWWサーバに直接アクセスできません。localに立ちあげる方法
などをご存知のかたがいらしたら、是非教えて下さい。
#violaWWWのEUCはまだやってないですよね。