From: 22406680@people.or.jp
Real-Date: 18 Aug 95 23:19:16 JST
Subject: [infotalk,05343] EC PROJECT
Message-Id: <3034A164.4E61.004@people.or.jp>
通産省が、電子取引全般に関して、アイデアを募集しています。
全体で、100億円の補正予算をつけるそうです。その内々
のアイデア募集が、行われます。でもなんと締め切りが21日
月曜日、我はと思われる人は参加しましょう。
通産省の人に問い合わせたところ、一太郎の文書を、UUENCODE
して送ってきました。とりあえず、nettalk 34 にそれを登録して
おきました。テキストに変換したものは、nettalk 35 として、
土曜日のうちには登録しておきます。
文書の入手方法は、majordomo@iijnet.or.jp に
本文で、get nettalk 34 と書いてメールを送ると、その34
番がおくられててきます。
We are Information Volunteers! Let's Learn & Share!
*nettalk producer* Tadashi Nagao
From: yoshioka@well.com (Hiro Yoshioka)
Real-Date: Thu, 17 Aug 1995 22:45:40 -0700
Subject: [infotalk,05342] Re: Netscape SSL Key broken - a report from
Message-Id: <199508180543.WAA11787@well.com>
At 1:37 PM 95.8.18 +0900, MATSUMOTO Yutaka - Sun JTC wrote:
>San Jose Mercury の front page (8/17) だったそうですね。:-p
でした.
ただし今回やぶられたのは40ビットのやつで米国内で利用可能な
128ビットの鍵の版は安全だという立場みたいですね.
よ
http://home.netscape.com/newsref/std/key_challenge.html
>
> KEY CHALLENGE
>
> --------------------------------------------------------------------
>
> Late Tuesday evening a person from France posted a news article to
> the hacker community claiming success at decrypting a single
> encrypted message that had been posted as a challenge on the
> Internet sometime on or before July 14, 1994. His response to
> questions about his posting has also been placed on the Internet.
>
> What this person did is decrypt one message that was encrypted using
> the RC4 algorithm and a 40-bit key. He used 120 workstations and two
> parallel supercomputers at three major research centers for 8 days
> to do so. As many have documented, including Netscape, a single RC4
> 40-bit encrypted message takes 64 MIPS-years of processing power to
> break, and this roughly corresponds to the amount of computing power
> that was used to decrypt the message.
>
> Important points to understand:
>
> 1. He broke a single encrypted message. For him to break another
> message (even from the same client to the same server seconds
> later) would require *another* 8 days of 120 workstations and
> two parallel supercomputers. The work that goes into breaking a
> single message can't be leveraged against other messages. Every
> message uses a different encryption key.
>
> 2. The standard way to judge the level of security of any
> encryption scheme is to compare the cost of breaking it versus
> the value of the information that can be gained. In this case
> he had to use at least $10,000 worth of computing power
> (ballpark figure for having access to 120 workstations and two
> parallel supercomputers for 8 days) to break a single message.
> Assuming the message is protecting something of less value than
> $10,000, then this information can be protected with only RC4
> 40-bit security. For information of greater value, currently
> available RC4 128-bit security should be used.
>
> 3. Inside the US, software can support a range of stronger
> encryption options, including RC4 128-bit, which is 2^88 times
> harder to decrypt. Meaning that the compute power required to
> decrypt such a message would be more than 1,000,000,000,000
> (trillion) times greater than that which was used to decrypt
> the RC4 40-bit message. This means that with foreseeable
> computer technology it would be practically impossible.
>
> In conclusion, we think RC4 40-bit is strong enough to protect
> consumer-level credit-card transactions -- since the cost of
> decrypting the message is sufficiently high to make it not worth the
> computer time required to do so -- and that our customers should use
> higher levels of security, particularly RC4 128-bit, whenever
> possible. This level of security has been available in the U.S.
> versions of our products since last April. Because of export
> controls it has not been available outside the U.S. We would
> appreciate your support in lobbying the U.S. government to lift the
> export controls on encryption. If you'd like to help us lobby the
> government send email to export@netscape.com.
>
> Finally, we'd like to reiterate that all this person has done is
> decrypt one single RC4 40-bit message. RC4 the algorithm and
> products which use the algorithm remain as secure as always. If you
> would like more detailed information about this event or a more
> thorough technical understanding of the issues involved continue
> here.
--
Hiro Yoshioka
http://www.st.rim.or.jp/~hirotaka
email:yoshioka@well.com
From: yoshioka@well.com (Hiro Yoshioka)
Real-Date: Thu, 17 Aug 1995 22:29:10 -0700
Subject: [infotalk,05341] Re: draft-ietf-html-i18n-00.txt
Message-Id: <199508180527.WAA05638@well.com>
よしおかです.
At 8:58 AM 95.8.18 +0900, Noritoshi Demizu (出水法俊 ) wrote:
>draft-ietf-html-i18n-00.txt ですが、ようやっと先ほど目を通しました。
>というわけで困ったことに、document character set として UCS-2 を使うよと
>言っているようです。UCS-2 って良く知らないのですが UNICODE なんですよね?
>ということは jisx0208 上では異なる文字でも、UNICODE 上同じ文字なら、同
>じ文字として扱わねばならないということかな。。
あ,違います.X0208で独立な文字はUCS2でも独立です.
unificationとかいう言葉が一人歩きしちゃったわけですが
日中韓の漢字をunificationしたわけなので
iso2022jpを使っている限り全然こまりません.
> * 4.2. Date, time, measures and monetary amounts
> ・Latiin-1 の文字を全部 entity 定義してる。
> ・日付、時刻、長さ、お金の表記も国によって違うのを吸収する。
ここらへんも吸収しようというのがまああれですね.
>というわけで、document character set として UCS-2 を明確に定義されるの
>を防いで ISO-2022 でも困らないようにするためには、思うに、UNICODE をも
>包含した、UNICODE に代わる便利な code set を提案すれば良いのではないか
>と思ったりしております。例えば、X11R5 の Xwchar みたいなの (曖昧な記憶
>を元に書いているので、例として不適切ならごめんなさい)。
ここでよくわからないのはiso2022を利用するとどんな問題を
どのように解決するのでしょうか?
もちろん電子メールで利用しているという答えはその材料としては
弱いですよね.
いわゆるjunetで利用されていたコードiso−2022−jpは
その当時,asciiと漢字を7ビット環境化で使うために開発された
わけですよね.8ビット環境ではすでにEUCとかSJISが開発され
ていたわけですけど電子メールでは7ビットという制約があったから
利用していたと.
さてそのような制約のないHTMLの世界にiso2022を持ち込む
としたらどのような問題を解決するのでしょうか?
よ
--
Hiro Yoshioka
http://www.st.rim.or.jp/~hirotaka
email:yoshioka@well.com
From: Noritoshi Demizu (出水法俊) <demizu@nff.ncl.omron.co.jp>
Real-Date: Fri, 18 Aug 1995 14:05:42 +0900
Subject: [infotalk,05340] an SGML book list
Message-Id: <199508180505.OAA00184@coo.wg.omron.co.jp>
> (質問3) これから書き方を勉強するとしたら例えば何を読めばよい?
私の手元にある本を紹介します。
(1) 日本語の入門書のお勧め
編著者: 麻布メディア研究会
書名: SGML の書き方
発行所: (株)麻布プロデュース
ISBN 4-900710-01-6 定価1480円
コメント: いきなりの漫画でださい本かとだまされそうになりますが、
SGML 文書の書き方、DTD、SGML 宣言と必要なことがちゃんと
書いてあります。「絵説き本は深い」の実例のひとつです。
(2) 英語の学習書?
著者: Eric van Herwijnen
書名: Practical SGML Second Edition
発行所: Kluwer Academic Publishers
ISBN 0-7923-9934-8 価格: $40-$50くらいだったかな。。
コメント: ボストンの Quantum Books という本屋にビニ本になって
置かれていたので売れている可能性がある。www.ebt.com
でもお勧めの本として紹介されていた。きっと良い本なん
だけどまだ読めてないのであまりコメントできない。
(3) ハンドブック
著者: Charles F. Goldfarb (IBM Almaden Research Center)
書名: The SGML Handbook
発行所: Oxford University Press
ISBN 0-19-853737-9 価格: $95.00
コメント: SGML を定義している ISO 8879 が注釈付で掲載されてい
ます。SGML を深く理解するには必要かも。しかし、普通
は深く理解する必要はないと思います。:)
以上です。
出水法俊
From: Yutaka.Matsumoto@sun.co.jp (MATSUMOTO Yutaka - Sun JTC)
Real-Date: Fri, 18 Aug 95 13:36:44 JST
Subject: [infotalk,05339] Netscape SSL Key broken - a report from
Message-Id: <9508180436.AA07878@katsu.Japan.Sun.COM>
> ]40bit RC4 だから破られて当然じゃないですか? 所詮 "exportable" だし。
> ]メールに署名するときでさえ 1024bit の鍵を使う時代ですからね。。。
>
>まったくその通り。ここにSSLの話を転載したのは、単に破られたという事実
>を示したかったからに過ぎません。理論的に弱いというだけでは、なかなか信
>じてもらえないのも事実だから。
San Jose Mercury の front page (8/17) だったそうですね。:-p
-- taka@Japan.Sun.COM
From: Tatsurou Sekiguchi <cocoa@is.s.u-tokyo.ac.jp>
Real-Date: Fri, 18 Aug 1995 11:33:29 +0900
Subject: [infotalk,05338] Re: draft-ietf-html-i18n-00.txt
Message-Id: <9508180233.AA27163@madonna.is.s.u-tokyo.ac.jp>
> (質問1) 2022-basedのような状態遷移を含む形態を記述することは、そも
> そもSGMLの枠組みで可能なのか? そんなDTDは書けるのか?
> (質問2) もし書けるとしたら、どうやって書けばよい?
short reference mapping を使えばできるような気がします。
From: saty@ossi.com (Mr. Tsuchiya)
Real-Date: Thu, 17 Aug 1995 19:16:01 +0800
Subject: [infotalk,05337] draft-ietf-html-i18n-00.txt
Message-Id: <9508180216.AA05180@skuld.ossi.com>
すいません。書きたいことはあるのですが、ちょうど仕事が山場なもので、簡
単に。
> というわけで困ったことに、document character set として UCS-2 を使うよと
> 言っているようです。UCS-2 って良く知らないのですが UNICODE なんですよね?
> ということは jisx0208 上では異なる文字でも、UNICODE 上同じ文字なら、同
> じ文字として扱わねばならないということかな。。
Unicodeと ISO10646のすり合わせが行われたときに source code separation
という原則が提案されて、10646の文字の元となる集合(source code)である
JIS X0208、JIS X0212などの文字同士をunification しないことになって
いると思います。(私の理解では。) つまり、現実には jisx0208上で
異なる文字で Unicode上で同じである文字はないはずです。
> 図にすると、こんな感じです。(文章で書くとわけわかめだなぁ _O_)
> ファイルやネットワークで使われている文字表現
> ↓
> ↓(モデル上は内部処理のために変換)
> ↓
> document character set (内部表現の wchar_t みたいなもの)
> ↑
> ↑(descsetで対応関係を定義)
> ↑
> baseset (一般には標準の文字集合)
例えば、0から127番目までは ISO646 IRVで、128から 255までは iso 8859-1
という既存の*文字集合*を借りてきてひとつの document character setを作
ることができる、ということだと思っています。ギリシャとか東欧の人は後半
の部分を 自分のところの文字集合 iso8859のなんとかに置き換えて自分の言
葉用の document character setを宣言することができる。
> HTML が SGML の application である(SGMLで定義されている)限り、BASESET,
> DESCSET も宣言しなくちゃいけないようです。そうなると、BASESET や
> document character set に UNICODE を使いたくなるんでしょうね。
一般に誤解されやすいのは、ファイルやネットワークで使用されている文字表
現までUnicodeにしなければならないと思われてしまう点で、draft-i18n.txt
に出てくるように entity managerという魔法のモジュールが*想定*されてい
るので、基本的には外部コードに制限はありません。つまり、document char
setはパーサが解析する場合に意味を判断するための基準となるもので、制御
文字なのか図形文字なのか、図形文字ならば スペースやタブなのか印字イメー
ジがあるのか、名前として使用できるのか数字なのかといった意味を判定する
ためのテーブルである、というのが基本的な考え方です。
--
---------------------------------------------------------------------------
TSUCHIYA Satoshi | tsuchiya@sysrap.cs.fujitsu.co.jp | NIFTY-ID:GDC02435
土 屋 哲 (狼疾の人) | 富士通マルチメディアプロジェクト推進本部 企画部
From: shimono@well.com (Takao SHIMONO)
Real-Date: Thu, 17 Aug 1995 19:05:34 -0700
Subject: [infotalk,05336] Michael Jackson Simulchat
Message-Id: <199508180204.TAA24752@well.com>
あやしい者です。
これからMichael JacksonがAmerica OnlineのMTV Onlineのchatに登場するそ
うです。InternetのIRCもあるらしいので暇な人は探してみてはいかがでせう。
Takao SHIMONO
shimono@well.com
From: Noritoshi Demizu (出水法俊) <demizu@nff.ncl.omron.co.jp>
Real-Date: Fri, 18 Aug 1995 09:29:37 +0900
Subject: [infotalk,05335] Re: draft-ietf-html-i18n-00.txt
Message-Id: <199508180029.JAA01045@coo.wg.omron.co.jp>
いま会社がネットワーク工事中なのでメールが届かなくなっています。
infotalk ML archive で見つけたので遅くなりましたがお返事書きます。
> ざっと目を通しただけですが、要は、
> 1) 文字集合としてISO 10646 UCS-2を使った場合のHTMLを定義した(DTD付)。
> 2) で、HTTPの"charset"パラメタで"ISO-10646-UCS-2"が指定されている場
> 合は、この形式に基づくHTMLとして処理すべし、と言っている。
> 3) 但しHTML 2.0そのものとしては、ISO 8859-1をat leastでサポートして
> いればよい(本当は8859-1+αだけど詳細は略)、とも言っている。
> てなとこでしょうか。
うむむ、私とは感触がずいぶん違いますね:-)。私、寝てて読み間違えたかなぁ。。
少なくとも、さっきのメールの日本語は発散してて読みにくいことと思います。(_O_)
> で、(と勝手に話を飛ばしてますが)、そのためには2022-basedなHTMLの仕
> 様をちゃんと提出しないといけない訳です。もし仮に2022-basedなHTMLの
> 仕様を記述するとしたら、DTDはどうやって書けば良いのでしょうか。
DTD の方は気にしなくても良いと思います。それよか SGML 宣言中の
BASESET, DESCSET が問題だと思います。
さっきのメールに書いたように、SGML には document character set,
baseset, descset という概念があります。2022-based HTML を HTML の規格
に取り込むためには、ISO-2022 で表現できる文字すべてを含んだ文字の集合
をひとつ定義しなくてはいけないと思います。それが UCS-2 の upper set に
なっていれば、ISO-8859-1 を愛している人も、UCS-2 を愛している人も、
ISO-2022 を愛している人も幸せになれるのではないかと思います。
例えばここで定義する文字の集合を infotalk-wchar と呼んでみましょう。
これを次のように定義することで、簡単に ISO-8859-1, UCS-2 の上位互換に
なると思います。
* infotalk-wchar は 32bits とする。
* ISO-8859-1 は次のように表現する。ただし ISO-8859-1 のコードを XX とする。
00 00 00 XX
* UCS-2 は次のように表現する。ただし UCS-2 のコードを XX とする。
00 00 XX XX
* その他の文字集合で UCS-2 にすっぽり収まっているものがあればそれを使う。
00 00 YY XX
* その他の文字集合で UCS-2 にはすっぽりとは収まっていないものは、
AA BB CC XX 94文字集合 or 96文字集合
AA BB XX XX 94x94文字集合 or 96x96文字集合
これをきっちり定義して RFC にした上で、draft-ietf-html-i18n-00.txt の
SGML 宣言の BASESET, DESCSET を次みたいに書き換えれば終りかな。
BASESET "IETF//CHARSET RFCxxxx//ESC ?? ?? ??"
DESCSET 0 9 UNUSED
9 2 9
11 2 UNUSED
13 1 13
14 18 UNUSED
32 95 32
127 1 UNUSED
128 32 UNUSED
160 4294967295 160
う〜む、いい加減ですが、こんなんでできたりして。:-)
# BASESET の書き方は超いい加減です。4294967295 = 2^32-1 です。
> (質問3) これから書き方を勉強するとしたら例えば何を読めばよい?
ちなみにいま私は次の本を見ています。
Eric van Herwijnen,
``Practical SGML Second Edition''
Kluwer Academic Publishers
ISBN 0-7923-9434-8
もう2冊おうちにあるので、後で書きます。
出水法俊
ps. draft-ietf-html-i18n-00.txt の参考文献に高田さんの論文がありますね。
ps2. 当たり前だけど、cii 使ってると cut&paste できないのね(;_;)
From: Noritoshi Demizu (出水法俊) <demizu@nff.ncl.omron.co.jp>
Real-Date: Fri, 18 Aug 1995 08:54:20 +0900
Subject: [infotalk,05334] Re: draft-ietf-html-i18n-00.txt
Message-Id: <199508172354.IAA00954@coo.wg.omron.co.jp>
draft-ietf-html-i18n-00.txt ですが、ようやっと先ほど目を通しました。
重要っぽい節だけをリストしてみました。注目は 2.1, 2.2 かな。
* 1.1 Scope
・これは HTML 2.x を定める。
(`x' の数字をどの時点で決めるか知らないけど、今なら 2.1 かな。)
・Internet Media Type として "text/html; version=2.x" を定める。
* 1.2.2. User agents
・ユーザエージェントは少なくとも ISO-8859-1 をサポートしてない
といけない。
・Ӓ と書く時、ISO-8859-1 の範囲以外であったとしても、
UCS-2 の範囲なら正しく *解析* できないといけない。
* 2.1. Reference processing model
・ファイルやネットワークで使われている文字の表現方法については
関知しない。HTTP や MIME の Content-Type フィールドの charset
パラメータ使って好きなのを使ってくれぃ。
・外部表現が何であれ気にせず、内部処理する前に(モデル上は) 2.2節
で定義する `document character set' ってのに変換しちゃうぞ。
・entityマネージャも、パーサも、アプリケーションも、文字のセマ
ンティクス(?)に関係する時には必ず HTML 2.x document character
set だけを使うのよ。これで Ӓ が一意に決まるわ。
* 2.2. The HTML 2.x document character set
・HTML 2.x document character set は UCS-2、つまり
Basic Multilingual Plane of ISO 10646:1993 [ISO-10646] である。
* 4.2. Date, time, measures and monetary amounts
・Latiin-1 の文字を全部 entity 定義してる。
・日付、時刻、長さ、お金の表記も国によって違うのを吸収する。
* 5.2. Form submission
・"application/x-www-form-urlencoded" では charset は扱えない。
・"multipart/form-data" がいいよ。
* 6. Miscellaneous
・Content-Type に charset paramter がないのが多い。
・<A ..> か <LINK ..> に CHARSET attribute を加えてはどうか。
・ドキュメントの頭に次のように書くのはどうか。
<META HTTP-EQUIV="Content-Type"
CONTENT="text/html; charset=ISO-2022-JP">
* 7. HTML Public Text
・HTML 2.x の DTD, SGML 宣言, Entity宣言が定義されている。
というわけで困ったことに、document character set として UCS-2 を使うよと
言っているようです。UCS-2 って良く知らないのですが UNICODE なんですよね?
ということは jisx0208 上では異なる文字でも、UNICODE 上同じ文字なら、同
じ文字として扱わねばならないということかな。。
* * *
さて、draft-ietf-html-i18n-00.txt と `Practical SGML' という本からの知
識によると、SGML では文字を次のように考えているようです。
・ドキュメント中で使うことのできる文字の集合を `document character set'
と言う。`document character set' に含まれるひとつひとつの文字には
一意な番号が割り当てられている。このとき、各文字がシステム上で具体
的にどのように表現されているかには関知しない。
・`document character set' の各番号が実際にはどの文字を表現している
かを示すために、`baseset' と `descset' を SGML 宣言部で宣言しなけ
ればならない。
・`baseset' は、多くの場合標準として定義されている文字集合を用いる。
・`descset' は、`baseset' と `document character set' の対応表である。
簡単のためか、`document character set' と `baseset' は同じものが
用いられることがよくあるようだ。
・ファイルやネットワークで使われている文字の集合を `system character
set' と言うらしい。
図にすると、こんな感じです。(文章で書くとわけわかめだなぁ _O_)
ファイルやネットワークで使われている文字表現
↓
↓(モデル上は内部処理のために変換)
↓
document character set (内部表現の wchar_t みたいなもの)
↑
↑(descsetで対応関係を定義)
↑
baseset (一般には標準の文字集合)
というわけで、SGML の文書の文字は、モデル上は固定長文字集合みたいです。
HTML が SGML の application である(SGMLで定義されている)限り、BASESET,
DESCSET も宣言しなくちゃいけないようです。そうなると、BASESET や
document character set に UNICODE を使いたくなるんでしょうね。
* * *
というわけで、document character set として UCS-2 を明確に定義されるの
を防いで ISO-2022 でも困らないようにするためには、思うに、UNICODE をも
包含した、UNICODE に代わる便利な code set を提案すれば良いのではないか
と思ったりしております。例えば、X11R5 の Xwchar みたいなの (曖昧な記憶
を元に書いているので、例として不適切ならごめんなさい)。
出水法俊