Real-Writer: Masahiro Morita <hiro@jaist-east.ac.jp>
Real-Date: Wed, 07 Apr 93 20:53:29 JST
Subject: [infotalk,00116] Information storing and retrieving.
Message-Id: <9304071153.AA28515@nis.jaist-east.ac.jp>
はじめてここに投稿する、北陸先端大の森田といいます。
いま、私は次のようなことを考えています。
みなさんの率直な意見をお伺いしたいと思います。
---
まずはじめに、私が「情報」というものに興味を持った経緯から述べたいと思
います。
現在、情報を保管する手段として主に用いられるものとして、
1. 階層構造によるカテゴライズ.
UNIXのファイルシステムに代表される、もっとも一般的な情報の格納形式。
簡単で分かりやすいという利点があるが、本来情報とはそれほど単純なも
のではない。ある情報があった時に、その情報が属するべきカテゴリは、
情報の読み手、あるいは読み手のおかれている状況によって変化し得る。
2. HyperText形式による探索.
HyperCardなどで用いられて、最近ではpopularになってきている。しかし
1. と同様に、情報の間の関連は動的なものであるため、静的なHyperText
Linkでは表現しきれない。また、ニュースのようなinformation streamに
対しては全く非力である。このことは1.にもいえる。
ということがいえるでしょう。
WAISのように、Full-text retrievalを基本とした情報システムでは、大量に
生のデータをブチ込んでおいて、あとは力任せに検索するという手法がとられて
います。この場合、先ほどのようなことはあまり問題になりません。
しかし、それだけではあまりうれしくない。自分が生み出した情報や、人から
聞いた話しなどをうまく計算機が管理して欲しいわけです。余計なことに惑わさ
れずに、欲しい時に欲しいものを引き出せて、発散的なアイディアなどを適切に
保管しておいて欲しい。こういったものというのは階層的なファイルシステムに
は載りにくい。
Information Lensをご存知の方も多いと思いますが、こいつの場合は情報を生
成する時にあらかじめ計算機が処理しやすく、なおかつ人間にとっても (つまり、
読む側にとっても) 分かりやすいように、情報を半構造化 (Semi-structured)
しています。最近の研究でこのコンセプトはOvalというシステムにより洗練した
形で実現されています。
確かに、このような情報構造は扱いやすい。検索も楽になるし、アイディアを
適当にブチ込んでおけば、後で再利用も楽そうだ。しかし、このような構造化を
半ば強制することは、人間の創作活動を妨げることになりはしないでしょうか。
しかも、このシステムを使っている人同士の間では確かに半構造化の恩恵に預
れますが、そうでない人にとってはあまり嬉しいことじゃない。それに、世の中
にはこのようなSemi-structuredな情報でないものの方が多いわけです。
そこで、-- ここからが本題 -- 計算機を使って、生の情報から計算機によっ
てより処理の楽な形式、つまりSemi-structuredな情報を抽出できないだろうか。
わざわざ自然言語処理なんかしなくっても、簡単なパターンマッチだけである程
度のことはできるはずです。たとえば、NetNewsの記事を
[(news-article
(message-id "<hogehoge@hogehoge>")
(newsgroups "fj.jokes")
(subject "kawaii pajero")
(contents "....")
(with (uuencoded "hogehoge.tar.Z" "......")))]
とか、
[(news-article
(message-id "<hogehoge@hogehoge>")
(newsgroups "fj.meeting")
(subject "kawaii pajero")
(contents "....")
(meeting-for "Infotalk")
(meeting-at "JAIST"))]
のような形にしてくれるだけで、結構ありがたいし、使える。計算機が間違えた
ところは人間が直してやってもいい。こうしてやると、Information filtering
にも応用がききます。それ以外にも、発想支援やさまざまな応用が考えられます。
---
文章が少々支離滅裂なのはお許し下さい。まだ、完全にアイディアが固まってい
ないんです。
// HIRO@JAIST-EAST.AC.JP //
Real-Writer: yamah@nttbss.NTT.JP (Hiroyuki YAMASHITA)
Real-Date: Wed, 7 Apr 93 13:08:30 JST
Subject: [infotalk,00115] News about Information Retrieval
Message-Id: <9304070408.AA06612@balss21.ntt.jp>
山下博之です。
MITメディアラボの創設者であるネグロポンテ氏が、情報検索に関して
何か考えている/やろうとしている?そうです。
(詳しく読んでいないので曖昧ですが、申し訳ありません。)
"broadcatching"型か、"searching"型か、ということに関することです。
(ATM方式による)高速・広帯域通信網の利用コストが低下すれば、前者の方がよい、
というのは当たり前のことかな。ただし、"local filter"の能力についても、
気になります。
------------------------------------------------------------------
>From: myoung@NEBULA.SSD.LMSC.LOCKHEED.COM
Newsgroups: comp.dcom.cell-relay
Subject: NEWS NEWS NEWS
Message-ID: <1993Apr6.165754.25085@iscnvx.lmsc.lockheed.com>
Date: 6 Apr 93 16:57:54 GMT
Sender: news@iscnvx.lmsc.lockheed.com (News)
Reply-To: myoung@NEBULA.SSD.LMSC.LOCKHEED.COM
Organization: LMSC, Sunnyvale, California
Lines: 38
Before me I have Bob Metcalfe's latest editorial from Info World,
always great reading!
Bob talked with Mr. Negroponte, who is reported to to believe that
trade magazines, such as Info World, will soon be delivered via
bulk transfer to the home user, where the users intelligent station
will further filter the information.
Mr. Negroponte seems to be re-stating one of two variants in information
retrieval: 1) Data arrives in bulk, at high speed to the local filter,
or 2) The local filter traverses the network gathering the specialized
information for return to the user.
Why do we care? Well for one thing the choice determines whether information
broadcasts over television channels will compete with public ATM. The choice
also determines how many network variables the application needs to extract
information.
The software I see seems to point toward intelligent information environments,
which use both methods (such as the mail and data base front ends). The
software devices both intelligently gather information from remote servers,
and further filter the information locally.
Over the WAN one can envision that a building contractor (for instance)
answers a sophisticated query such as: What supply companies can
deliver a given set of materials to building site and at what date, such
that the total cost of the project is minimized. To answer the query, the
contractor needs to build a query tree over the network, spanning just
the building supply houses, filtering data from the remote inventory
data bases. He may finalize the query locally with information gathered;
or the products can be ordered and delivery established before the
roving query returns to the user.
By supporting these queries, the ATM industry can grow regional economies
by 10%, more than paying for deployment, and possibly even generating huge
profits for the VANs and local telephone companies. The key is to minimize
network management costs by moving much of that burden to the desktop
environment, where multiple third party software vendors can work the issue.
-------------------------------------------------------------------------
NTT情報通信網研究所 基本アーキテクチャ研究部 本通G [Y-609A]
山下 博之 | ( Hiroyuki Yamashita ) E-mail : yamah@nttbss.ntt.jp
0468-59-2422 | ********
(Fax) -3796 | 住所: 238−03 横須賀市武1−2356