●
源起
●
網路上著名的搜尋引擎
●
GAIS網路資訊系統研究計劃
●
GAIS計劃的目標
●
GAIS系統提供的資訊搜尋服務
●
GAIS系統的架構
●
GAIS索引/查詢引擎之特色
●
未來展望
|
一. 源 起
隨 著 資 訊 科 技 的 進 步 , 與 網 際 網 路 的 普 及 , 人 類 正 在 進 行 資 訊 史 上 最 鉅 大 的 一 項
工 程 , 那 就 是 : 建 構 一 個 虛 擬 的 、 沒 有 國 界 的 資 訊 新 世 界 。
在 這 過 程 當 中 , 人 類 正 不 停 的 將 現 實 世 界 裡 現 有 的 資 訊 , 諸 如 報 紙 、 雜 誌 、 書 籍 、
政 府 文 件 等 等 等 , 都 丟 到 網 路 上 , 也 不 停 的 在 網 路 上 生 產 新 的 資 訊 。 簡 而 言 之 , 整 個
網 路 正 在 堆 積 一 個 前 所 未 有 的 超 級 大 資 料 庫 。
在 這 新 的 資 訊 時 代 裡 , 最 根 本 的 問 題 之 一 就 是 : 如 何 在 浩 翰 如 海 的 資 訊 空 間 裡 , 快
速 的 找 到 並 取 得 所 需 的 資 訊 。 比 如 說 , 那 裡 有 周 慧 敏 的 照 片 ? 莫 內 的 畫 ? 巴 黎 旅 遊 的
資 訊 ? 雪 霸 國 家 公 園 的 資 訊 ? 一 般 而 言 , 提 供 此 類 查 詢 服 務 的 資 訊 軟 體 系 統 , 我 們 稱
之 為 — 搜 尋 引 擎 。
|
二. 網 路 上 著 名 的 搜 尋 引 擎
在 Internet 有 一 些 非 常 有 名 的 搜 尋 引 擎 , 諸 如 :
- * 可 用 來 搜 尋 Anonymous FTP 檔 案 的 Archie
- * 可 用 來 搜 尋 Gopher 資 訊 空 間 的 Veronica
- * 可 用 來 搜 尋 WWW 網 頁 的
這 些 資 訊 站 皆 各 具 特 色 , 各 領 風 騷 , 他 們 都 提 供 了 無 數 免 費的 資 訊 查 詢 服 務 給 廣 大
的 網 路 使 用 者 , 亦 是 目 前 網 際 網 路 上最 熱 門 、 最 受 歡 迎 的 超 級 大 站 。
一 般 而 言 , 要 架 設 此 類 搜 尋 引 擎 , 需 要 相 當 難 度 的 軟 體 技 術與 極 佳 的 硬 體 資 源 。 它
必 須 具 有 高 效 率 的 資 料 蒐 集 器 (data gatherer) 、 能 夠 處 理 鉅 量 資 料 的 索 引 與 查 詢 引
擎 、 完 善 的 WWW 查 詢 界 面 、 寬 廣 的 網 路 頻 寬 (如 T3 連 線) 、 與 絕 佳 的 硬 體 配 備 。 舉例 而
言 , Digital 公 司 的 超 級 大 蜘 蛛 , 其 中 負 責 索 引 工 作 的 那 部電 腦 , 光 是 主 記 憶 體 , 就 有
6 Giga Bytes!! 乃 是 該 公 司 所 製 造 運算 能 力 最 強 大 的 一 部 電 腦 。
但 是 , 這 類 搜 尋 引 擎 亦 有 一 些 美 中 不 足 的 問 題 , 或 未 來 的 隱憂 :
- 大 多 數 搜 尋 引 擎 , 只 針 對 單 一 或 極 少 數 的 資 訊 類 別 提 供 查 詢 服 務 。
- 都 無 法 完 全 正 確 的 搜 尋 亞 洲 國 家 等 雙 BYTE 編 碼 之 資 訊 。
- 由 於 需 要 經 常 蒐 集 全 世 界 大 多 數 WWW 站 的 網 頁 , 這 些 搜 尋 引 擎 的 資 料 蒐 集 器 ,
可 能 會 耗 費 很 多 網 路 頻 寬 資 源 。
- 在 處 理 查 詢 時 , 多 數 沒 有 考 慮 到 地 域 性 , 例 如 , 一 個 在 台 灣 的 使 用 者 , 有 可 能
所 要 找 尋 的 資 料 在 台 灣 的 某 一 個 WWW 站 就 有 了 , 然 而 透 過 查 詢 的 結 果 , 卻 讓 他 從 美
國 去 取 得 該 資 訊 , 如 此 徒 然 浪 費 網 路 頻 寬 , 亦 增 長 取 得 該 資 訊 所 需 的 時 間 。
- 有 時 候 , 由 於 這 些 搜 尋 引 擎 涵 蓋 的 資 料 實 在 太 龐 大 , 查 詢 的 結 果 列 出 太 多 資 訊
, 反 而 使 得 使 用 者 必 須 在 那 眾 多 的 查 詢 結 果 裡 , 費 時 地 找 尋 真 正 所 要 的 資 訊 。
- WWW 資 訊 量 的 成 長 極 為 快 速 , 當 網 路 上 的 資 訊 量 成 長 到 目 前 的 數 十 倍 , 甚 或 數
百 倍 時 , 此 種 集 中 式 的 超 級 搜 尋 引 擎 將 面 臨 嚴 重 的 瓶 頸 , 要 再 索 引 全 世 界 WWW 站 將
變 得 極 端 困 難 , 也 可 能 變 得 不 切 實 際 。
|
三. GAIS 網 路 資 訊 系 統 研 究 計
劃
有 鑑 於 Internet 與 WWW 之 風 潮 與 重 要 性 中 正 大 學 資 訊 工 程 研 究 所, 吳 昇 教 授 所 領 導 之 網 際 網 路 實 驗 室,於 1 9 9
4 年 開 始 進 行 此 項 研 究 計 劃 。 1 9 9 5 年 年 底, 此 計 劃 發 展 出一 套 名 為 GAIS (Global Area
Information Servers) 之 多 用 途 (General-Purposed) 、 可 調 式 (Scalable)的 網
路 資 源 搜 尋 系 統 , 並 以 之 建 構 資 訊 服 務 站 , 提 供 給 國 內 使 用 者 一 個 方 便 的 網 路 資 源 搜
尋 服 務 。
|
四. GAIS 計 劃 的 目
標
其 實 , GAIS 計 劃
的 目 的 並 不 只 是 發 展 一 套 搜 尋 軟 體 , 來 提 供 查詢 服 務 , 它 關 心 的 乃 是 整 個 網 際 網 路 的 資
訊 分 佈 、 複 製 、 搜尋 、 擷 取 、 過 濾 、 管 理 和 資 訊 伺 服 器 之 架 構 與 功 能 等 之 研 究課 題 。 茲
簡 介 如 下 :
(一) 建 構 多 用 途 的 網 路 資 訊 搜 尋 引 擎 , 提 供 各 種 常 用 資 訊 之 搜 尋 服 務 。 此 部 份 的
目 標 在 於 追 求 強 大 的 查 詢 功 能 , 並 達 到 多 語 言 、 無 國 界 的 檢 索 功 能 。
(二) 發 展 一 套 多 用 途 、 可 調 式 的 資 訊 搜 尋 管 理 軟 體 , 以 供 一 般 企 業 、 學 校 、 或 公
家 單 位 內 之 計 算 中 心 , 來 建 立 其 資 訊 查 詢 管 理 中 心 。 此 查 詢 系 統 , 一 方 面 可 以 提 供 外
界 使 用 者 來 查 詢 所 提 供 的 資 訊 服 務 , 另 一 方 面 也 可 以 讓 內 部 使 用 者 查 詢 內 部 的 資 料 ,
或 用 來 搜 尋 、 取 得 網 路 上 的 資 訊 。
(三) 發 展 網 路 世 界 裡 個 人 使 用 者 方 便 的 資 訊 搜 尋 管 理 軟 體 , 透 過 此 系 統 , 使 用 者
可 以 方 便 的 搜 尋 、 取 得 、 與 管 理 本 身 或 網 路 上 的 資 訊 資 源 。
(四) 建 立 一 套 階 層 式 (Hierarchical) 的 資 訊 搜 尋 架 構 與 分 散 式 的 索 引 模 式 , 讓 以
上 不 同 層 次 的 搜 尋 系 統 互 相 分 工 合 作 , 以 提 供 使 用 者 通 透 的 (Transparent) 、 階 層 式
的 資 訊 搜 尋 。 此 點 不 只 可 以 避 免 很 多 不 必 要 的 網 路 頻 寬 浪 費 , 亦 可 讓 使 用 者 更 快 速 的
找 到 並 取 得 所 需 的 資 訊 。 例 如 所 要 找 尋 的 資 訊 很 可 能 在 自 己 系 統 的 Cache , 或 附 近 計
中 的 Proxy Cache 裡 就 能 發 現 了 。
(五) 發 展 一 套 階 層 式 、 虛 擬 的 WWW 伺 服 系 統 , 透 過 虛 擬 代 理 (Virtual Proxy) 與
虛 擬 暫 存 (Virtual Caching) 的 骨 架 , 和 智 慧 型 代 理 人 (Intelligent Agent) 之 技 術
, 來 妥 善 解 決 資 訊 分 佈 、 複 製 、 搜 尋 、 擷 取 、 過 濾 等 之 根 本 問 題 。
|
五. GAIS 系 統 提 供 的 資 訊 搜 尋
服 務
如 前 所 言 , GAIS
系 統 的 特 色 之 一 , 就 是 它 多 功 能 的 特 性 。 它 提供 的 資 訊 搜 尋 服 務 涵 蓋 了 Internet 裡 最
常 用 的 一 些 網 路 資 源 ,諸 如 :
1) 網 頁 搜 尋 (GAIS-WWW)
2) 網 址 搜 尋 (GAIS-URL)
3) 檔 案 搜 尋 (GAIS-FTP)
目 前 GAIS 搜 尋 引
擎 主 要 架 設 於 http://gais.cs.ccu.edu.tw/
, 該 伺 服 器 之 硬 體 配 備 為 雙 CPU Pentium III 550 FreeBSD 4.0 PC 工 作 站 , 配 有 512
Mega Bytes 主 記 憶 體 以 及 90 Giga Bytes 的 硬 碟 容 量 。 以 下 僅 就 GAIS-WWW , GAIS-URL , 與 GAIS-FTP 等 搜 尋 引 擎 略
作 描 述 :
* GAIS-WWW:
GAIS WWW 網 頁 搜
尋 引 擎 , 涵 蓋 了 台 灣 大 多 數 WWW 站 的 網 頁 , 提 供 全 文 檢 索 的 功 能 。 於 1996 年 4 月 初 ,
大 約 索 引 了 台 灣 1300 個 WWW 站 , 總 數 將 近 20 萬 筆 網 頁 , 原 始 資 料 約 佔 1 Giga 的 硬 碟
空 間 。 此 部 份 資 料 大 約 每 隔 一 至 二 個 月 更 新 一 次 。 而 目 前 GAIS 搜 尋 引 擎 索 引 了 國 內
外 約 20000 個 WWW 站 , 總 數 近 1300 萬 筆 網 頁 , 原 始 資 料 約 30 Giga Bytes 的 硬 碟 空 間
。
* GAIS-URL:
透 過 GAIS-URL 這
項 搜 尋 服 務 , 使 用 者 可 以 很 清 楚 的 知 道 哪 些 站 台 是 熱 門 網 站 , 哪 些 是 剛 成 立 不 久 的 新
網 站 。 由 於 在 輸 出 查 詢 結 果 時 我 們 會 列 出 該 網 站 的 連 結 次 數 , 因 此 上 述 得 知 網 站 的 是
屬 熱 門 網 站 或 是 新 網 站 便 可 一 目 了 然 。
* GAIS-FTP:
此 項 搜 尋 引 擎 的 功 用 和 著 名 的 Anonymous FTP 檔 案 搜 尋 引 擎 Archie 類 似 。 目 前
GAIS-FTP 索 引 了 國 內
大 約 十 來 個 熱 門 的 Anonymous FTP 大 站 , 例 如 : nctuccca.edu.tw 、
ftp.ccu.edu.tw... 等 , 與 一 些 國 外 著 名 的 大 站 如 ftp.ncsa.uiuc.edu 、
wuarchive.wustl.edu 等 等 。 由 於 GAIS 擁 有 容 錯 搜 尋 的 功 能
, 所 以 可 以 提 供 比 Archie 更 強 的 搜 尋 能 力 。 此 優 點 對 於 一 些 不 容 易 完 全 記 得 或 正 確 拼
寫 的 檔 名 搜 尋 , 特 別 有 幫 助 。
|
六. GAIS 系 統 的 架
構
GAIS 資 訊 伺 服 系 統 包 含 以 下 子 系 統 :
1) 資 料 蒐 集 子 系 統
2) 資 料 分 析 管 理 子 系 統
3) 虛 擬 代 理 伺 服 器 子 系 統
4) WWW 界 面 軟 體 子 系 統
5) 索 引 / 查 詢 子 系 統
* 資 料 蒐 集 子 系 統 :
資 料 蒐 集 子 系 統 , 乃 是 用 來 蒐 集 網 路 上 之 資 訊 或 內 部 的 資 訊 。
* 資 料 分 析 管 理 子 系 統 :
資 料 分 析 管 理 子 系 統 , 可 用 來 過 濾 分 析 摘 要 轉 換 或 管 理 資 料 , 並 可 去 除 重 覆 多 餘
的 資 料 。
* 虛 擬 代 理 伺 服 器 (Virtual Proxy) 子 系 統 :
虛 擬 代 理 伺 服 器 子 系 統 , 提 供 虛 擬 的 Cache 空 間 , 並 可 用 來 架 構 階 層 式 的 資 訊 搜
尋 與 資 訊 分 佈 (Information distribution) , 並 可 嵌 入 智 慧 型 代 理 (Intelligent
Agent) , 提 供 方 便 的 資 訊 過 濾 與 擷 取 的 功 能 。
* WWW 界 面 軟 體 子 系 統 :
WWW 界 面 軟 體 子 系 統 , 乃 是 一 些 界 面 程 式 , 用 來 將 GAIS 搜 尋 軟 體 架 設 在 WWW
站 上 。
* 索 引 / 查 詢 子 系 統 :
索 引 / 查 詢 子 系 統 , 乃 是 GAIS 系 統 最 重 要 的 核 心 軟
體 , 它 提 供 高 效 率 的 資 料 索 引 與 強 大 的 搜 尋 功 能 。
目 前 , 索 引 / 查 詢 子 系 統 與 WWW 界 面 軟 體 子 系 統 , 已 達 較 為 成熟 的 階 段 , 其 它 子 系
統 則 尚 在 雛 形 的 階 段 。
|
七. GAIS 索 引 / 查 詢 引 擎 之 特
色
GAIS 系 統 最 重 要
的 核 心 技 術 , 在 於 它 那 功 能 強 大 的 索 引 / 查 詢引 擎 。 它 有 以 下 特 色 : (註:有 一 些 功 能 尚
未 放 進 GAIS 的 資 訊 查詢
服 務 站 裡 )
* 可 以 容 錯 搜 尋 或 近 似 搜 尋 , 例 如 :
"Telamysin" 可 match "Terramycin"、
"巴 塞 隆 那" 可 match "巴 西 爾 隆 納"、
"李 登 輝 總 統" 可 match "李 總 統 登 輝"、
"關 貿 總 協" 可 match "關 稅 貿 易 總 協",等 等 。
* 提 供 中 文 同 音 搜 尋 , 例 如 :
"范 小 瑄" 可 match "范 曉 萱"
"背 多 分" 可 match "貝 多 芬" , 等 等 。
* 可 以 做 全 文 檢 索 、 欄 位 檢 索 , 或 兩 者 混 合 檢 索
* 可 以 使 用 自 然 語 言 檢 索
* 可 使 用 有 序 性 之 布 林 檢 索 (Ordered Boolean) , 例 如 :
查 詢 一 篇 由 "張 三" 和 "李 四" 共 同 著 作 的 文 章 , 而 "張 三" 的 作 者 排 名 必 須 在 "李 四"
之 前 。
* 可 使 用 正 規 表 示 式 (Regular Expression) 檢 索 , 例 如 :
"http://[a-zA-Z0-9_./]+\.(gif|au|jpeg|mpeg)$" 可 從 HTML 檔 案 裡 取 出 一 些
multimedia object 的 hyperlink。
* 索 引 空 間 極 省 而 且 可 調 (Scalable)
一 般 而 言 , 索 引 空 間 約 佔 原 始 資 料 的 15% 至 25% 。 使 用 省 空 間 模 式 時 , 甚 至 可 以
降 至 5% 左 右 。
* 可 檢 索 巨 量 資 料 , 且 檢 索 速 度 快
例 如, 在 Pentium 133 running FreeBSD 工 作 站 上 檢 索 1 Giga Bytes 資 料 (約 5 億
個 中 文 字) 一 般 而 言 需 時 不 到 一 秒 鐘.
* 多 用 途 與 富 彈 性
GAIS 索 引 / 查 詢
引 擎 , 可 以 很 容 易 的 調 整 來 作 不 同 種 類 資 料 的 查 詢 應 用 , 在 使 用 時 也 極 富 彈 性 。 例 如
, 可 彈 性 的 決 定 對 那 些 檔 案 , 及 檔 案 的 那 一 部 份 做 索 引 , 對 於 動 態 資 料 (資 料 經 常 新 增
或 刪 除 者) 可 作 進 階 式 索 引 (Incremental Indexing) , 在 檢 索 時 可 以 動 態 的 定 義 欄 位
。 由 於 網 路 上 有 各 式 各 樣 的 資 料 型 態 , 我 們 很 難 像 一 般 資 料 庫 系 統 一 樣 , 事 先 訂 定 資
料 記 錄 格 式 , GAIS 的
查 詢 引 擎 , 可 以 讓 使 用 者 在 查 詢 時 才 針 對 該 資 料 的 特 性 , 來 從 事 結 構 化 的 欄 位 檢 索 。
另 外 , GAIS 的 查 詢 引
擎 亦 可 讓 使 用 者 彈 性 的 訂 定 查 詢 結 果 輸 出 的 方 式 。
|
八. 未 來 展 望
隨 著 網 際 網 路 的 日 益 普 及 , 人 類 正 進 入 一 個 資 訊 爆 炸 的 時 代。 我 們 幻 想 著 有 一 天 在
資 訊 新 世 界 裡 , 每 個 人 所 需 要 的 資 訊都 可 在 瞬 間 裡 隨 手 取 得 。 然 而 , 要 達 到 此 一 境 界 ,
我 們 尚 需克 服 一 些 根 本 的 技 術 難 題 , 諸 如 超 級 鉅 量 資 訊 (Tera Bytes 級) 的索 引 、 智 慧 型
的 檢 索 功 能 、 階 層 式 與 分 散 式 的 查 詢 處 理 模 式、 完 善 的 資 訊 分 析 、 過 濾 、 摘 要 、 分 類 、
與 管 理 功 能 , 高 效率 的 資 訊 分 佈 、 運 輸 (Transmission) 、 暫 存 (Caching) 、 複
製(Replication) 等 之 技 術 , 與 一 個 能 夠 互 相 協 調 分 工 合 作 的 階 層 式資 訊 伺 服 系 統 架 構 。
GAIS Project 目 前
只 踏 出 了 一 小 步 , 我 們 希 望 國 內 各 個 研 究 單 位有 更 多 人 加 入 此 一 研 究 領 域 , 一 起 來 建 立
一 個 完 美 的 資 訊 新世 界 。
|