WWW 搜尋 WWW 搜尋 Logo 免費服務 您的意見

源起
網路上著名的搜尋引擎
GAIS網路資訊系統研究計劃
GAIS計劃的目標
GAIS系統提供的資訊搜尋服務
GAIS系統的架構
GAIS索引/查詢引擎之特色
未來展望


一. 源 起

隨 著 資 訊 科 技 的 進 步 , 與 網 際 網 路 的 普 及 , 人 類 正 在 進 行 資 訊 史 上 最 鉅 大 的 一 項 工 程 , 那 就 是 : 建 構 一 個 虛 擬 的 、 沒 有 國 界 的 資 訊 新 世 界 。

在 這 過 程 當 中 , 人 類 正 不 停 的 將 現 實 世 界 裡 現 有 的 資 訊 , 諸 如 報 紙 、 雜 誌 、 書 籍 、 政 府 文 件 等 等 等 , 都 丟 到 網 路 上 , 也 不 停 的 在 網 路 上 生 產 新 的 資 訊 。 簡 而 言 之 , 整 個 網 路 正 在 堆 積 一 個 前 所 未 有 的 超 級 大 資 料 庫 。

在 這 新 的 資 訊 時 代 裡 , 最 根 本 的 問 題 之 一 就 是 : 如 何 在 浩 翰 如 海 的 資 訊 空 間 裡 , 快 速 的 找 到 並 取 得 所 需 的 資 訊 。 比 如 說 , 那 裡 有 周 慧 敏 的 照 片 ? 莫 內 的 畫 ? 巴 黎 旅 遊 的 資 訊 ? 雪 霸 國 家 公 園 的 資 訊 ? 一 般 而 言 , 提 供 此 類 查 詢 服 務 的 資 訊 軟 體 系 統 , 我 們 稱 之 為 — 搜 尋 引 擎 。



二. 網 路 上 著 名 的 搜 尋 引 擎

在 Internet 有 一 些 非 常 有 名 的 搜 尋 引 擎 , 諸 如 :

這 些 資 訊 站 皆 各 具 特 色 , 各 領 風 騷 , 他 們 都 提 供 了 無 數 免 費的 資 訊 查 詢 服 務 給 廣 大 的 網 路 使 用 者 , 亦 是 目 前 網 際 網 路 上最 熱 門 、 最 受 歡 迎 的 超 級 大 站 。

一 般 而 言 , 要 架 設 此 類 搜 尋 引 擎 , 需 要 相 當 難 度 的 軟 體 技 術與 極 佳 的 硬 體 資 源 。 它 必 須 具 有 高 效 率 的 資 料 蒐 集 器 (data gatherer) 、 能 夠 處 理 鉅 量 資 料 的 索 引 與 查 詢 引 擎 、 完 善 的 WWW 查 詢 界 面 、 寬 廣 的 網 路 頻 寬 (如 T3 連 線) 、 與 絕 佳 的 硬 體 配 備 。 舉例 而 言 , Digital 公 司 的 超 級 大 蜘 蛛 , 其 中 負 責 索 引 工 作 的 那 部電 腦 , 光 是 主 記 憶 體 , 就 有 6 Giga Bytes!! 乃 是 該 公 司 所 製 造 運算 能 力 最 強 大 的 一 部 電 腦 。

但 是 , 這 類 搜 尋 引 擎 亦 有 一 些 美 中 不 足 的 問 題 , 或 未 來 的 隱憂 :

  1. 大 多 數 搜 尋 引 擎 , 只 針 對 單 一 或 極 少 數 的 資 訊 類 別 提 供 查 詢 服 務 。
  2. 都 無 法 完 全 正 確 的 搜 尋 亞 洲 國 家 等 雙 BYTE 編 碼 之 資 訊 。
  3. 由 於 需 要 經 常 蒐 集 全 世 界 大 多 數 WWW 站 的 網 頁 , 這 些 搜 尋 引 擎 的 資 料 蒐 集 器 , 可 能 會 耗 費 很 多 網 路 頻 寬 資 源 。
  4. 在 處 理 查 詢 時 , 多 數 沒 有 考 慮 到 地 域 性 , 例 如 , 一 個 在 台 灣 的 使 用 者 , 有 可 能 所 要 找 尋 的 資 料 在 台 灣 的 某 一 個 WWW 站 就 有 了 , 然 而 透 過 查 詢 的 結 果 , 卻 讓 他 從 美 國 去 取 得 該 資 訊 , 如 此 徒 然 浪 費 網 路 頻 寬 , 亦 增 長 取 得 該 資 訊 所 需 的 時 間 。
  5. 有 時 候 , 由 於 這 些 搜 尋 引 擎 涵 蓋 的 資 料 實 在 太 龐 大 , 查 詢 的 結 果 列 出 太 多 資 訊 , 反 而 使 得 使 用 者 必 須 在 那 眾 多 的 查 詢 結 果 裡 , 費 時 地 找 尋 真 正 所 要 的 資 訊 。
  6. WWW 資 訊 量 的 成 長 極 為 快 速 , 當 網 路 上 的 資 訊 量 成 長 到 目 前 的 數 十 倍 , 甚 或 數 百 倍 時 , 此 種 集 中 式 的 超 級 搜 尋 引 擎 將 面 臨 嚴 重 的 瓶 頸 , 要 再 索 引 全 世 界 WWW 站 將 變 得 極 端 困 難 , 也 可 能 變 得 不 切 實 際 。


三. GAIS 網 路 資 訊 系 統 研 究 計 劃

有 鑑 於 Internet 與 WWW 之 風 潮 與 重 要 性 中 正 大 學 資 訊 工 程 研 究 所吳 昇 教 授 所 領 導 之 網 際 網 路 實 驗 室,於 1 9 9 4 年 開 始 進 行 此 項 研 究 計 劃 。 1 9 9 5 年 年 底, 此 計 劃 發 展 出一 套 名 為 GAIS (Global Area Information Servers) 之 多 用 途 (General-Purposed) 、 可 調 式 (Scalable)的 網 路 資 源 搜 尋 系 統 , 並 以 之 建 構 資 訊 服 務 站 , 提 供 給 國 內 使 用 者 一 個 方 便 的 網 路 資 源 搜 尋 服 務 。

四. GAIS 計 劃 的 目 標

其 實 , GAIS 計 劃 的 目 的 並 不 只 是 發 展 一 套 搜 尋 軟 體 , 來 提 供 查詢 服 務 , 它 關 心 的 乃 是 整 個 網 際 網 路 的 資 訊 分 佈 、 複 製 、 搜尋 、 擷 取 、 過 濾 、 管 理 和 資 訊 伺 服 器 之 架 構 與 功 能 等 之 研 究課 題 。 茲 簡 介 如 下 :

(一) 建 構 多 用 途 的 網 路 資 訊 搜 尋 引 擎 , 提 供 各 種 常 用 資 訊 之 搜 尋 服 務 。 此 部 份 的 目 標 在 於 追 求 強 大 的 查 詢 功 能 , 並 達 到 多 語 言 、 無 國 界 的 檢 索 功 能 。

(二) 發 展 一 套 多 用 途 、 可 調 式 的 資 訊 搜 尋 管 理 軟 體 , 以 供 一 般 企 業 、 學 校 、 或 公 家 單 位 內 之 計 算 中 心 , 來 建 立 其 資 訊 查 詢 管 理 中 心 。 此 查 詢 系 統 , 一 方 面 可 以 提 供 外 界 使 用 者 來 查 詢 所 提 供 的 資 訊 服 務 , 另 一 方 面 也 可 以 讓 內 部 使 用 者 查 詢 內 部 的 資 料 , 或 用 來 搜 尋 、 取 得 網 路 上 的 資 訊 。

(三) 發 展 網 路 世 界 裡 個 人 使 用 者 方 便 的 資 訊 搜 尋 管 理 軟 體 , 透 過 此 系 統 , 使 用 者 可 以 方 便 的 搜 尋 、 取 得 、 與 管 理 本 身 或 網 路 上 的 資 訊 資 源 。

(四) 建 立 一 套 階 層 式 (Hierarchical) 的 資 訊 搜 尋 架 構 與 分 散 式 的 索 引 模 式 , 讓 以 上 不 同 層 次 的 搜 尋 系 統 互 相 分 工 合 作 , 以 提 供 使 用 者 通 透 的 (Transparent) 、 階 層 式 的 資 訊 搜 尋 。 此 點 不 只 可 以 避 免 很 多 不 必 要 的 網 路 頻 寬 浪 費 , 亦 可 讓 使 用 者 更 快 速 的 找 到 並 取 得 所 需 的 資 訊 。 例 如 所 要 找 尋 的 資 訊 很 可 能 在 自 己 系 統 的 Cache , 或 附 近 計 中 的 Proxy Cache 裡 就 能 發 現 了 。

(五) 發 展 一 套 階 層 式 、 虛 擬 的 WWW 伺 服 系 統 , 透 過 虛 擬 代 理 (Virtual Proxy) 與 虛 擬 暫 存 (Virtual Caching) 的 骨 架 , 和 智 慧 型 代 理 人 (Intelligent Agent) 之 技 術 , 來 妥 善 解 決 資 訊 分 佈 、 複 製 、 搜 尋 、 擷 取 、 過 濾 等 之 根 本 問 題 。

五. GAIS 系 統 提 供 的 資 訊 搜 尋 服 務

如 前 所 言 , GAIS 系 統 的 特 色 之 一 , 就 是 它 多 功 能 的 特 性 。 它 提供 的 資 訊 搜 尋 服 務 涵 蓋 了 Internet 裡 最 常 用 的 一 些 網 路 資 源 ,諸 如 :

1) 網 頁 搜 尋 (GAIS-WWW)
2) 網 址 搜 尋 (GAIS-URL)
3) 檔 案 搜 尋 (GAIS-FTP)

目 前 GAIS 搜 尋 引 擎 主 要 架 設 於 http://gais.cs.ccu.edu.tw/ , 該 伺 服 器 之 硬 體 配 備 為 雙 CPU Pentium III 550 FreeBSD 4.0 PC 工 作 站 , 配 有 512 Mega Bytes 主 記 憶 體 以 及 90 Giga Bytes 的 硬 碟 容 量 。 以 下 僅 就 GAIS-WWW , GAIS-URL , 與 GAIS-FTP 等 搜 尋 引 擎 略 作 描 述 :

* GAIS-WWW
GAIS WWW 網 頁 搜 尋 引 擎 , 涵 蓋 了 台 灣 大 多 數 WWW 站 的 網 頁 , 提 供 全 文 檢 索 的 功 能 。 於 1996 年 4 月 初 , 大 約 索 引 了 台 灣 1300 個 WWW 站 , 總 數 將 近 20 萬 筆 網 頁 , 原 始 資 料 約 佔 1 Giga 的 硬 碟 空 間 。 此 部 份 資 料 大 約 每 隔 一 至 二 個 月 更 新 一 次 。 而 目 前 GAIS 搜 尋 引 擎 索 引 了 國 內 外 約 20000 個 WWW 站 , 總 數 近 1300 萬 筆 網 頁 , 原 始 資 料 約 30 Giga Bytes 的 硬 碟 空 間 。

* GAIS-URL
透 過 GAIS-URL 這 項 搜 尋 服 務 , 使 用 者 可 以 很 清 楚 的 知 道 哪 些 站 台 是 熱 門 網 站 , 哪 些 是 剛 成 立 不 久 的 新 網 站 。 由 於 在 輸 出 查 詢 結 果 時 我 們 會 列 出 該 網 站 的 連 結 次 數 , 因 此 上 述 得 知 網 站 的 是 屬 熱 門 網 站 或 是 新 網 站 便 可 一 目 了 然 。

* GAIS-FTP
此 項 搜 尋 引 擎 的 功 用 和 著 名 的 Anonymous FTP 檔 案 搜 尋 引 擎 Archie 類 似 。 目 前 GAIS-FTP 索 引 了 國 內 大 約 十 來 個 熱 門 的 Anonymous FTP 大 站 , 例 如 : nctuccca.edu.tw 、 ftp.ccu.edu.tw... 等 , 與 一 些 國 外 著 名 的 大 站 如 ftp.ncsa.uiuc.edu 、 wuarchive.wustl.edu 等 等 。 由 於 GAIS 擁 有 容 錯 搜 尋 的 功 能 , 所 以 可 以 提 供 比 Archie 更 強 的 搜 尋 能 力 。 此 優 點 對 於 一 些 不 容 易 完 全 記 得 或 正 確 拼 寫 的 檔 名 搜 尋 , 特 別 有 幫 助 。



六. GAIS 系 統 的 架 構

GAIS 資 訊 伺 服 系 統 包 含 以 下 子 系 統 :

1) 資 料 蒐 集 子 系 統
2) 資 料 分 析 管 理 子 系 統
3) 虛 擬 代 理 伺 服 器 子 系 統
4) WWW 界 面 軟 體 子 系 統
5) 索 引 / 查 詢 子 系 統

* 資 料 蒐 集 子 系 統 :
資 料 蒐 集 子 系 統 , 乃 是 用 來 蒐 集 網 路 上 之 資 訊 或 內 部 的 資 訊 。

* 資 料 分 析 管 理 子 系 統 :
資 料 分 析 管 理 子 系 統 , 可 用 來 過 濾 分 析 摘 要 轉 換 或 管 理 資 料 , 並 可 去 除 重 覆 多 餘 的 資 料 。

* 虛 擬 代 理 伺 服 器 (Virtual Proxy) 子 系 統 :
虛 擬 代 理 伺 服 器 子 系 統 , 提 供 虛 擬 的 Cache 空 間 , 並 可 用 來 架 構 階 層 式 的 資 訊 搜 尋 與 資 訊 分 佈 (Information distribution) , 並 可 嵌 入 智 慧 型 代 理 (Intelligent Agent) , 提 供 方 便 的 資 訊 過 濾 與 擷 取 的 功 能 。

* WWW 界 面 軟 體 子 系 統 :
WWW 界 面 軟 體 子 系 統 , 乃 是 一 些 界 面 程 式 , 用 來 將 GAIS 搜 尋 軟 體 架 設 在 WWW 站 上 。

* 索 引 / 查 詢 子 系 統 :
索 引 / 查 詢 子 系 統 , 乃 是 GAIS 系 統 最 重 要 的 核 心 軟 體 , 它 提 供 高 效 率 的 資 料 索 引 與 強 大 的 搜 尋 功 能 。

目 前 , 索 引 / 查 詢 子 系 統 與 WWW 界 面 軟 體 子 系 統 , 已 達 較 為 成熟 的 階 段 , 其 它 子 系 統 則 尚 在 雛 形 的 階 段 。



七. GAIS 索 引 / 查 詢 引 擎 之 特 色

GAIS 系 統 最 重 要 的 核 心 技 術 , 在 於 它 那 功 能 強 大 的 索 引 / 查 詢引 擎 。 它 有 以 下 特 色 : (註:有 一 些 功 能 尚 未 放 進 GAIS 的 資 訊 查詢 服 務 站 裡 )

* 可 以 容 錯 搜 尋 或 近 似 搜 尋 , 例 如 :
"Telamysin" 可 match "Terramycin"、
"巴 塞 隆 那" 可 match "巴 西 爾 隆 納"、
"李 登 輝 總 統" 可 match "李 總 統 登 輝"、
"關 貿 總 協" 可 match "關 稅 貿 易 總 協",等 等 。

* 提 供 中 文 同 音 搜 尋 , 例 如 :
"范 小 瑄" 可 match "范 曉 萱"
"背 多 分" 可 match "貝 多 芬" , 等 等 。

* 可 以 做 全 文 檢 索 、 欄 位 檢 索 , 或 兩 者 混 合 檢 索

* 可 以 使 用 自 然 語 言 檢 索

* 可 使 用 有 序 性 之 布 林 檢 索 (Ordered Boolean) , 例 如 :
查 詢 一 篇 由 "張 三" 和 "李 四" 共 同 著 作 的 文 章 , 而 "張 三" 的 作 者 排 名 必 須 在 "李 四" 之 前 。

* 可 使 用 正 規 表 示 式 (Regular Expression) 檢 索 , 例 如 :
"http://[a-zA-Z0-9_./]+\.(gif|au|jpeg|mpeg)$" 可 從 HTML 檔 案 裡 取 出 一 些 multimedia object 的 hyperlink。

* 索 引 空 間 極 省 而 且 可 調 (Scalable)
一 般 而 言 , 索 引 空 間 約 佔 原 始 資 料 的 15% 至 25% 。 使 用 省 空 間 模 式 時 , 甚 至 可 以 降 至 5% 左 右 。

* 可 檢 索 巨 量 資 料 , 且 檢 索 速 度 快
例 如, 在 Pentium 133 running FreeBSD 工 作 站 上 檢 索 1 Giga Bytes 資 料 (約 5 億 個 中 文 字) 一 般 而 言 需 時 不 到 一 秒 鐘.

* 多 用 途 與 富 彈 性
GAIS 索 引 / 查 詢 引 擎 , 可 以 很 容 易 的 調 整 來 作 不 同 種 類 資 料 的 查 詢 應 用 , 在 使 用 時 也 極 富 彈 性 。 例 如 , 可 彈 性 的 決 定 對 那 些 檔 案 , 及 檔 案 的 那 一 部 份 做 索 引 , 對 於 動 態 資 料 (資 料 經 常 新 增 或 刪 除 者) 可 作 進 階 式 索 引 (Incremental Indexing) , 在 檢 索 時 可 以 動 態 的 定 義 欄 位 。 由 於 網 路 上 有 各 式 各 樣 的 資 料 型 態 , 我 們 很 難 像 一 般 資 料 庫 系 統 一 樣 , 事 先 訂 定 資 料 記 錄 格 式 , GAIS 的 查 詢 引 擎 , 可 以 讓 使 用 者 在 查 詢 時 才 針 對 該 資 料 的 特 性 , 來 從 事 結 構 化 的 欄 位 檢 索 。 另 外 , GAIS 的 查 詢 引 擎 亦 可 讓 使 用 者 彈 性 的 訂 定 查 詢 結 果 輸 出 的 方 式 。

八. 未 來 展 望

隨 著 網 際 網 路 的 日 益 普 及 , 人 類 正 進 入 一 個 資 訊 爆 炸 的 時 代。 我 們 幻 想 著 有 一 天 在 資 訊 新 世 界 裡 , 每 個 人 所 需 要 的 資 訊都 可 在 瞬 間 裡 隨 手 取 得 。 然 而 , 要 達 到 此 一 境 界 , 我 們 尚 需克 服 一 些 根 本 的 技 術 難 題 , 諸 如 超 級 鉅 量 資 訊 (Tera Bytes 級) 的索 引 、 智 慧 型 的 檢 索 功 能 、 階 層 式 與 分 散 式 的 查 詢 處 理 模 式、 完 善 的 資 訊 分 析 、 過 濾 、 摘 要 、 分 類 、 與 管 理 功 能 , 高 效率 的 資 訊 分 佈 、 運 輸 (Transmission) 、 暫 存 (Caching) 、 複 製(Replication) 等 之 技 術 , 與 一 個 能 夠 互 相 協 調 分 工 合 作 的 階 層 式資 訊 伺 服 系 統 架 構 。

GAIS Project 目 前 只 踏 出 了 一 小 步 , 我 們 希 望 國 內 各 個 研 究 單 位有 更 多 人 加 入 此 一 研 究 領 域 , 一 起 來 建 立 一 個 完 美 的 資 訊 新世 界 。


連結GAIS 輔助說明 查詢技巧 GAIS簡介
Copyright(C) 1995-2008 GAIS Lab. of National Chung Cheng University.All rights reserved.