我國智能情報檢索研究的回顧與展望

簡體傳統

　　把現代人工智能的技術與方法引入情報檢索系統，使后者具有一定程度的智能特征，在更高的層次上完成其功能，這樣的系統就是新一代的情報檢索系統——智能情報檢索系統。[1]國外已投大量人力、物力和財力致力于這方面的研究，我國情報界也緊緊跟上，對智能情報檢索開展了許多工作。
　　根據筆者對《全國報刊索引》的統計，我國15年來對智能情報檢索的研究呈現出低谷——高潮——低谷的循環發展趨勢。見表1、圖1。
　　附圖

　　表1 1984-1998年我國發展的有關智能情報檢索的論文統計

年代　　　　1984 1985 1986 1987 1988　1989　1990 1991　1992 1993　1994 1995 1996 1997 1998 總計論文篇數　　　1 　4 　　3　 5　　10　　11　　10　　7　 　2　　3 　　4　 3 　　6 　3 　　3　 75所占比例(%) 1.33 5.33 4.00 6.67 13.33 14.67 13.33 9.34　2.67 4.00 5.33 4.00 8.00 4.00 4.00　100

　　(1)初步形成時期(1984-1987)。
　　計算機、通信、知識庫等現代技術的迅猛發展，日益改變著人們的工作和生活方式，尤其是被稱為人類三大尖端技術之一的人工智能技術的出現和發展，更給人類社會的進步注入了“催化劑”。在這種情況下，傳統情報檢索在理論和實踐方面都受到了強大沖擊，表現出許多其自身難以克服的弊端。情報界人士都在思考，情報檢索的出路何在？
　　智能情報檢索就是在這種背景下提出的。國外從80年代起就如雨后春筍般地陸續推出一大批智能情報檢索系統。我國情報工作人員也緊緊跟上，從80年代中期開始了對智能情報檢索的研究。
　　(2)發展高潮時期(1987-1991)。
　　人工智能技術經過幾十年的發展，在80年代未達到了高潮。這也為我國智能情報檢索研究的繁榮提供了客觀基礎。從國內來看，這也是我國情報學發展的黃金時期，大量情報學文獻在此期間問世，當然也不乏進行智能情報檢索研究的文獻。
　　(3)逐步回落時期(1991——)。
　　人工智能畢竟不是一般技術，智能情報檢索也是一項難度較大的課題，在人工智能沒有突破性進展的情況下，其應用領域也不會有大的進步。這一時期，智能情報檢索不可避免地受到影響。另一方面，因特網在90年代初引入我國，全國上下一下子把注意力轉向網絡化，情報檢索也不例外，網絡檢索迅速成為國內研究熱點，智能情報檢索逐漸被冷落。于是，我國對智能情報檢索的研究開始原地踏步，甚至回落，從高潮走進了低谷。
　　1 我國智能情報檢索研究的現狀
　　(1) 對智能情報檢索系統的認識與理解。
　　①智能情報檢索系統是建立在大規模的知識庫基礎上，有一個強有力的推理機，并且能用自然語言與用戶交流的計算機檢索系統。此系統能在已知情報的基礎上，推理出系統沒有明顯表示出來的情報。此外，系統自身還具有學習和自適應能力。②在認為智能情報檢索系統應具備知識庫和推理機制的同時，強調智能情報檢索的檢索結果是用戶能夠直接加以利用的情報，與傳統情報檢索為用戶提供的間接的文獻線索相區別。前者可以免去用戶再去查找相關文獻的重復活動。③認為智能情報檢索系統的智能因素不應僅僅定義在檢索的執行過程中，還應體現在提問模型的形成過程中，即根據用戶對問題的描述，借助于知識庫里的有關知識，推斷出他的真正需求，并形成提問模型。
　　(2)對智能情報檢索系統基本結構的認識。
　　歸納概括我國大多數研究者的觀點，智能情報檢索系統主要由三部分組成：智能接口部分、知識庫部分和文本處理部分。見圖2。
　　附圖

　　①智能接口部分。智能接口是用戶與系統之間的通道。它的主要功能是：對自然語言查詢的處理；作為智能終端建立用戶興趣檔案；加工檢索結果。
　　②知識庫部分。知識庫是智能檢索系統的核心。它也由三個子系統構成：知識庫系統；數據庫系統；檢索推理系統。
　　③文本處理部分。
　　文本處理系統就是利用計算機自動處理自然語言形式的文本輸入。它利用知識庫中的語言學知識、科學知識和其他知識，對文本進行語法、語義分析，從內容上理解文獻所論述的主題，并把它們表示成知識庫中的知識和數據庫中的數據元素，不斷地豐富目標知識庫和數據庫。[2]
　　(3)智能情報檢索與傳統情報檢索的比較研究。
　　①傳統的情報檢索系統要求用戶將其情報需求用規范化的語言來表達，并以嚴格的格式輸入系統；智能檢索系統能理解、分析用戶的自然語言提問，并產生合適的提問模型，用戶與系統間可以進行自由、充分的反饋交流，直到獲得滿意的結果。
　　②傳統的情報檢索系統中，文獻標識是根據詞頻統計得出的，標引時只利用了文獻的字符形式，未涉及文獻的內容本身，所以標識往往不能反映文獻的真實內容；而智能情報檢索系統具有處理自然語言文本的能力，它利用知識庫中的有關知識進行語法、語義分析，從內容上真正理解并準確描述文獻所論述的主題。
　　③傳統的情報檢索系統不能夠很好地處理主題概念、標識之間的各種聯系和因果關系；而智能情報檢索則可以在知識庫中使用語義網絡、框架等各種知識表示方法來充分體現這些關系。
　　④傳統的情報檢索系統的檢索結果只是一些文獻線索，指引用戶去獲得原始文獻，而智能情報檢索系統可以將部分文獻內容以知識形態存放于目標知識庫中，通過對知識庫的搜索和推理，得出用戶能夠直接加以利用的情報[3]。
　　⑤傳統的情報檢索系統缺乏適當的人機交互。這種交互只限于"YES"、"NO"或“菜單式”。情報檢索實質上是用戶詢問和文獻集合之間的匹配，用戶的參與應該是整個情報檢索過程的中心，只有用戶充分地參與了情報檢索過程，才能取得滿意的效果。智能情報檢索系統采用自然語言實現人機通訊，檢索過程中用戶和計算機之間可以不斷地進行自由、充分、多方面的反饋交流，具有較高的人機交互水平。[4]
　　2 當前我國智能情報檢索研究的重要課題
　　從筆者對1984-1998年的《全國報刊索引》中的相關文獻進行的統計（如表2）。可以看出，15年來我國智能情報檢索的研究課題中對智能情報檢索系統的整體研究。對自然語言理解的研究和對專家系統的研究占據了很大比例，無論是闡述自己的觀點，還是譯文，我國研究者都在這三個方面用墨頗多。雖然也有文獻對超文本技術和知識表達技術進行了專門的探討，但是，所占比例很小。具體情況可以從以下幾個方面加以敘述：
　　表2 1984-1998年我國智能情報檢索系統研究課題統計

　　　　　　　　　　　　　對自然　　　　　　　　　　　　對知識　　　　　　　整體研究　　語言理　　對專家　　對超文　　表達技　　總計　　　　　　　　　　　　　解的研　　系統的　　本技術　　術的研　　　　　　　　　　　　　究　　　　研究　　　的研究　　究論文篇數　　　　　27 　　　 17 　　　 17 　　　 10 　　 　 4　　　　75所占比例(%)　　　　　 36.00　　　22.67 　 22.67 　　 13.33 　　5.33 　　 100

　　(1)智能情報檢索專家系統。
　　①介紹國外專家系統實例。如：文獻(5)從系統概述、知識表示、檢索與推理和自然語言接口等四個方面介紹了法國國家科學研究中心人文科學信息實驗室的Gian Piero Zarri領導研制的智能情報檢索系統RESEDA，還有文獻(6)中所介紹的中醫專家系統、文獻(7)中所附三個智能情報檢索實例以及文獻(1)中對CANSEARCH系統的介紹等。這些文獻都通過對特定專家系統實例的介紹，敘述了專家系統的鮮明特色及其在情報檢索中的廣闊應用前景。
　　②構建具體專家系統模型。如，文獻(8)、文獻(9)、文獻(10)等都對具體的情報專家系統進行了介紹。
　　③論述專家系統對情報檢索系統的影響及在情報系統中的應用。如，文獻(11)中所論述的專家系統對上題分析、標引工作的影響，還有文獻(12)、(13)等都是有關這方面的介紹。
　　但是，無論采用那種方式，這些研究都對以下內容進行了探討：建立智能情報檢索專家系統的必要性和可行性；對智能情報檢索專家系統結構的初步設想；智能專家系統的功能及應用。
　　(2)自然語言理解和知識表示。
　　自然語言處理技術是知識獲取、知識表示技術的基礎，也是實現完全意義上的語言提問的基礎，其研究水平的高低決定了人工智能技術的發展水平。[14]
　　①自然語言理解。
　　目前我國的智能情報檢索研究基本上都在分析現行情報檢索系統弊端的基礎上，提出了計算機進行自然語言理解和加工的必要性。傳統的情報檢索系統實行呆板的匹配機制，著重強調語法的一致性，這就在很大程度上限制了用戶自由表達真實的情報需求，在情報解答的傳輸過程中也存在嚴重的失真問題。認識到傳統情報檢索的局限后，致力于智能情報檢索研究的工作者紛紛將目光轉向自然語言的理解和加工。我國許多有關智能情報檢索系統的文獻都以一定篇幅探討了自然語言理解問題，有一部分文獻還專門研究這個問題，通過表(2)的分析足以證明自然語言理解問題已引起了界內人士的普遍關注和重視，并有望成為解決現行情報檢索系統弊端的有效途徑。
　　我國有關這方面的研究主要包括以下幾個方面：智能情報檢索與自然語言理解的關系；自然語言理解檢索的必要性；自然語言理解檢索的可行性；自然語言理解檢索的困難與對策。
　　研究者普遍指出：加強計算機對自然語言的理解，為情報檢索注入智力因素，變傳統的語法一致匹配為語義相符的檢索，創造良好的人機界面，使用戶與系統的交流就像人與人的對話一樣親切、自然。這是新一代智能情報檢索的主要特征。當然，在實現的道路上還有許多困難，我們期待著基于自然語言理解的、完善的智能情報檢索系統的早日到來。
　　②知識表達。作為人工智能的核心技術，知識表達技術就是要實現計算機對知識的合理組織，并進行形式化描述。
　　國內發表的文獻中通常包括以下一些知識表達方式：[15]產生式規則表示法：將與問題有關的知識表達為相應于知識庫、規則庫和推理機三部分的一種結構化知識；框架表示法：通過框架名、槽和約束條件三部分，對知識做結構化表示；一階謂詞邏輯表示法：運用謂詞將客觀事物的狀態、屬性以及事物之間的關系等表示出來；語義網絡表示法：把比較簡單的事物和知識聯系起來，形成對更復雜對象的描述。
　　此外，還有狀態空間搜集、過程表示、關系表示法等。
　　一個智能情報檢索系統在解決問題時可能會遇到不同行業和領域的用戶，因此，這個系統就需要許多不同類型的知識。那么，在設計系統的知識庫時，就應根據用戶的知識類型和特征，選擇恰當的知識表示方法。設計標準主要取決于：知識表達方法相一致：考慮問題求解時的應用效率。[16]
　　(3)超文本技術。超文本(HYPERTEXT)興起于80年代，是情報技術的一個新興領域。自從V．布什提出建立聯想檢索文獻的機器設想以來，許多科學家在這方面進行了不懈的探索。由于技術上的原因，超文本未能付諸實施。后來，隨著計算機技術和通訊技術的發展，超文本的研制引起了人們的極大興趣。[17]最近10年來，國內情報界已陸續有這方面的文獻發表。這些文獻主要在介紹國外超文本技術發展概況的基礎上，對超文本系統在智能情報檢索中的應用原因作了分析，闡述了超文本技術用于情報檢索的優越性。
　　超文本技術不僅是一種友好接口技術，而且是一種新的情報檢索模型。國外對超文本技術的研究投入了大量人力、物力和財力，并取得了令人鼓舞的成果。在這方面，我國與國外相差甚遠，因此，我們情報界同仁也應積極注視國外的水平動向，努力在系統設計中采用先進的技術。
　　(4)智能情報檢索系統的理論基礎——認知科學。
　　國外已把認知科學作為智能情報檢索系統的理論設計基礎，如METACAT利用“口頭協議”、“發生思維”等實驗方法，觀察、記錄、詢問、分析受試用戶的心理行為，形成情報檢索過程中的“問題行為圖”，從而歸納了五種檢索策略，形成METACAT智能檢索系統，且經過測試，查準和查全性能均高于STAIRS和MEDLARE。[18]
　　我國有關這方面的研究還不多，有人工智能專家將認知科學作為智能檢索技術的理論基礎，而明確將認知科學作為智能情報檢索系統設計基礎的，可見于文獻(7)。該書作者闡述了將認知科學作為智能情報檢索系統的設計基礎的四點原因，并呼吁情報界“是該拿起認知科學的鑰匙去打開人類知識時代大門的時候了”。[19]
　　3 我國智能情報檢索研究的總體特征
　　(1)以介紹與引入國外先進技術和理論為主。縱觀這些年來我國發表的有關文獻不難發現：我國的智能情報檢索研究幾乎都是在國外智能情報檢索理論的影響下進行的。有些文獻是關于國外智能情報檢索系統的專門介紹，如：文獻(5)；有些則是直接翻譯國外文獻，如：文獻(20)等。
　　(2)理論研究多于實際操作。目前，我國對于智能情報檢索的研究還只是處于理論描述階段，切實可行的智能情報檢索系統仍為空白。雖然國外在這方面的研究也處于實驗試制階段，但是，已經在較窄的范圍內取得了可喜的成績，如：NIPX—幫助查CN的專家系統；IR-NL-2會話文獻檢索專家系統；PLEXUS—專家咨詢系統等(21)，并且在智能檢索的研究領域投入了大量人力、物力，期待著更多的突破。因此，我國情報界應緊緊跟上時代的步伐，不要落在后面。
　　(3)在某些觀點上仍存在分歧。通過上面對我國智能情報檢索研究情況的總結，我們可以看到，目前我國的智能情報檢索研究呈現出百家爭鳴的局面，在某些觀點上尚未達成一致。這也是阻礙我國智能情報檢索事業繁榮的一個難題。
　　4 我國智能情報檢索系統實現的難點
　　(1)人工智能技術本身的不成熟。人工智能技術本身還有許多不完善的地方，這主要包括兩個方面：①知識的獲取與表達技術。目前，如何使復雜多樣的專業知識形式化是較難解決的問題。此外，如果把人工智能技術應用到一個多學科綜合的檢索系統中，如何辨別某多義詞當前的具體含義？如何了解用戶特定的需求？這些都有待于繼續研究；②受來自自然語言處理技術方面的局限。要想使計算機準確地分析、獲得、表達并傳輸知識，就必須使計算機具備理解自然語言的能力。目前對自然語言的處理，雖然已從語法階段上升到語義、語用階段，但要從完全意義上理解自然語言，仍很棘手，對自然語言的理解能力還限制在一些規定的語句和語法范圍內，這就決定了智能情報檢索系統所能具有的智能化程度。[22]
　　(2)情報檢索系統本身的障礙。
　　①情報檢索系統所面對的用戶來自不同專業領域，知識層次也各不相同，對其進行合理定位是一個難題。②情報檢索系統涉及的專業知識廣博而豐富，將諸多知識形式化并不是一件簡單的事。③情報檢索專家系統不易建立。不但這些專家的經驗和技術很難準確的表達出來，而且不同的檢索專家很可能持不同的觀點，于是對專家系統的建立造成了諸多不便。
　　(3)除去上述客觀原因外，我國并不發達的情報技術也制約了我國智能情報檢索系統的發展。我國在人力、物力上的投入也不夠，這也是造成我國智能情報檢索研究進展緩慢的原因之一。
　　5 幾點建議
　　(1)將認知科學作為智能情報檢索系統的理論設計基礎，拓寬人們的思想，加快智能情報檢索系統的建設步伐。
　　任何一門研究都要有其科學的理論基礎，智能情報檢索也不例外。認知科學的一個來源是認知心理學（腦信息加工心理學），它所進行的理論研究如：自然語言接口，信息的表達與組織，搜索程序與智能情報檢索系統所進行的研究是重合的；其解題系統在模擬人腦信息加工上幾乎與智能情報檢索系統沒有區別，可以說同構同質，所以擺脫了唯心主義和形而上學的認知科學無疑應是智能情報檢索的理論基礎。[23]
　　(2)成立專門的智能情報檢索小組，將智能情報檢索系統的建立作為情報界的一件大事來抓。只有這樣才能使智能情報檢索的研究工作進入到有組織、有規劃、有方向的軌道上來，從而打破原來那種“一盤散沙”似的研究方式，使我國的智能情報檢索研究向著系統化、高效化的方向發展。
　　(3)加強情報教育，提高研究人員的科技水平，改善其知識結構。
　　建立智能情報檢索系統的關鍵在于知識的發展和技術的進步。誰首先掌握了人工智能技術、突破了知識表示和自然語言理解等方面的局限，就等于誰在智能情報檢索研究中提前邁進了一步。因此，我國應該從最本質的地方入手，提高研究人員的知識水平，爭取在知識、技術方面趕超其他國家。
　　(4)加強研究人員之間的交流與合作，互通有無，爭取實現觀點上的一致。
　　這也是至關重要的一點。因為通過研究人員之間的交流與合作，可以免去不少無必要的重復工作，從而節省下寶貴的時間，進行其他更有意義的研究。
　　(5)擺脫思想束縛，將理論與實踐緊密結合起來，在實際工作中尋求理論上的突破。理論與實踐是不可分割的統一體，二者相互依存，相互影響。因此，要將二者結合起來，充分重視它們各自的重要作用，爭取實現智能情報檢索研究的整體突破。
　　我國的智能情報檢索研究還處在起始階段，未來的路還很長，其間也必然會有許多困難。但是，建立“知識大廈”更有意義，它將使人類長久的受益，[24]我們期待著新一代的情報檢索系統——完善的智能檢索系統早日出現。
　　收稿日期：2000-7-1
《情報科學》長春217～221G9圖書館學、信息科學、資料工作栗莉20012001本文回顧總結了我國15年來對智能情報檢索的研究，對我國智能情報檢索研究的現狀和當前我國智能情報檢索研究的重要課題進行了評述，概括出我國智能情報檢索研究的總體特征，探討了我國智能情報檢索實現的幾個難點，并對此提出幾點建議。智能情報檢索/人工智能/專家系統Intellect intelligence retrieval/Man-made intellect/Expertise systemReviews and Prospects on the Research in IntelligentInformation Retrieval in ChinaLi Li(Department of Library Science International Business School,Nankai University,Tianjin 300071)This paper reviews and concludes the research on intellect intelligence retrieval in past 15 years,comments on the research status and improtrant subjects,summarizes the whole feature,discusses several difficulties.Then points out someproposals.栗莉，女，1977年生，碩士生。南開大學國際商學院圖書館學系，天津 300071 作者：《情報科學》長春217～221G9圖書館學、信息科學、資料工作栗莉20012001本文回顧總結了我國15年來對智能情報檢索的研究，對我國智能情報檢索研究的現狀和當前我國智能情報檢索研究的重要課題進行了評述，概括出我國智能情報檢索研究的總體特征，探討了我國智能情報檢索實現的幾個難點，并對此提出幾點建議。智能情報檢索/人工智能/專家系統Intellect intelligence retrieval/Man-made intellect/Expertise system

網載 2013-09-10 21:30:05

[新一篇] 我國旅游區位研究的回顧與展望

[舊一篇] 我國服務業對外開放應采取的對策