近年來我國情報檢索語言研究的熱點問題

>>>  新興科技、社會發展等人文科學探討  >>> 簡體     傳統


  80年代以來,我國情報檢索語言理論和實踐研究取得了豐碩的成果,情報語言學從初創逐步走向成熟,情報語言學系列課程不斷完善,并取得豐富的經驗。特別是對一些熱點問題,如分類主題一體化、自然語言應用等問題在理論上進行了探索,在技術上進行了實踐。90年代以來,隨著國際互聯網絡的發展與延伸,情報檢索語言如何適應新的檢索環境是一個非常值得研究的課題,也是面向21世紀情報語言學的發展方向。
      1 分類主題一體化
  分類主題一體化是情報檢索語言發展的重要趨勢之一。我國從60年代開始就有意識地對分類主題一體化進行了初步探索,但由于歷史原因未能將這一探索繼續下去。與此同時國外對此問題已開始了深入的研究,主要以瓊·艾奇遜編制的《分面敘詞表》為標志。我國真正開始研究一體化問題是在80年代,先后引進介紹了《分面敘詞表:工程及相關學科的敘詞表和分面分類法》、《聯合國教科文組織敘詞表》、《基礎敘詞表》等國外先進的一體化詞表理論與技術,使我們對分類一體化的理論和技術有所了解,從而開始了對我國分類主題一體化必要性和可行性的論證和研究。對分類法與主題法進行比較以及對兩者相互滲透的研究,為在理論上探討《中圖法》和《漢語主題詞表》的修訂方針以使二者互相兼容,以及以《中圖法》和《漢語主題詞表》為基礎,編制《中國分類主題詞表》打下了實踐和理論基礎。我國在實現一體化的道路中主要有兩種方法:一是編制一體化詞表;另一個則是編制兩種語言的對應表。其中分面敘詞模式的一體化詞表是最佳方案。《中國分類主題詞表》的編制工作開始于1986年,為分類主題一體化的理論、模式研究開辟了廣闊的道路。1994年出版的《教育主題詞表》是我國正式出版的第一部分類主題一體化詞表,也是我國較早使用計算機輔助編制的詞表,采用了半分面模式,它的字順敘詞表和分面分類表均可分別用于主題標引和分類標引,二者的標引數據可以互相轉換,二者還可以互作索引使用。1996年出版的《社會科學檢索詞表》是我國一部大型的分類主題一體化詞表。該表采用了分面敘詞的組織模式,涵蓋了社會科學的17個基本大類,涉及26個一級學科類目,220個二級學科類目,全表共收詞2.3萬個。
  從總體上講,我國一體化詞表的編制技術已達到國外先進水平,對敘詞表的分面化改造也有了理論上的研究。今后敘詞表的分面改造以及編制多種新的高水平的一體化詞表是我們努力的方向。我國在分類主題一體化詞表的理論上作了系統總結,在實踐上進行了探索,積累了經驗。因此,分類主題一體化詞表技術已日臻完善成熟,在侯漢清教授等著的《主題化導論》和張琪玉教授著的《情報語言學基礎》兩部大學教材中設有專章論述其理論和實踐技術。
      2 標準化與兼容化
  標準化和兼容化是為了實現文獻資源的共享和聯機網絡化檢索而對情報檢索語言提出的要求。標準化的主要目的,是在最大范圍內推行一種或幾種分類法、詞表及有關技術規則,以方便用戶檢索,有利于標引數據的交換及在聯機環境下跨文檔檢索。
  中國情報文獻標準化技術委員會成立后,積極開展了一系列標準化活動,如:推薦《中國圖書館分類法》和《漢語主題詞表》作為候選的國家標準分類法和敘詞表;制定了下列標準草案:①《漢語敘詞表編制規則》;②《多語種敘詞表編制規則》;③《文獻主題標引規則》;④《文獻分類標引規則》;⑤《檔案分類標引規則》;⑥《同類書排列書次號編制規則》等。除④、⑥外,其余均以國家標準的形式正式公布。這些標準與國際標準盡量取得一致。《中國圖書館分類法》目前雖未轉為正式標準,但全國90%以上的圖書情報機構都使用它,實際是占有國家標準分類法的地位,這與美國的《杜威十進分類法》相類似。
  由于語言及習慣的不同,加之檢索要求的不同,使得標準化成為信息利用中的一個普遍性難題。尤其是我國,即使是在同一系統中,也會因工作性質的差異和自然地理環境的變遷,在檢索的設計上采取了各自的標準,這樣就為建立全國性文獻數據庫以及各單位資源共享制造了許多人為的麻煩。解決的辦法主要有:加大敘詞表編制中國家標準的推行力度,使各種敘詞表在結構上和編制方法上取得一致;推廣編制敘詞表的軟件包,使得用同一軟件包編成的詞表在格式上取得一致;制定更細化的標引規則;研究各種情報檢索語言的轉換方法和規則;編制中介詞典;編制共同的范疇表;以綜合性敘詞表作為基礎編制專業敘詞表,使綜合性敘詞表與專業敘詞表之間有較大的兼容;在一國范圍內或國際范圍內推廣一些普遍適用的高質量的檢索語言;編制多語種敘詞表以實現與國際接軌。
  面對因特網上眾多的數據庫和檢索系統以及情報檢索語言新語種不斷涌現的現實,僅靠標準化工作是遠遠不夠的,相比之下,兼容化則顯得更為靈活有效。情報檢索語言的兼容措施應達到下列兩個目的之一:對同一文獻主題概念,用同一語詞或符號表達;雖然語詞或符號不同,但可以對應轉換。采取兼容化措施,既可在分類表、詞表編制階段,也可在標引或檢索階段。編表實施的兼容模式主要有:①制定詞表編制規范模式;②系列化分類表或詞表模式;③微型詞表模式;④編表選詞或列類時參考權威性的詞表或分類表;⑤分類法主題法一體化標引工作模式;⑥通用詞表模式;⑦詞表編制時基本依據國外幾種主要專業詞表模式;⑧直接利用國外詞表,僅根據國情作適當補充的模式;⑨詞庫模式。在現有兩種或多種情報檢索語言的條件下,采取兼容化的措施主要有:①對應表模式;②集成詞表模式;③媒介語模式;④入口詞表模式。但在這種情況下局限性較大,不如在編表階段實施兼容的效果好。
      3 自然語言的應用和情報檢索的計算機化
  自然語言的應用是以計算機檢索為前提的,不使用計算機,自然語言就難以實現。目前自然語言在情報檢索系統中的應用分為以下3 類:①不標引(無標引)方式;②自動抽詞標引方式;③人工標引方式。這3種方式都可借助后控制詞表來彌補它們各自的不足。
  在情報檢索中應用自然語言是以處理自動抽詞為核心的。但是,漢語不像英、法、德、俄等語種,有天然的分割標志,因此計算機難以識別句子中字詞組合,難以區別有用詞和無用詞,這是漢語自然語言檢索研究迫切需要解決的問題。詞典分詞法在目前是解決這一難題較為理想的一種方法,尤其是王永成教授首創的部件詞典法已達到較高的正確率,在改進部件詞典的情況下正確率還有可能提高。
  應該看到目前自然語言檢索還處于發展的初級階段,我們有些同志過分夸大了自然語言的作用,認為自然語言完全可以代替人工語言。其實它還有許多地方值得改進,當前所能見到的論述自然語言的文章,大多是將其與人工語言進行比較,深入考察其性能者不多。而且對自然語言的研究,并不意味著自然語言將取代情報檢索語言。情報檢索語言在情報檢索中有自然語言無法取代的優勢,同時自然語言在計算機檢索系統中也有檢索語言所不及的重要優點,如:成本低、處理時差短、檢索率一般較高等。為自然語言與人工語言找到一個理想的結合點是我們今后應著重研究的方向。
  情報檢索計算機化直接導致了詞表、分類表向機編化和機讀化方向發展,使得詞表編制時間縮短,降低了編表的成本,存放在計算機的詞表可隨時修訂和輸出新版本;同時它也使文獻標引和索引編制走向自動化。應該講計算機對情報檢索領域的影響是深刻的,但我國情報檢索計算機化的歷史尚不足20年,上百種情報檢索語言新語種雖然是適應計算機檢索的需要而編制的,但大多數只有印刷版,供人工標引之用。近些年,各種分類表、詞表的機讀版陸續出現,但種類還不多,功能還有待改進。數據庫乃至網絡數據庫必將取代傳統的檢索工具,故分類表、詞表的機讀化和多功能化是我們今后研究的重點。
  第21版《杜威十進分類法》于1996年7 月同時發行了書本式和光盤式兩種版本,它采用了先進的結構、分類組織和術語,使易用性大大提高。在新的載體、新的環境下,情報檢索語言原有的結構與功能設計必將面臨新的挑戰,張琪玉教授提出:“人工語言與自然語言、先控制與后控制的界限在計算機系統中可淡化或取消”正是基于此基礎。
  利用自然語言和計算機技術的結晶,實現檢索語言的智能化不是不可想象的事情。
      4 網絡環境下情報檢索語言的發展問題
  因特網的急速發展,必然要求情報檢索語言與之靠拢,面對網上數以萬計的站點以及潮水般蜂涌而來的信息,如果沒有一種優秀的情報檢索語言為之服務,很容易使檢索者得不到真正所要查找的信息。
  現在網絡上出現的“搜索工具(引擎)”應充分引起我們的注意并進行深入研究。國外的著名搜索工具可以分為以下4類:
  目錄式搜索工具:它是通過一個標題與多個后繼的副標題來進行等級檢索的,也可稱為“分類查詢”。
  引擎式搜索工具:它主要通過關鍵詞來進行數據檢索,也可稱為“關鍵詞查詢”。
  目錄式與引擎式相結合的搜索工具:它把上述兩種方法相結合,使檢索者可從任意一條途徑進入,并能實現兩者的相互轉換,等級越深越專指。
  多引擎式搜索工具:它可同時打開多個搜索引擎進行搜索工作。最后的檢索結果可以分別顯示,也可進行綜合顯示。
  在選擇搜索工具時還應考慮到數據庫索引的編制方式,目前搜索工具在創建數據庫的過程中主要使用了3種索引:全文索引、 關鍵詞索引和人工索引。
  Yahoo是眾多搜索工具中最出色的一個, 它屬于目錄式與引擎式相結合的搜索工具,在創建之初它只是開發了一個數據庫系統來管理站點資料,其核心是按層次將站點分類,最頂層有14大類:商業、經濟、娛樂、電腦科技等,每個大類下又有子類層,如娛樂類有笑話、趣聞、音樂等,音樂下又可分為歌劇、卡拉OK、流派、機構等,用戶根據需要可以一直檢索到最底層。Yahoo 的分類層次完全是由工作人員而不是電腦來完成的,因其包含了人工的判斷選擇,因而內容更有效準確,這正是Yahoo的精華所在。
  國內也有了自己的搜索工具,比較著名的有“常青藤”,它可以提供中文因特網站點的分類和檢索服務;此外還有“中國教育和科研網網絡指南針”,“中國導航搜索器”,“東方網景搜索器”等。
  應當看到這些搜索工具的開發與研究多是軟件編制人員的成果,情報檢索工作者介入少,其成果也缺乏情報檢索的理論指導。從發展的觀點來看,這些產品還都處于初級階段,可以設想如果把分面分析的原則與方法運用到搜索引擎的編制中去,定會極大地提高檢索效率,收到意想不到的效果,我們情報檢索人員在網絡化檢索語言的研究中定會大有作為。
情報理論與實踐京310~312G9圖書館學、信息科學、資料工作曹東20002000Information  retrieval/Retrieval  language/  Informationretrieval systemThe classified subject integration,the standardization andcompatibility  of  information  retrieval  language,  theapplication of natural language,  the computerization  ofinformation retrieval, and the  application and developmentof information retrieval language under network circumstancesare the  hot issues of information retrieval  languageresearch in China in recent years. They are also  thedirection we should follow in our work.曹東,上海空軍政治學院14隊 上海 200433 作者:情報理論與實踐京310~312G9圖書館學、信息科學、資料工作曹東20002000Information  retrieval/Retrieval  language/  Informationretrieval system

網載 2013-09-10 21:39:40

[新一篇] 近年來情報系統理論研究綜述

[舊一篇] 近5年我國高等職業教育研究的熱點問題
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表