人工語言與自然語言融合理論的實施與應用

>>>  新興科技、社會發展等人文科學探討  >>> 簡體     傳統


    情報檢索語言分為人工語言和自然語言兩個大類。本文所說的人工語言與自然語言的融合,指的是在人工語言中增加自然語言成分,自然語言適當引進人工語言的原理和方法,兩者取長補短,互為表里,互為主輔,最后完全融合,使之都能獨立進行標引和檢索,形成一種既具有自然語言的優點又揉合了人工語言優點的高級情報檢索語言。[1]換一個角度說,就是在以類名(分類號)、主題詞為代表的人工語言和以關鍵詞為代表的自然語言之間建立對應關系,實現情報檢索語言之間的相互轉換,相互控制。
      1 人工語言與自然語言融合理論的提出
    1.1 在印刷型文獻的手工檢索階段,人工語言較之于自然語言有著不可替代的優勢
    在基于印刷型文獻的手工檢索階段,盡管文獻的數量有限,但是基于自然語言直接用于情報檢索時不可避免的缺點,如詞匯量大、詞匯的模糊性和不確定性、詞匯的多義性、同義性和近義性等,運用自然語言進行情報檢索,無論是從檢全率還是從檢準率來說,其結果都差強人意。人工語言就是為了彌補純粹的自然語言檢索的不足而創制的。人工語言通過控制同義詞和近義詞,區分同形異義詞,把語義相關的詞聯系起來等手段來消除詞匯的模糊性,從而達到滿足多種檢索要求的目的。與純粹的自然語言相比,人工語言的優點是顯而易見的,正是因為這樣,人工語言在手檢時代在情報檢索領域處于主宰地位。
    1.2 在數據庫的計算機和網絡的信息檢索階段,人工語言的局限性凸顯,人們迫切呼喚自然語言的“回歸”
    1.2.1客觀條件[2]
    (1)文獻數量海量增長。這里的文獻是指廣義的文獻,是基于科學技術、包括計算機技術高度發展從而帶動起來的以多種介質為媒體的、包括網上資源在內的各種文獻。如果文獻標引還繼續沿用查人工受控詞表嚴格采用人工語言標引的模式,無法化解標引速度慢與文獻海量增長這個事實間的矛盾。
    (2)科學技術,尤其是計算機技術和網絡通信技術的發展及其在情報檢索領域的應用為自然語言的“回歸”提供了必備的客觀條件。
    (3)自動標引技術研究應用的深入和完善,為自然語言提供了一個重新施展身手的技術平臺。
    (4)網絡檢索的發展使居家檢索、辦公室檢索成為現實,呈多層次、多元性結構特點的情報用戶渴望擺脫人工語言的束縛和專職檢索人員的介入,而使用他們熟悉的、符合他們思維習慣的自然語言來直接表達他們的檢索要求,獲取他們想要的信息。
    1.2.2 主觀條件
    人工語言的局限性從它誕生之日起就客觀存在,只是在當時的手工檢索條件下較之于自然語言,它的確優勝,故其局限性還沒有明顯凸現而已。隨著計算機技術和網絡技術的飛速發展,人們通過對比研究發現人工語言的某些缺點正好又是自然語言的優點。在網絡環境下自然語言無論是在反映新學科新事物各概念表達的準確性方面,還是在標引速度和用戶表達檢索意圖等方面,都恰恰彌補了人工語言由于“受控”而造成的缺陷。
    1.3 人工語言與自然語言融合的必然
    雖然機檢時代為自然語言提供了重新施展的空間,但由于自然語言作為一種檢索用語言與生俱來的弱點,決定了它不是一種盡善盡美的情報檢索語言,若要以它來完全取代人工受控語言,至少在現階段來說是不可能的。況且,若采用完全不受控制的純粹的自然語言檢索,那么情報檢索不是又重新回到起點,反而更是情報檢索技術的倒退了嗎?再則,人工語言盡管有局限性,但并不是沒它已完全失去存在的必要和發展的空間,而只是說它在情報領域担當主角還是配角的問題。
    兩種語言天然的優勢互補決定了它們誰也取代不了誰,它們只有互相兼容,互相結合,其最高境界是完全融合,形成一種既具有自然語言優點又具有人工語言優點的高級情報檢索語言。
      2 人工語言與自然語言融合理論的應用與實踐
    人工語言與自然語言應該而且應當可以融合,這是不容爭議的。張琪玉先生認為在這兩者融合的新型的情報檢索語言形成之前的現階段的現狀可以說是三種情況并存:(1)是人工語言與自然語言在一個檢索系統中并用;(2)是自然語言適當引進人工語言的原理和方法;(3)是人工語言增加自然語言成分。[3]實際上(2)和(3)說的是同一個問題,即人工語言與自然語言的融合。同時,大家普遍傾向于根據人工語言的優點及原理對自然語言進行適當的控制是一種較好的方法,并展開了大量的研究與實踐。
    2.1 書目數據庫中人工語言與自然語言的并用
    書目數據庫采用中文圖書機讀目錄,即CN-MARC格式,其中606字段采用人工語言(主題詞)標引,而610字段采用自然語言(關鍵詞)標引。這里的關鍵詞是指未經規范化處理的主題詞表以外的非受控詞,多取自文獻的題名、文摘、章節或正文。610關鍵詞字段是在規范性主題詞無法準確揭示文獻主題時采用,情報用戶可通過這一字段用自然語言作為檢索人口進行主題檢索。書目數據庫是一種人工標引的以“前控”技術為主的檢索系統模式,610關鍵詞字段的啟用在一定程度上彌補了受控人工語言的不足,兩種語言在書目數據庫中的并用滿足了用戶多種情報需求。但這種人工標引模式人為因素較重,受制于標引人員的責任心、理解力、判斷力等,在人工語言不能準確全面揭示文獻主題而標引人員又沒有作關鍵詞標識時,檢索用戶很難達到檢索目的。
    筆者在這里用了“并用”而沒有用“融合”一詞,是因為在書目數據庫中,人工語言(分類號與主題詞)與自然語言(關鍵詞),其檢索功能是互相并立的,而不是融合為一體的。在兩種檢索語言、三種檢索標識之間并不存在相互對應關系。當然主題詞與分類號兩種人工語言之間存在對應轉換,但主題詞與關鍵詞、分類號與關鍵詞之間沒有相互轉換的關系。[4]
    2.2 全文數據庫中人工語言與自然語言的對應轉換
    作為文獻數據庫的另一種類型,全文數據庫是一種存貯文獻全文或其中的主要部分的源數據庫。在全文數據庫中,其情報信息的組織、標引和輸出采用的是自然語言處理系統技術,即一種以相關排序和智能文本處理為特征的自然語言處理系統。[5]這種處理系統雖冠名為“自然語言”,但毫不例外地借用了人工語言的控制原理和方法,引入了人工受控詞表如后控詞表、人口詞表等,通過自然語言與人工語言的對應轉換,有效地把文本中分散的概念聯系起來,并把文本中的垃圾信息剔除開,從而為用戶提供以自然語言作為情報提問輸入和對話接口的檢索方式。由于對文獻基本上不作標引或只是用自由標引法賦予自然語言詞作自由標引,自然語言處理系統在檢索時可以直接用自然語言詞進行匹配查找,并且同時具有文獻處理成本降低、文獻處理速度加快、文獻處理難度減少等優點,特別是對新出現的事物和很少文獻論述但其名稱確定的事物其檢準率較高。但也正因為如此,自然語言檢索的誤檢率也比較高。[6]
    2.3 現階段人工語言與自然語言融合的實施手段
    我們知道,情報的組織、標引與檢索是一個不可分割的過程。在這個過程中,組織和標引文獻是手段,檢索文獻才是最終目的。現階段我們對文獻進行處理是三種方式并存:(1)是標引控制+檢索控制;(2)是標引控制+檢索不控制;(3)是標引不控制+檢索不嚴格控制。(1)和(2)大多為受控語言系統所采用,第(3)種方式則為自然語言系統所專用。實際上,在情報檢索系統中,受控語言系統與自然語言系統之間的界限已明顯淡化;并且,無論是受控語言系統還是自然語言系統,都離不開“詞匯控制”四個字,其最主要的區別是在控制時間的前后和控制程度的強弱上。
    2.3.1 人工語言的自然語言化——自然語言接口用對應表
    為了適應網絡環境對文獻檢索的要求,人工語言本身也在不斷地進行優化改進,如由先組式語言向后組式語言發展,同時基于概念的可分析性和可綜合性的原理,大大增強了人工語言的組配功能等。優化的目的是為了有效提高人工語言的表達能力、聚類能力和匹配能力。但人工語言的這種自身的努力與改變仍然不能跟上時代的步伐,它必須借助外來因素的幫助。
    最通常的做法是在情報檢索系統之前安置一個自然語言語詞與情報檢索語言語詞的對應表,其前端為自然語言的語詞,后端為人工語言的語詞。對應表實際上就是人口詞表的機讀版,它除了把人工詞表編制時因時間、篇幅的限制,不能作為正式主題詞,即落選詞、不通用的詞、各種形式的同義詞和同義詞級、被上位詞替代的過于專指的詞收入以外,還可以隨時把代表新學科新事物的新詞語收入作為入口詞。[7]詞表的編制可以由機器自動完成或由人工參與、機器輔助來完成。作為情報檢索系統的一個附加部分,對應表的加入并不影響原有的標引工具和標引數據。實踐證明,編制自然語言接口用對應表是人工語言自然語言化中最簡化可行的一種方式。它緩解了人工詞表收詞不全給檢索帶來的困難,提高了標引的一致性和檢索效率。
    2.3.2 自然語言檢索系統的專用詞表——后控問表
    作為實現人工語言與自然語言融合的一條通道或者說是接口而嵌入自然語言檢索系統中的后控詞表,它與自然語言接口用對應詞表的相同之處在于其性質,即是一種轉換的工具,一種擴檢的工具,都與入口詞表相類似。與自然語言接口用對應表不同的是:(1)自然語言接口用對應詞表是安裝在情報檢索系統之前,而后控詞表是安置在自然語言檢索系統之后,即系統的輸出階段;(2)自然語言接口用對應詞表一般是在現有的人工詞表的基礎上,通過增加入口詞來編制;而后控詞表一般是在檢索系統中實有的自然檢索標識的基礎上參考現有各種詞表編制;(3)與自然語言接口用對應詞表相反,后控詞表中,標引-檢索用詞是自然語言,非標引-檢索用詞卻是人工語言;(4)后控詞表在詞匯控制的程度上并不十分嚴格。后控詞表的應用,使用戶既可以利用文獻中的自然語言詞進行檢索,又可以用詞表中的詞族進行族性檢索,兼有人工語言與自然語言的長處,是目前圖書情報界公認的最有發展前景的檢索方法。
    2.3.3 前控與后控技術雙管齊下
    這里的前控與后控技術雙管齊下,指的是粗略標引+自然語言檢索+后控詞表控制檢索結果。
    我們知道自然語言本身存在一詞多義、同詞異義的現象。一個詞語,在某個學科領域代表某個含義,但在另一個學科領域,它可能又被賦予了新的含義。就以“自然語言”這個詞語為例,它在語言學這個學科與在情報科學學科中的內涵肯定就大相徑庭。粗略標引,即建立一個結構簡單明了的知識分類體系或主題索引,宏觀上控制網上文獻資源。用戶在查詢時,先選擇大致的類目或主題,然后再進一步查詢,可以減少詞義混同現象;還可以加上簡單的地理、時間、文種的控制,從而提高文獻的專指度。目前許多數據庫,如中國學術期刊,就分為政治經濟法律、醫藥衛生等多個大類;而許多網上數據庫或搜索引擎則是按主題歸類,分為娛樂、健康、汽車等。粗略標引與后控詞表結合,由于粗略標引是一種不太嚴格的控制方法標引,所需的時間不多,系統把較多的功夫下在輸出階段的檢索和篩選上,即運用后控詞表控制檢索結果;而用戶仍然用自然語言作為檢索入口,而且效果更好,因而是一種檢索用戶與檢索系統都相得益彰的變通方法。[8]
    2.3.4 數碼鏈接關鍵詞詞表法
    由于自然語言對應詞表多按字順排序,不可能象分類語言那樣通過表現等級關系清楚地顯示主題之間的關系,造成了檢索策略構造困難,數碼鏈接關鍵詞詞表就是為了解決這一困難以后控詞表為藍本進行優化改進而形成的。其特點是:(1)不設控制詞,賦予每一個關鍵詞一個詞號,而同義的關鍵詞用同一詞號鏈接,那么詞號與關鍵詞之間可能是一對一或是一對多的關系,通過詞號與關鍵詞之間的數碼鏈接,很好地解決了由于同一主題文獻多種表達方式即多詞一義和詞義混同而造成的漏檢和誤檢問題,有效地提高了查全率;(2)為便于擴檢與縮檢,以較簡便的詞族表取代分類表或范疇表。基于關鍵詞這種自然語言之間存在著的等級關系、等同關系,與之相鏈接的詞號也相應地設置不同的級別;(3)編制各種注釋來指引用戶檢索文獻;(4)盡管結構并不十分完整,但由始至終把檢索用戶的需求擺在第一位,實用性強。[9]
      3 人工語言與自然語言融合遭遇的難題
    盡管人們致力于人工語言與自然語言融合的研究,并把自然語言檢索作為研究的側重點,但迄今為止,仍面臨著以下幾個難題:一是如何從自然語言文本中抽出最能準確、充分表達文獻有價值內容的詞,以及這些詞與檢索課題有效匹配的問題。這個問題的復雜性在于文獻作者用詞無明顯的規律性,以及作為人類社會現象的自然語言不可能用純自然科學的方法去研究解決;二是克服自然語言由于不規范和缺乏語義關聯性而檢索不利的問題;三是漢語不同于一般的拼寫文字,沒有自然切分的標識,而且中文分詞并不單純是字符層面的處理,更多的是語義層面的處理,所以對中文來說還有一個自動分詞的問題。[10]
    拋開第三點不談,作為人工語言與自然語言融合的階段性成果的入口詞表和后控詞表,它對解決上述問題的作用如何呢?后控詞表作為入口詞表的一種,它是一種單純的基于列表式的詞表,其結構是一線性或多線性的,而人的思維能是非線性的、發散性的。這種線性結構決定了后控詞表控制方式只能在字面層次上而不是從概念內涵上滿足用戶的要求,因而不能有效地解決自然語言文本與檢索課題的匹配問題。在接近人腦思維方式的智能情報檢索系統成功研制之前,后控詞表的編制需在以下幾方面下功夫。其一是對自然語言控制規范的“度”的問題,控制得過多或過少,都會影響自然語言檢索的效果;其二是詞表的編制模式問題,從后控詞表有關方面的研究理論、研究思想看,其編制思想、編制手段和編制技術跳不出《中國圖書分類法》、《漢語主題詞表》的框框,都是在這兩表的基礎上加以改進而成。如何借用人工語言的理念,另辟奚徑,在詞表的構造上實現自動化,組織形式突破線性化,實現真正意義上的概念語義檢索,是關系到人工語言與自然語言實質性融合的關鍵性問題。[11]
    盡管人工語言與自然語言的融合理論的實施與應用在計算機網絡的強力支持下有了長足的進展,但實際上現階段人工語言與自然語言的融合是以自然語言詞表,主要是后控詞表或是對后控詞表優化改進的詞表為接口進行的,可以說現階段僅僅處于兩者融合的初級階段,離真正意義上的人工語言與自然語言的融合還很遠很遠……
    收稿日期:200上海經濟研究京5~12L1情報資料工作潘瑞冰20042004文章分析了人工語言與自然語言融合理論提出的主觀和客觀條件,闡述了兩種語言融合的必然性以及現階段網絡環境下人工語言與自然語言融合實施的手段及其在實踐中的應用,并對兩種語言融合中遭遇的難題如何解決提出了建議。人工語言/自然語言/情報檢索語言/自然語言接口用對應表/后控詞表本文為天津市哲學社會科學研究規劃資助項目“盤活我市社科信息資源,促進我市經濟發展”的成果之一。高啟杰Interregional Disparity,Factor Mobility,and Fiscal Decentralization
  Zhang Yan & Gong Liutang
  (Guanghua School of Management,Peking University)潘瑞冰,女,1974年生,肇慶學院圖書館館員,武漢大學2003級在職研究生。肇慶學院圖書館 廣東 526061 作者:上海經濟研究京5~12L1情報資料工作潘瑞冰20042004文章分析了人工語言與自然語言融合理論提出的主觀和客觀條件,闡述了兩種語言融合的必然性以及現階段網絡環境下人工語言與自然語言融合實施的手段及其在實踐中的應用,并對兩種語言融合中遭遇的難題如何解決提出了建議。人工語言/自然語言/情報檢索語言/自然語言接口用對應表/后控詞表本文為天津市哲學社會科學研究規劃資助項目“盤活我市社科信息資源,促進我市經濟發展”的成果之一。高啟杰

網載 2013-09-10 21:33:10

[新一篇] 人學的研究對象和理論體系

[舊一篇] 人役權制度與中國物權法
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表