網絡環境下文獻分類法的可視化

>>>  技術話題—商業文明的嶄新時代  >>> 簡體     傳統


  1 信息可視化與文獻分類法
  信息可視化是將抽象數據用可視的形式表示出來,以利于分析數據、發現規律(信息)和制定決策。它是一種嶄新的方法,為廣大用戶直觀、方便地獲取所需信息提供了有效途徑。信息可視化尋求人機合作,計算機將大量抽象的信息映射到圖像上,人們通過圖像的結構、特征等來理解認識,從而獲得知識。信息可視化的關鍵是將數據用有意義的圖形表示出來,目標是顯示出文獻表示的一個抽象信息空間。[1][2]
  目前國際上有各種文獻分類法,例如《國際十進制分類法》(UDC)、《杜威十進分類法》(DDC),都是將信息資源的主題概念進行分類,用不同的代碼表示一類信息資源的類別。目前,可視化系統主要采用樹(Trees)、圖(Graphs)、地圖(Maps)及虛擬現實(Virtual Reality)等隱喻方式,完成分類法及其結構的可視化。筆者將介紹網絡環境下文獻分類法的可視化進展,并探索用本體工具實現分類表的可視化。
  1. 1 傳統文獻分類法的顯示
  文獻分類法的分類體系為等級列舉式結構,按照學科知識門類層次劃分,并把劃分出來的子目一一加以列舉,形成一個具有良好結構特征的知識一覽表。傳統的文獻分類法是典型的樹型結構體系,對知識的組織采用從總到分、從寬到窄、層層劃分的方式,形成比較縱深的等級結構,分類級次多者達8級以上,其優越性在于較強的系統性和族性檢索功能,但是,典型的“線型方式”給讀者利用分類檢索帶來很大的困難。用戶查詢文獻必須嚴格遵循其既定的線形體系,按照固定的單線順序,一一往下查找。這種直線型列舉式的“樹狀”結構不能反映現代科學的交叉和綜合性發展特征,不能滿足類目的多維檢索,在一定程度上限制了標引用戶和檢索用戶的多途徑檢索[3]。
  20世紀60年代問世的、被稱為“隱蔽分類法”的敘詞表,在其宏觀結構中引入了“隱蔽的分類”,諸如參照系統、范疇索引、詞族索引,并用詞族圖、同心圓、箭頭圖、方框圖等來顯示。后者是情報檢索語言的圖形顯示。但是由于當時計算機水平落后,這些圖形顯示未能成功地發展為分類法的信息可視化[4]。
  1979年,DDC第19版在其新出版的手冊中,用地圖來顯示DDC的地區復分表,在地圖的某一區域內標明其地區分類號,便于用戶查找。這是圖形化顯示在分類表的首次嘗試。
  周寧曾在《信息可視化與知識檢索》一書中提出了設計圖符集來表示分類法,即用一個個形象的圖符或動畫表示分類表的一級大類,用上級圖符加注二級類目的知識概念表示二級大類,形象生動,使人一目了然。因為分類法的類目眾多,少則數千,多則數萬,類目并不容易設計出有針對性的、特色鮮明的圖符,而且類目的上下位之間還要有統一性、繼承性[5]。要實現這一構想,還有較大的難度。
  1. 2 網絡環境下文獻分類法的顯示
  網絡環境下超文本技術的運用可以多維展示類目關系,使文獻分類法的樹狀結構改造為網狀結構,因而具有更大的靈活性和動態性。運用該技術,可以根據知識門類之間的聯系和使用需要,通過鏈接的方式,在相應的類目下重復反映,充分揭示類目之間的多維聯系。這樣不僅可以充分揭示事物的多重屬性,使多重列類得以真正實現,還能通過對各種關系的顯示,幫助人們理解信息空間的結構,快速發現所需信息,有效防止信息迷途。但是超文本的瀏覽方式,只能提供給使用者很少的概念,不能讓使用者有整體的、由點到面的全盤了解。因此如果能提供其它形式的瀏覽界面,在有限的屏幕空間中將所有相關信息呈現在用戶的眼前,讓用戶對所涵蓋的資源有一個整體、全面的了解,便可減少瀏覽的盲目性[6]。
  如果說視窗版DDC(Dewey for Windows)的問世標志著機讀分類法的成熟與實用化,DDC網絡版(WebDewey)的研制則象征著分類法與網絡的緊密結合,可以視為文獻分類法可視化的開始。近年來大批問世的信息可視化軟件,可以完成數據收集、集成、轉換和映射,通過圖像的變形、伸縮和位移形象地顯示主題與主題或對象之間的多種聯系,動態地生成可視化的聯系相關圖,為分類法、敘詞表及本體等知識組織系統(KOS)的可視化提供了技術支持。
  2 網絡環境文獻分類法的可視化進展
  2. 1 Renardus
  這是一個在歐盟范圍內開展的信息開發計劃,目的在于提供一個集成化的網絡信息資源門戶站,成員包括丹麥、芬蘭、德國、荷蘭、瑞典、英國的圖書館與研究中心,共擁有64,000個英文學術網站資源。簡單地說,Renardus相當于主題網關,該門戶站將自身網站的結構和DDC結合成一個開放的公用系統,把DDC用作不同分類法的共同轉換語言,將信息資源完全按DDC的等級顯示出來,用戶通過DDC的分類瀏覽體系,通過超鏈接跳轉到各類目的瀏覽界面上,可以瀏覽各類目局部分類體系的相關類目[7]。
  使用扇形圖顯示類目非常直觀,讀者可以通過對主題的層次進行瀏覽,頁面的每個類目就是一個鏈接,鼠標放置其上就顯示完整的類名,用戶可以通過點擊類名去查看上、下位類或相關類目。在瀏覽時,發現有時會出現顯示信息不完整現象(并未顯示與所查找的類目相關的所有類目層次),這是因為網絡原因,有些類目信息暫時不能使用。例如,查找類目“Library & Information science(圖書館學情報學)”,圖中會顯示四級類目,包括類目“Library & Information science”的三個下位類“Operations of libraries, archives, information centers(圖書館、檔案館、情報中心的操作)”、“Specific kinds of institutions(特定的機構)”、“Reading and use of other information media(其它信息媒體的閱讀和利用)”,這三個下位類各自的子類以及這些子類的下位類。不是所有的類目及其上、下位類都能全部顯示出來,但是雙擊圖中任一類目,可以鏈接到新窗口查看該類目的詳細上、下位類。
  2. 2 OverView
  這是OCLC研究署(OCLC Office of Research)的研究項目,旨在研究顯示定量文本信息的方法,當前的研究是利用DDC,通過三維信息空間對檢索結果進行形象的判斷。OverView采用了信息可視化技術,當用戶輸入檢索詞后,檢索結果將表現為由虛擬本體模型語言(VRML)構筑的一個三維信息空間,檢索結果交叉地分布于這個DDC信息空間,柱形圖顯示檢索結果在各個類的相關度[8]。用10×10矩陣表示出100個小方框,標號從00到99,是基于DDC類號的前兩個數字。例如,004.6入00方框、538.84入53方框。每個小方框顯示的高度與其相對應的檢索結果的文獻數量成正比,小方框顯示的高度越高表明這個類目對應檢索結果的相關文獻越多。用戶可以選擇圖中Drill down按鈕(其意思可以理解為擴展)去查看類目的細分,DDC類號隨點擊的小方框而改變。選定一個小方框后,用戶可以看到窗口右邊與這小方框所表示的類目的注釋。用這種方法建立的信息空間的優點在于分類表的高度結構化與可度量性,分類號附加上類名與注釋后具有比較豐富的語義,對于其他體系分類表的可視化,具有很好的借鑒意義。目前系統包含44,817個DDC分類號及相關注釋,另外還顯示其對應的《美國國會圖書館標題表》(LCSH)[9]。
  2. 3 《中國圖書館分類法》和《中國分類主題詞表》
  在國內的數字圖書館項目中,文獻分類法的應用并不普遍。《中國圖書館分類法》(簡稱《中圖法》)編委會于2001年推出《中國圖書館分類法》4版的電子版。《中圖法》電子版提供15種途徑的跨類檢索,并提供5種不同匹配方式的組合檢索。在保留其印刷版類目線形顯示的同時,實現了類目的多層面、多窗口、超文本的顯示和多種形式的等級顯示。在《中圖法》電子版中的超文本格式界面,被選類目除了包含和印刷版兼容的詳細信息顯示以外,還具有從當前類目向上級類目、下級類目或類目注釋中指向他類的類目跳轉的超文本錨點。如,分類法的交替類目、參照類目的類目注釋中,存在大量的通過類號或語詞指向相關類目的線索,超鏈接技術使這些相關類目實現了結點之間的跳轉。另外可利用《中圖法》電子版在數字圖書館的導航站與檢索系統中增加分類瀏覽界面,通過展示分類法的樹形結構,增加了分類檢索入口的語義性,克服了線形體系對類表類目多層次瀏覽的制約,引導用戶在學科等級體系中擴檢、縮檢,最終查詢到所需的信息[9][10]。
  《中國分類主題詞表》(簡稱《中分表》)于2004年10月推出用于計算機編目和檢索環境的電子版。《中分表》電子版由一個主窗體和多個子窗體構成,子窗體由多個不同文檔構成,簡稱分類表、主題表、詞族表、瀏覽表,各子窗體之間可以相互聯動(當某一窗口選中一個類目后,其他不同的窗口也都同時顯示該類目);各子窗體均有兩個顯示小窗口,用戶可根據個人習慣和查詢需求自主切換窗口,有上/下顯示和左/右顯示兩種顯示方式。類目體系顯示用展開和收縮圖標,圖標左邊有“+”號表明它是未展開的類目,圖標左邊有“-”號表明它是已展開類目,可以根據瀏覽的需要一級一級地把類目展開或折疊起來。《中分表》各種瀏覽方式之間和各窗口之間的隨意跳轉,從根本上克服了線性體系對多層次瀏覽的制約,實現了用戶基于內容的、多需求的一體化瀏覽和檢索的功能[11][12]。
  《中分表》的初步可視化已經為用戶使用詞表提供了極大的方便,但是目前離詞表和檢索結果的全面可視化還有相當的距離,必須借鑒和引進國內外信息可視化的技術成果,加快《中分表》的網絡化、可視化和智能化的進程。
  3 本體編輯工具在文獻分類可視化中的應用
  目前學界公認的本體(Ontology)定義是Tom Gruber等提出的:“本體是一套得到大多數人認同的、關于概念體系的明確的、形式化的規范說明”。現有本體具有代表性的語言可以分為兩類:一類是基于一階謂詞邏輯的,如框架邏輯(Frame-logic)等;第二類基于XML標準的本體語言,這些語言包括:RDF、SHEOE、XOL、OML、OIL、DAML+OIL以及集成這些語言推出的OWL。本體可以描述事物的屬性、關系和分類。本體的作用與傳統分類法、主題法的作用有類似的地方。因本體所包含的術語量非常大,能對信息起到規范控制的作用。當然本體還有知識關聯、推理等作用[13]。
  目前較成熟的本體編輯工具有Ontolingua、Webonto等,斯坦福大學醫學院醫學情報學研究組開發的開源本體構建工具Protégé應用最為廣泛,基于Java語言開發研制,是集本體編輯和知識編輯為一體的開放源碼軟件,提供圖形界面和交互式的本體設計開發環境。Protégé以OKBC(Open Knowledge Base Connectivity)模型為基礎,支持類、類的多重繼承、模版、實例等知識表示要素,可以定義各種知識規則。另外,Protégé最大的特點是開放性、兼容性及可擴展性,具有可免費下載系統的安裝軟件與插件,可用RDF、RDFS、OWL等本體語言在系統外對本體進行編輯和修改等優勢,因而擁有眾多的用戶,已成為目前使用范圍最廣的本體編輯器之一[14]。除以上優點外,Protégé還提供許多可視化插件,支持中文的編輯和輸出,幫助用戶構建本體、查看本體以及檢查概念的一致性,宜用作分類表可視化的試驗工具。
  筆者選擇抽取《中圖法》“J藝術大類”中“各種電影、電視”,按內容、題材和表現形式分為三大類,其類目層次嚴格按照中圖法的體系結構,各類的類號作為本體名稱一并輸入。因Protégé系統將“Thing”(事物)定義為超類,用戶定義的類都是其子類,因此本文將“電影、電視”設為超類“Thing”的子類,再按內容、題材、表現形式等往下細分,構建結果如圖1所示;每個類目都是一個超鏈接,有些類目上方紅色的數字標注是表明該類有幾個下位類,雙擊該類目就顯示其下位類,例如,雙擊J974思想類型電影,就顯示它的三個下位類:J974. 1政治片、J974. 2哲理片和J974. 3倫理片。
  G9S112.jpg
  本體編輯工具可以以各種形式表現類目,在Jambalaya插件中,有輻射形、噴泉形、垂直樹形、水平樹形等各種圖形顯示類目,可以任意選擇,在這里不能一一展示。筆者選擇輻射形顯示圖,每個類目用一黃色小方框表示,類目之間用藍線相連,呈輻射狀,圖形充分顯示了分類表的類目體系、類鏈和類列;而且每一個方框就是一節點,鼠標放置在方框上就會顯示該類目的類名、下位類及注釋。在該插件中還可以對類目進行檢索,例如選擇“search”圖標,在跳出的對話框里輸入“J95”,就會顯示J95這個類目及其所有的下位類。
  經過試驗,發現用本體編輯工具構建分類法基本可行,而且在可視化方面突破了以往慣用的樹型顯示方式,顯示的豐富程度大大增加,可用多種形式(如嵌入圖、放射圖等)來顯示分類法的類目。
  但是,將本體編輯工具用于文獻分類法的可視化也存在一些難點。傳統知識組織體系的設計思路、功能、對象、用法與本體是有很大區別的。有些概念沒法翻譯成本體,而且每個概念、概念間的關系都需要定義,許多模糊的概念關系需要明確。雖然本體編輯工具在近10年已經比較成熟,然而手工構建本體費時費力,而且本體工具的某些插件在中文的編輯和輸出方面還需改進。所以在目前的情況下,可考慮用本體編輯工具建立分類表的相應類目,而不宜進行純粹的轉換。
  目前關于信息可視化的研究在國外已相當活躍,在我國還處于起步階段,但是它的方法技術正在日益成熟,其用途也正在逐漸擴展。網絡環境下分類法可視化系統的研究,需要更多的實驗和測試。但是隨著可視化與智能化研究的不斷深入,相信更多的可視化方法和工具將被開發出來,可視化操作的自動化程度也將越來越高。
國家圖書館學刊京63~67G9圖書館學、信息科學、資料工作歐陽寧/侯漢清20082008
信息可視化/信息檢索/文獻分類/本體
信息可視化是情報學研究的新領域,本文回顧了文獻分類法可視化的發展及其在國內外網絡環境中的應用,并探討了用本體編輯工具實現文獻分類表可視化的方法。圖1。參考文獻15。
作者:國家圖書館學刊京63~67G9圖書館學、信息科學、資料工作歐陽寧/侯漢清20082008
信息可視化/信息檢索/文獻分類/本體

網載 2013-09-10 21:18:13

[新一篇] 網絡環境下情報學理論體系的創新

[舊一篇] 網絡環境中心理學研究的特點與方法論問題
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表