復雜網絡理論的情報學意義探討　　——以科研合作網絡和引文網絡為例

簡體傳統

　　復雜網絡是近幾年科學研究發現的一種介于規則網絡和隨機網絡之間的一種更接近于真實網絡的一種網絡模型，最典型的特征是小世界現象和無尺度特征。本文的研究只涉及復雜網絡中的兩種網絡——科研合作網絡和引文網絡，因為科研合作和引文研究也是情報學的一個重要研究領域。科研合作網絡是指為了研究某一學術領域的發展變化，某一個新的思想在此領域內的產生、傳播，科學家構造的一個科學家之間通過文獻相互聯系影響的網絡。在這個網絡中，以科學家為節點，以他們之間的聯系為邊，一般認為兩個科學家如果共同撰寫一篇論文，則認為他們是相連的。科研合作網絡的研究文獻并不是很多，比較著名的有物理學家Newman的兩篇論文。[1][2]國內的研究尚在進行，僅見于武漢大學劉杰與陸君安的論文。[3]在引文網絡中，節點是發表的論文，每一次引用表示為一條邊。
　　復雜網絡的研究視角是從整體角度來關注網絡結構對其功能的影響。這為我們提供了一種研究問題的新方法。首先，在研究方法上，創造了一系列更好地理解拓撲結構與功能關系的分析方法；其次，它提出了一系列指導著復雜網絡研究的概念、命題、基本原理，使對于復雜網絡的研究面目一新，并把這些理論、概念應用于其他領域的研究，使我們認識到網絡不僅是一種客觀存在，也是一種觀察事物、分析事物的方法。[4]
　　科研合作和引文研究是情報學研究的一個重要領域，并且在該領域取得豐碩的研究成果——情報計量學三大定律，即科學家研究撰文的數量分布（洛特卡定律）、期刊論文的分布（布拉德福定律）、還有研究詞語分布（齊夫定律），對于這三大定律的研究一直受到情報學界的關注，本文將在復雜網絡的背景下對他們進行新的探討。
　　1 情報計量學三大經典定律的復雜網絡特征——冪律分布
　　洛特卡定律表明一定時期某一學科或主題內，撰寫了x篇論文的作者數y(x)與x滿足冪律關系，不管學科或主題如何變化，其冪指數均在1.2-3.7之間，且大致按基礎自然科學、技術科學、社會科學與人文科學的順序遞增。[5]RousseauB，RousseauR也對洛特卡定律進行了驗證，結論是洛特卡定律符合冪律分布。[6]因為布—齊—洛定律實際是同一分布的不同表達方式，都是研究主體特征在主體上集中與分散這一社會現象的。一方面，大量主體特征分布在少數的主體上，另一方面，少量的主體特征卻廣泛地分布在多數的主體源中。[7]所以，可以說三大定律都符合冪律分布。
　　復雜網絡的一個重要特征是網絡的無尺度性，即冪律分布，在這一點上，二者有共同之處，不同之處在于一個是個體的數量分布呈冪律，一個是個體之間的聯系呈冪律。
　　2 從三大定律到復雜網絡，從線性到非線性（網絡）
　　三大定律與科學家之間的合作，論文的引用都符合冪律分布，本是同一領域的研究問題，又得出相似的結論，所以我們有必要在這里尋找一下二者的聯系。
　　洛特卡定律研究的是科學家撰文的數量分布，科學家之間的聯系包括共同撰寫論文與合作，加上節點之間的聯系，進而形成復雜網絡所研究的科研合作網絡。布拉德福定律研究的是期刊上的論文分布，論文之間的聯系包括引用與被引的關系，形成復雜網絡所研究的引文網絡。齊夫定律研究詞語出現數量分布，但是這個定律不能深入洞察語言的組織結構，因為信息是通過句子傳播的，而非單詞。詞語之間的不同聯系可以表達不同的含義，把詞語進行篩選，選擇有能力表達知識內在聯系的詞語，他們之間也構成了一個網絡。有研究表明，單詞之間構成的人類語言形成了一個小世界網絡。[8]從情報學的角度研究詞的位置關系的不同所代表的意義、對語義網的研究、知識進化研究、知識地圖構建及其對自然語言檢索有著特殊的意義，目前還沒有對與詞語相關的復雜網絡進行的專項研究，但對Internet和www的研究可以近似地看成對由詞語構成的復雜網絡的研究，因為研究表明，Internet和www也是復雜網絡。
　　簡言之，三大定律研究的作者、論文、詞語的數量分布，是線性的。而復雜網絡的研究則進一步涉及作者與作者、論文與論文、詞語之間的關系，更為復雜化的非線性。三大定律是一維的，加進了聯系構成網絡后就是二維的，是科研者之間、論文之間、詞語之間聯系的關系研究，形成了更為復雜的復雜網絡。復雜網絡在研究方法上與三大定律相比，研究數量更加龐大，數詞處理方法更加先進，研究角度更加全面（見表1）。
　　表1 三大定律與復雜網絡比較表
　　

　　相同點：三大定律的元素個體的數量分布符合冪律分布，復雜網絡的元素之間的聯系也符合冪律分布；研究的對象都是科學家、論文、詞語。
　　不同點：研究規模與方法區別。鑒于當時的研究水平，洛特卡，齊夫和布拉德福的研究都是采用人工采集數據，人工統計，數據規模在幾千，最多的可達幾萬，經過計算，推出相應公式和特征常數。如布拉德福，他通過每天對到館的潤滑學和應用地球物理學 490種期刊上1724篇論文進行逐冊逐篇統計，按其發表論文數量的多少排出序列。這些研究只能在總體上得出冪律分布的結論，對其中的某些個體間的聯系卻無法表現。復雜網絡的研究運用網絡分析的研究方法，選擇大量的數據，數量級可達百萬級或更多，建立數據庫，編制相關程序，運用計算機進行運算，并確立不同的特征指標，計算數值，分析意義，相比較更復雜；研究角度區別。科研合作網絡和引文網絡從更為廣闊的角度出發，把研究的對象構建成一個網絡，從拓撲結構來考慮其對功能的影響，注重節點間的聯系，而傳統的三大定律只是進行簡單的數據統計，沒有關注各個元素之間的聯系。
　　三大定律只是對情報學科的科學家撰文數量、論文發表數量、詞語的使用頻率進行了線性的描述，用來解釋情報學的各種現象，并指導情報學的某些工作，對情報學的學科發展，情報學問題的定量描述有著重大貢獻。鑒于前面所述，復雜網絡借助現代計算機技術，使研究方法更精確，研究角度更加寬廣，并且定義了不同的復雜網絡的性能指標，接下來能否用網絡的方法來繼續研究情報學的學科問題？用復雜網絡的指標來深入地分析情報學所形成的網絡中各個元素間的聯系，以促進情報學的理論發展和實踐問題的研究呢？
　　3 復雜網絡下的相關指標的情報學意義探討
　　復雜網絡有其特有的描述其網絡結構的概念，也是其性能指標，通過認識網絡結構來了解網絡的功能，常用的指標有如下幾個，如長程聯接，最短路徑、聯通集團、介數等。在復雜網絡的研究中，研究者只是用這些概念來描述復雜網絡的結構和性能，并沒有對它們的情報學意義進行過探索，可能與研究者皆是物理學者有關。下面本文將從情報學的角度來分析它們在情報學領域的意義。
　　3.1 長程聯接
　　從小世界網絡模型可以發現（圖1），它之所以具有獨特的幾何性質，完全是因為加入了極少量的長程聯接的緣故。
　　

　　圖1 小世界網絡模型
　　圖中所示的小世界網絡是在左圖的規則網絡基礎上通過邊的重連得到的，當p（重連概率）=0時，成為規則網絡，p=1時為隨機網絡，此圖摘自文獻[9]，環狀網絡中含20個節點，每個節點向與它最鄰近的4個節點連出4條邊。中間的小世界網絡模型中就是在左圖規則網絡的基礎上加入了3條長程連接后形成的。長程連接的加入，劇烈地改變了網絡的距離。長程聯接一般連接著兩個局域集團，在科研合作網絡中長程聯接連接著網絡中不同的科研團隊，正是因為它的存在，使網絡具有小世界性，縮短了網絡最短路徑，使科研活動合作范圍擴大，科研合作變得頻繁。
　　長程聯接在引文網絡研究中，尤其是跨學科研究，能夠直觀地反映學科間的相互影響，學科的分化與融合。
　　3.2 最短路徑
　　這是復雜網絡研究中的一個基本概念，指連接兩個節點的最少的連邊或節點。
　　通過追隨最短路徑，可以確定兩個科學家之間的距離，對于單個科學家而言，兩個學者之間的最短路徑的值的大小，可以發現科學家之間學術聯系的遠近關系。對于不同學科的平均最短路徑的計算，其值大小可以反映出某一學科的長程連接多少，也就是不同的子學科之間的聯系，不同地域之間的聯系，如果平均最短路徑大，則學術研究較封閉，研究不活躍，反之亦然。反映了科研的復雜程度與學科綜合程度。
　　另外，通過計算機展示的科學家之間聯系的拓撲圖，可以在此基礎上人為的加以改造，如果需要加強學術聯系，可以選擇需要聯接的學者（一般選擇較有名的學者），在他們之間加上長程聯接，縮短他們之間的最短路徑，加強學術聯系。還有，我們可以從網絡中抽取出任意科學家之間合作的鏈條，通過這一鏈條可以清晰地層現中間科學家的數量和位置，從而根據需要來確定學術上的聯系。
　　最短路徑在引文網絡中反映的是引文之間影響，學科之間的影響力。引文網絡最大的優點就是直觀地層現全部論文之間被引用的關系，以前的研究很難從整體的角度來考察，對于直接的聯系可以進行統計。但如果兩篇論文A和B，他們之間不直接有引用關系，需要經過其他的論文，可能一篇兩篇甚至更多，那么AB之間的關系在傳統的方法中就很難確定。可是通過引文網絡就不同了，引文網絡最大的優點就是能夠通過引文形成的拓撲結構圖，直觀地展現論文的關系和距離，可以計算出兩篇論文之間的距離（通過計算兩個節點間的最短路徑），確定一篇論文對另一篇論文的影響，距離越近影響越大，反之亦然。同時也可以展示出任意兩篇論文之間的中間論文，也可以形成一個“參考鏈”，展示學術理論的傳播路徑，進而發現知識是如何在個學者和學科之間流動的。例如：文獻 [10]是國家自然科學基金資助項目，該論文在萬方數據生物醫學期刊（1062種，150萬篇）作者在合作研究中形成的復雜網絡的基礎上，將檢索結果可視化，應用在文獻檢索的結果展示上，為用戶呈現合作網絡的結構，將數據庫中大量隱藏的合作關系展示給用戶，同時還可以對圖中任意節點進行交互式訪問，為復雜網絡及可視化在文獻檢索的增值服務做出了有意義的探索。[10]
　　在詞語形成的網絡中，最短路徑則能反映知識的遠近關系。可以形成新的檢索策略，例如：路徑近的詞語之間的聯系可能會更密切。
　　3.3 連通集團
　　連通集團是指網絡中的一個子圖，在這個子圖內，任意兩點之間都存在通路。一個網絡可能存在多個相互獨立的連通集團。科研網絡中存在團隊現象，這些團隊內部頂點之間的聯接會比團隊之間的聯接更加頻繁。只要這樣的幾何結構存在，就可以通過結構上的分析來發現這些團隊，而不需要依靠內容。每個團隊研究的內容相似，很可能就是一個課題組，如果發現這些團隊，了解在這一領域的研究人員的情況，通過作者檢索就可以發現一族相關論文，在信息檢索方面，一直都是基于內容的檢索，能不能發展一種基于結構的檢索呢？或二者兼之。
　　在引文網絡中連通集團的發現就是發現一族相關論文，這里直接可以檢索到論文。利用數據庫，可以非常方便地提取所需要的數據。
　　3.4 介數
　　在復雜網絡研究中，研究者不僅要非常客觀地關注系統內個體之間的相互作用，而且還要注視系統的整體相互作用。表達這種整體相互作用的概念是“介數”，它是一個重要的全局幾何量。節點i的介數含義為網絡中所有的最短路徑之中，經過i的數量。它反映了節點i的影響力。[11]同時，可以定義邊的介數，利用邊的介數也可以對科學家做聚類分析，其基本思想是在包含不同集團的網絡中所有最短路徑經過次數最多的邊，也就是介數最大的邊，必然是聯接兩個集團之間的邊。
　　在科研合作網絡中，介數反映了在本領域內某位科學家影響力的大小。全部頂點的介數分布反映的是科學家影響力的層次。邊的介數反映的是不同科學家之間的交流對學科發展的影響力的不同，在進行科研水平評價時，介數可不可以作為一個評價指標，值得思考。
　　在引文網絡中，介數大的節點反映了論文在研究者選定的范圍內影響力大。能否把引文網絡的研究與傳統的引文研究方法結合起來，使引文研究再向前邁進一步？值得進一步探討。
　　3.5 聚集系數
　　選定一節點i有ki條邊與其他節點相連，在這些相連的節點之間最多會有ki(ki-1)/2條邊，這些節點之間實際存在的邊（用Ei表示）與最多邊之間的比率就是聚集系數Ci，Ci=2Ei/ki(ki-1)，平均聚集系數就是網絡中所有節點的平均值。聚集系數大的網絡，說明科學家之間合作頻繁，學術交流活躍。同理，聚集系數大的網絡說明學科之間的聯系密切，在知識進化上的親緣關系比較近。
　　結論：復雜網絡的研究已經引起了情報界學者的注意，并已經開始把其應用到情報領域的不同問題的研究中，相信會有更多的研究成果相繼出現。這些只是筆者淺顯的認識，希望能夠在今后的研究中進一步得到深入和糾正，使復雜網絡理論在情報學領域的研究走向深入。本文只是把復雜網絡與情報學的三大定律做了簡單的比較，得出復雜網絡研究的科研合作網絡、引文網絡和情報學研究的三大定律在研究對象上是一致的，前者是非線性的網絡研究，后者是線性的純數量的分布研究。另外，復雜網絡的某些性能指標可以用來描述情報學的問題，解釋情報學的問題。尤于復雜網絡的研究處于嬰兒期，所以，本研究也只是剛剛開始，只是把研究的注意力轉到了這一領域，在研究方法和研究內容等諸方面都還很不成熟，希望能夠有更多的學者注意這一領域，共同探討，深入研究。
　　收稿日期：2007-07-14
L1情報資料工作張丹紅/李曉輝20072007
復雜網絡/科研合作網絡/引文網絡/情報學
文章選擇復雜網絡研究的科研合作網絡和引文網絡為切入點，探討了它們與情報學三大經典定律的區別與聯系，并從情報學的視角分析了復雜網絡的性能指標有哪些情報學意義。
作者：L1情報資料工作張丹紅/李曉輝20072007
復雜網絡/科研合作網絡/引文網絡/情報學

網載 2013-09-10 21:18:03

[新一篇] 復雜網絡理論的情報學應用研究

[舊一篇] 復雜網絡研究及其意義