核心集構建的理論與方法比較研究

簡體傳統

　　“核心”本是一個非常寬泛的概念，在中國期刊網上，檢索題名中含有“核心”兩字的文章共有15389篇（檢索日期：2005—10—01）。題名涉及到的詞匯主要有：核心期刊、核心競爭力、核心技術、核心能力、核心員工、核心理念、核心種質、核心思想、核心蛋白、核心概念、核心內容、核心詞。但有些學科涉及的“核心”卻有著特殊的意義，核心兩字的意義可以大致分為兩類，一類是泛“核心”，它的意義等同于“重要”、“優秀”等詞，如核心思想、核心工作等；另一類是有專業意義的“核心”，如核心期刊是指圖書情報學中按一定的理論和方法評價出來的期刊，這里的“核心”不等同于“重要”、“優秀”，又如農業中的核心種質，是指為了保全、管理、遺傳作物優良種性而按一定的原則和方法優選出來的品種。
　　事實上，多個學科都提出了“核心”的概念，并對如何確定“核心”給出了不同的理論與方法。
　　本文將對各學科的核心確定方法進行系統的比較和評價，使各領域的研究者能夠借鑒其他學科的理論與方法，改進本學科研究存在的問題或創建新的核心集確定的理論與方法。
　　1　多學科核心集確定的理論及方法
　　社會科學、圖書情報學、經濟學以及農業科學對“核心”的研究較為深入，但由于解決問題的目的不同，研究的視角不同，因此，各學科確定核心集時使用了迥然不同的方法。
　　1.1　社會科學——核心集的確定
　　社會科學中確定核心集的理論基礎是馬太效應（Matthews Effect）。馬太效應是科學社會學家默頓（R. Merton）論證科學建制——科學評價與獎勵時，源引圣經《新舊約全書·馬太福音》第25章而得來的，現在意指社會輿論與行動上難以避免，又利弊俱現的偏態心理反應、行動趨勢以及據此而產生的種種后效。根據馬太效應，優質的事物數量必然會累積，好的越好，差的越差，累積結果形成優質核心集。
　　基于馬太效應理論確定核心集多寡的常用方法是盧梭定律和“20∶80”律。
　　盧梭定律又稱為平方根定律，它是由法國政治學家盧梭（J. J. Roussean）提出的，他是這樣表述的：“在任何產品集合N中，品質優良的產品數量，約等于全部產品N的平方根，即

”，如果一個機構有100個員工，按盧梭定律，100個員工中起主要作用的只有10個員工。美國科學史學家普賴斯（Price）也在《小科學，大科學》一書中寫道：“在同一主題中，半數的論文為一群高生產能力者所撰，這一作者集合的數量約等于全部作者總數的平方根。”[1] 一些實驗證明，平方根定律的準確性較差。多數情況下實際數據并不符合上述定量關系。
　　“20∶80”律（或稱為巴特萊法則）是由猶太人經濟學者巴特萊提出。他認為事物的80％價值集中在20％的組成部分中，正如10個手指中常用的僅有拇指和食指這2個手指。顯然，這種方法過于簡單和粗淺。
　　1.2　圖書情報學——核心集的確定
　　長期以來，核心資源的評價一直是圖書情報學研究的重要內容之一。核心期刊的研究為圖書情報機構合理使用經費、提高讀者服務質量以及對科學生產力進行評價起到重要的作用；核心館藏的研究為圖書情報機構整合信息資源、提高館藏效率發揮著重要的作用；核心網站的確定，有助于圖書情報機構更好地進行網絡資源整合、信息資源管理、學科信息導航、定題服務、信息推送、個性化服務等。
　　在圖書情報學領域，“核心”一詞可以追溯到布拉德福（S. C. Bradford），布拉德福稱之為Nucleus。1934 年布拉德福在《文獻工作》中寫道：如果將科學期刊按其登載某個學科的論文數量的大小，以漸減順序排列，那么可以把期刊分為專門面向這個學科的核心區和包含著與核心區同等數量論文的幾個區。這時，核心區與相繼各區的期刊數量成1∶n∶n2…的關系。他將書目分為3個區，第1區的期刊被稱為核心期刊。
　　布拉德福定律是從期刊的載文量的多少確定核心期刊的經典方法。除此以外，圖書情報領域已有大量核心期刊評價的方法，如文摘法、引文法、利用率法，綜合法。文摘法是根據期刊中論文被文摘的數量來確定核心期刊的方法；引文法是根據期刊被引用的情況確定核心期刊的方法；利用率法是根據期刊被讀者利用頻率確定核心期刊的方法；綜合法是根據載文量、引文量、文摘量、利用率等多項指標進行綜合評價確定核心期刊的方法。
　　近年來，圖書情報界對核心網站的確定方法也進行了研究，其主要方法有：
　　1）將確定核心期刊的布拉德福定律移植到核心網站的構建上[2]。
　　2）利用超文本鏈接相關指標（如外部鏈接數）或相關技術（如網站共引分析）進行核心網站的構建[3]。
　　3）利用主題相關網頁的數量、網站被文獻引用數量、網站排名、網站被鏈接數量、網站訪問量、網站的權威性等多項指標綜合評價確定核心網站[4]。
　　此外，Lotka和Zipf等人針對具體研究對象，發現了一些特殊的規律。
　　Lotka定律是由洛特卡（A. J. Lotaka）1926年提出的，是針對科研人員的科學論文著作的生產量而言的，定律表述為：如果設f（x）為寫x篇論文的作者數占作者總數的比例，則：f（x）＝C／x[a]，其中C為某主題領域的特征常數，a約為2。根據該定律，一個學科撰寫大量論文的作者只是少量作者，根據該定律可以方便地確定核心作者群。
　　Zipf定律是由齊普夫（G. K. Zipf）于1935年提出的，是文獻中詞頻分布的規律，他以大量統計數據對詞頻分布規律進行系統研究，發現了被他稱之為“最省力法則”的定律：如果統計一篇較長文章中每個詞的頻次，按照高頻詞在前，低頻詞在后的遞減順序排列，并用自然數給這些詞編上序號，即頻次最高的詞等級為1，頻次次高的等級為2，以此類推。若用f表示頻次，r表示等級序號，則有：fr＝C。該定律說明一篇文獻存在著高頻詞，并可以根據該定律確定核心詞。
　　Bradford定律揭示的是論文在期刊中分布的集中與分散現象，Lotka 定律揭示了作者科學生產力的集中與分散現象，而Zipf定律揭示的是詞頻在文獻中分布的集中與分散現象。它們構成了圖書情報學的三大定律，都是圖書情報領域確定核心集的重要理論。
　　1.3　經濟學——核心集的確定
　　經濟學中未直接使用“核心”這一概念，它使用“集中”來代替核心的概念。
　　經濟學中核心集的確定主要是應用于研究社會財富的集中現象以及市場集中現象。社會財富的集中程度，反映了不同國家或地區的不平等程度。通過比較國家或地區社會財富的集中的程度，可以及時制定和調整政策，對社會財富的分配進行宏觀調控，以保持政治的穩定及經濟的良好運行。
　　市場集中度是通過市場參與者的數量和參與程度來反映市場的競爭或壟斷程度的概念，通過對市場集中度指標對比，可以比較不同行業的市場集中程度，比較不同國家或地區某一行業的市場集中度，以此明確企業在行業中的定位，確定相應的競爭戰略[5]。
　　社會科學中提出的馬太效應只能解釋現象，盧梭定律和“20∶80”律遠不能反映經濟領域復雜的集中與分散現象。為此，經濟學中設計了大量的集中測度指標，如絕對集中度指數、赫佛因德指數，應用最廣的是洛倫茨曲線（Lorenz Curve）及基尼系數（Gini Factor）。
　　洛倫茨曲線是由美國統計學家洛倫茨（M. Lorenz）提出的，用以測定社會收入分配公平程度的統計分析方法。
　　洛倫茨曲線就是把人口累計百分比和收入累計百分比的對應關系描繪在圖形上的曲線。一般說來，曲線的彎曲程度越大，收入分配程度越不平等；反之亦然。特別是當收入分配達到完全不平等時，洛倫茨曲線成為折線OXL；當收入分配處于平等狀態時，洛倫茨曲線成為直線OL（見圖1）。圖中橫軸OX表示人口累計百分比，縱軸OY表示收入的累計百分比，曲線ODL為該圖的洛倫茨曲線，ODL曲線與對角線OL的面積就是通常所說的“不平等面積”，OXL與OL的面積就是“完全不平等面積”。
　　

　　圖1　洛倫茨曲線圖
　　基尼系數是建立在洛倫茨曲線基礎上的一個統計量，是衡量收入分配“不平等程度”的指標。
　　基尼系數（G）＝

　　基尼系數值越大，收入分配越不平等。基尼系數值介于0、1之間，0 表示絕對平等，1表示絕對不平等。
　　洛倫茨曲線被用于測定市場集中度時，圖1中的X軸通常表示不同規模產業組織或企業的累計百分比，而Y軸表示市場占有率的累計百分比。曲線彎曲程度越大，說明市場的集中度越高。即基尼系數越大，市場集中度越高，說明少量的企業可以占據著某行業的大部分市場。國外學者依據基尼系數的大小將市場集中程度劃分為如下標準：分解競爭型：G≤20％；一般競爭型：20％≤G≤40％；一般集中型：40％≤G≤70％；寡頭競爭型：G＞70％。
　　1.4　農業科學——作物核心種質的確定
　　農業科學中核心集的確定，非常類似于圖書情報學中的核心期刊的確定，農業科學中提出了核心種質（Core Collection）的概念，核心種質是指采用一定的方法，選擇整個種質資源的一部分，以最小的資源數量和遺傳重復，最大限度地代表整個種質資源的多樣性，從而方便于種質的保存、評價與利用。確定核心種質的目的是確定一組可以代表某一種重要植物的遺傳多樣性、不同類別的樣品或類群；是為了作物種質資源的保存和利用，是為了選育高產、優質、抗逆的新品種[6]。
　　概括地說，作物核心種質是采取分層、分組，確定各組中核心種質所占的比例，再在各組中進行聚類，在各類中抽取具有代表性的種群的方法。本文以茶樹核心種質構建方法為例，說明作物核心種質確定的方法。
　　1）建立評價指標體系。根據研究對象，確定不同的層次和組數。如在茶樹核心種質構建時，可以分為4層：第1層為基本數據（如原產地分為4個地區），第2層為特征數據（如樹型分為喬木、小喬木和灌木），第3 層為品種類型（如分為有性和無性兩種），第4層為農藝性狀，即評價指標。這樣得到若干個組（這里為4×3×2＝24組），如華南—喬木—有性為一組，華南—喬木—無性為一組，以此類推。
　　2）評價指標的采集及處理。本例需要采集三方面的數據：基本數據（原產地）、特征數據（如：樹型）、農藝性狀（如：葉形、樹姿、葉色、葉面、葉尖、芽葉茸毛、花瓣數、花柱分裂數、百芽重）。農藝性狀數據是作物質量的重要評價指標，其中有數值型指標，有非數值型指標，對非數值型性狀的不同表現要進行賦值，如葉形：1＝開展，3＝半開展，5＝直立，對葉面、葉尖也使用類似的方法進行賦值。對于正指標，賦值數越大，其農藝性狀越好。
　　3）計算各組的遺傳多樣性指數。確定遺傳多樣性指數目的是評價物種的質量，當一品種具有較高的遺傳多樣性時，說明該品種具有較多的遺傳信息，保存這樣的品種有利于物種的繁衍和優育。一般采用Shannon-Weaver信息指數計算性狀多樣性，即

為某性狀第j個代碼值出現的概率。
　　4）確定核心集。首先確定核心集的大小。一般按各組選20％為核心樣品的原則，并根據多樣性指數和資源擁有量進行適當的調整，指數高的組適當增加取樣數，資源擁有量多的組適當增加取樣數（如在所有收集的樣品中，“華南—喬木—有性”組比“華南—喬木—無性”組具有更多的樣品，則應增加前一組的取樣比例）。在各組內，利用離差平方和法或其他方法進行聚類，并根據確定的取樣比例確定類群的多少，在每一類群中隨機抽取一份資源作為預選核心樣品，再增加一些特殊種質材料作為核心集。
　　5）核心集的代表性檢驗。第一，對多樣性指數進行t檢驗，以保證所選的核心集對全部收集品變異的代表性。第二，對核心樣品的農藝性狀檢驗，以確定核心集能否很好地代表原種質群體的遺傳多樣性。
　　1.5　基于Conglomerate概念的核心集確定的理論及方法
　　Egghe和Rousseau提出了概念——Conglomerate[7]。Conglomerate的英文含義是：密集體、團、混合物，根據其含義，將其譯為資源團簇。
　　Egghe等人是這樣定義的：對于一組資源（Resource），這些資源產生或未產生項（Item），這樣的結構稱為資源團簇（Conglomerate）。根據這一定義，可以隨意構建資源團簇，例如：n個期刊是一組資源，每個期刊中發表某學科論文數為資源產生的項，這樣的一個結構便是一個書目的Conglomerate；又如，n篇科學文獻是一組資源，文獻中的參考文獻是資源產生的項，這樣的結構也構成一個Conglomerate。
　　基于Conglomerate概念的核心集的確定方法如下：N個資源的Conglomerate，其中的資源按其產出遞減排序，構造某種集中測度C（如基尼系數、集中度信息熵、變差系數、辛普森集中度），在該集中測度下，定義模糊成員值m（S[,i]），滿足

個資源為核心。
　　2　核心集確定方法的比較
　　從上述可以看到，各個學科在構建各自領域的核心集時，既有非常大的差別，又有某些共有的理論及方法，但各種方法都存在各自的優點及缺陷。
　　馬太效應是核心集存在的理論基礎。正是因為馬太效應現象的存在，事物的分布才具有集中與分散現象，才有核心集的存在。
　　馬太效應只能說明社會生活中某個事物常常存在一個核心集，但無法說明核心集的大小，盧梭定律和“20∶80”律可以說是馬太效應的定量表述，因簡單易用，在社會科學領域的應用極其廣泛。早期在圖書情報領域也有應用，如1969年圖書館學家特魯斯威爾（R. Trueswell）提出了文獻館藏管理的“20∶80”律，即“流通量的80％由大約館藏量的20％所提供”；英國圖書館學家伯勒爾（Q. Burrell）經過實驗，發現20％～40％館藏支持80％的流通量。但也有一些學者的研究數據并不能很好地與盧梭定律或“20∶80”律擬合，因此，不能將這兩個定律視為嚴謹的定量規律，應該采取宏觀的、粗線條的態度使用它們。
　　圖書情報學領域確定核心資源的方法較為多樣，但基礎理論是布拉德福定律。布拉德福定律實際上只是一個經驗性定律，多年來，該定律雖然被圖書情報機構廣為使用，但其合理性卻一直處于爭議中，許多研究者對該定律進行了改進或推廣，但一直未取得突破性進展。近年來，一些研究者試圖將這一定律應用于網絡資源的集中與分散研究，有些研究發現網絡資源分布符合布拉德福定律[2]，但另一些研究發現網絡資源分布與布拉德福定律不符[8]，因此，本文認為布拉德福定律用于傳統資源評價時，其可靠性要經過實踐檢驗，不同學科的擬合程度是不同的，但對于網絡資源的分布，更不能輕率地使用這一定律，畢竟目前尚無科學理論證明網絡資源的分布符合布拉德福定律。
　　隨著技術的發展，數據采集更為方便。各種引文數據庫的建立，使引文數據的采集變得方便易行；網絡數據庫的使用，使人們能準確地統計下載量、訪問量、載文量等數據；因此無論是在傳統資源的評價還是在網絡資源的評價上，引文法、利用率法、綜合評價法都將得到更多的應用。但引文法、利用率法、綜合評價法用于核心集評價時常常無法從統計學的意義上確定核心集的大小，以保證核心集的代表性。如我國北京大學圖書館研制的《中文核心期刊目錄》，核心的數量都是人為界定的。
　　經濟學中核心集的確定更多地使用了統計學的理論與方法，構造了更多的集中測度，如基尼系數、集中度信息熵、變差系數、辛普森集中度等來描述集中與分散現象。但這些集中測度在處理實際問題時，均存在這樣那樣的缺陷。
　　以應用最為廣泛的洛倫茨曲線和基于洛倫茨曲線的統計量基尼系數來說，從其方法的函數值性質上看，會出現扭曲現象，如由兩家各生產50％行業產量的企業所組成的產業，會與由100家分別生產1％行業產量的企業所構成的產業具有同樣的基尼系數，它們都是0，顯然，這兩個產業的市場集中度是不同的。另外，只要曲線和對角線所圍的相對面積大小是相等的，那么從兩條形狀不同的洛倫茨曲線還可以得到相同的基尼系數。赫佛因德指數可以改進基尼系數的缺點，但是赫佛因德指數也存在直觀性差，需要全面統計資料，其計算更為復雜的缺點。
　　農業科學中核心種質的確定方法具有很強的實用性和科學性。該方法具有以下幾個優點：
　　1）采用分層、分組、分類結構后，在各類中抽取有代表性的品種，這種方法特別適用于復雜系統的核心集的處理。例如在進行核心網站評價中，使用了相關網頁量、權威作者數、網站被文獻引用數這幾個指標進行綜合評價[4]。事實上，網站如果劃分為文摘型網站、全文型網站和混合型網站時，有些指標是有較大差異的，文摘型網站的權威作者數往往遠遠大于全文型網站，文摘型網站的被文獻引用量往往遠遠小于全文型網站。如果在評價核心網站時，借鑒核心種質分層、分組、分類的方法，就很順利地解決了這一問題，如第一層分為：專業網站、綜合網站；第二層分為：文摘型網站、全文型網站和混合型網站；第三層分為：英文網站、中文網站、法文網站等。在第三層下再設計網站的評價指標，最后在每一類中抽取有代表性的網站作為核心集元素。顯然，這種方法評價的結果與現實更為吻合。
　　2）核心種質確定的方法給出了核心集的代表性檢驗，用統計學的方法對核心集的代表性進行了檢驗，使該方法較其他方法更為科學嚴謹，也更為實用。
　　基于Conglomerate概念的核心集確定方法具有更強的通用性，適用于多學科的核心集的確定。該方法的優點在于：
　　1）早在20世紀80年代初，布魯克斯（Brookes）就曾用源（Source ）和項（Item）這兩個術語來代替布拉德福定律中的期刊和論文，然而，Conglomerate突破了傳統書目中源與項，它的優勢在于通用性、自定義性（人們可以根據不同的目的、不同的方法構造這樣一個Conglomerate）。它抽象地概括了多學科“核心”概念，適應了今天載體多樣化、研究對象多樣化的研究需求，本文提及的其他核心集的測定方法都未脫離具體的研究對象，其方法具有很強的學科研究特征，Conglomerate的提出以及在此概念下構建的核心集理論，使核心集研究向前邁進了一大步。
　　2）布拉德福定律、盧梭定律、巴特萊法則確定核心的數量只能稱得上是經驗性定律，而基于Conglomerate概念的核心集理論卻運用了統計學、經濟學的相關理論，創立了更為科學的核心集確定方法。
　　3）用戶可以根據需要自由地選擇集中測度，如基尼系數、集中度信息熵、變差系數、標準化的變差系數及辛普森（Simpson）集中度。
　　4）雖然在該方法中核心的取值仍是彈性的，用戶可以根據需要選擇不同大小的“核心”，但該方法給出了這個核心集是在什么測度之下、什么樣的p ％值下得到的核心數量。
　　該方法的缺點是：
　　1）考察了資源產出的項的數量，卻未考慮項的質量，因此，基于Conglomerate概念下評價的核心集是統計學意義上的核心集，正如布拉德福確定核心期刊的方法一樣，只考慮了每個期刊上發表的文獻數量，而未對文獻的質量進行考察。重“量”不重“質”是該理論的主要缺陷。
　　2）在實際應用中，該方法有時可能得不到理想的結果，有時可能沒有合理的p％，即不能明顯體現“少量的資源具有大量的產出”這一要求。Egghe本人也發現有這樣的例子，當使用信息熵測度時，如果模糊成員值百分比取95％和90％，只有一個資源，當模糊成員值百分比取50％時，才能得到一定的資源數，不能明顯體現“少量的資源具有大量的產出”這一要求。因此，盡管理論上可以根據需要取不同的p％，可以根據需要使用不同的集中測度，但是在實際應用時均要在滿足“少量的資源具有大量的產出”時，才能確定較為合理的核心。
　　本文認為，盡管該方法不能反映資源產出項的質量，但是在許多情況下，可以采取一定的方法進行修正，以實現質與量的統一。
　　例如，當資源為大學，資源產出為論文數時，如果單純使用該方法，則可能會導致發表大量低水平論文的大學進入核心集，而注重于高水平研究的大學甚至可能進不了核心集的現象。這時，可以采取如下方法，根據論文的等級作為數量上的當量，如1篇核心期刊論文相當于3篇一般期刊上的論文，這樣使原來的大學產生論文數變成融入質量評價的當量論文數，再使用此方法，則會改善重量不重質的缺陷。當然，對于不同的研究對象及研究目的，使用何種質量評價指標進行數量上的當量運算，仍需要具體情況具體分析。
　　3　結語
　　核心期刊評價、核心網站評價、核心館藏評價、核心人力資源的評價、核心競爭力的評價、核心產品的評價、核心物種的評價等越來越引起人們的關注。簡單的定性評價已滿足不了生產實踐的需要，多學科形成截然不同的核心評價理論與方法，給核心集的研究提供了更堅實的理論和更多樣的方法。
　　但是應該看到，封閉在學科內部的方法均存在各自的缺陷，迄今為止，尚無一種公認的完美的確定核心集的方法。打破學科壁壘，取長補短，將會對完善和發展核心集理論及方法起到一定的作用。
　　收稿日期：2006—05—09
情報理論與實踐京547～551G9圖書館學、信息科學、資料工作袁毅/封雷20072007
核心集/評價/理論方法/比較研究
社會科學、圖書情報學、經濟學和農業科學等學科均存在“核心”的評價與確定問題。本文系統研究了各學科核心集構建的理論與方法，分析了各種方法的優點及存在的問題，提出了融多學科研究方法，取長補短，完善核心集構建理論與方法的思想。
作者：情報理論與實踐京547～551G9圖書館學、信息科學、資料工作袁毅/封雷20072007
核心集/評價/理論方法/比較研究

網載 2013-09-10 21:36:26

[新一篇] 杜威論道德與人性

[舊一篇] 梁啟超“趣味”說的理論構架和現實意義