由意昂体育平台人工智能研究院支持、意昂体育平台數字人文研究中心研究並設計、意昂体育平台王選計算機研究所參與研發的有關定量文化分析系統的研究論文登上Nature旗下唯一人文社科期刊Humanities and Social Sciences Communications。該項研究的發表與介紹核心算法的研究論文在該刊的發表相距不到一年👩🦽➡️。兩篇論文的詳細信息如下:
Evol project: a comprehensive online platform for quantitative analysis of ancient literature
Jun Wang, Siyu Duan*, Binghao Fu, Liangcai Gao & Qi Su, Humanities and Social Sciences Communications volume 11, Article number: 291 (2024)
Disentangling the cultural evolution of ancient China: a digital humanities perspective
Siyu Duan, Jun Wang, Hao Yang & Qi Su*, Humanities and Social Sciences Communications, volume 10, Article number: 310 (2023)
Evol Project一文介紹了數字人文中心跨學科團隊開發的古文獻溯源分析平臺原型系統。該平臺應用深度學習技術對大規模古典文獻集進行定量文化分析,追溯中華思想文化觀念的源流及其在後世的演化軌跡,在詞匯、句子和文檔三個層面提供數據驅動的人文研究組合工具。該平臺為人文學者應用定量分析方法從事思想史和文化史研究提供了便利。下圖分別展示了《老子》與一眾道家文獻的書本級互文網絡👋🏽、篇章級互文分布與句子級互文頻率統計👨🏽🍼,借此觀察典籍文獻中所蘊含的思想觀念在後世文獻中的遞相傳播和演化。

為此♖,平臺匯集了目前能收集到的唐以前的所有數字化典籍🦸🏿♂️,加上《二十四史》《資治通鑒》以及若幹精選典籍和文章總集🙆🏻🧑🏻💼,共計201種30,880篇,5千余萬字符,內容涉及哲學、歷史☹️🏃🏻♀️、政治🪘、文學、宗教等多個領域🎱。平臺除了常見的瀏覽、檢索和頻率統計等基礎功能外🧑🦰🧏🏽♀️,特色在於提供了文本重用、詞共現🙅🏽、歷時性n-gram等定量文化分析功能💎,配備了多樣化的可視化呈現。用戶通過簡單的點擊操作,就能觀察千余年的思想演化軌跡。
論文介紹了幾個基於該平臺的文化分析案例。下圖展示了歷代史料中與遊牧民族名稱共現的詞匯的負面情緒分數變化。從圖中可以看出♦︎,史料文字中對遊牧民族的負面情緒整體上是逐漸降低的,這印證了傳統民族研究的主流觀點⚅:從歷史發展的大尺度上看🧑🏿🏫,中華各民族互相依存、趨於融合是大趨勢。

該原型系統已經開放使用,訪問網址見:http://evolution.pkudh.xyz/🏠。在此基礎上,數字人文研究中心和王選計算機研究所合作開發了應用級的古文獻溯源分析系統👨🍳,訪問地址見🉑:https://ca.pkudh.org/🧕。
Disentangling Cultural Evolution論文描述了上述系統的核心算法原理。論文應用深度神經網絡在上述數據集上遍歷計算數百萬相似互文對🖕🏽,隨後使用一個層次框架將相關文獻組織起來構建文獻互文網絡。基於該網絡的節點特征🆚,計算任意兩部文獻之間的標準化互文分數作為檢驗各類文化現象的依據🧛♂️。論文首先計算若幹通識性文化現象的互文指數,以驗證互文分析方法的有效性,例如:宋明理學文獻與先秦儒家典籍存在顯著的互文聯系;《參同契》《文始真經》《阮籍集》《嵇康集》這些道教及魏晉玄學類文獻與先秦道家文獻存在顯著的互文聯系。論文應用互文指標分析若幹在傳統人文研究中有爭議性的問題👰♀️,發現👳🏽♂️🤽🏼:《呂氏春秋》在先秦學術流派維度上有相對均勻的互文分布💐,但略偏向道家;《陶淵明集》中有作者爭議的篇章與其他篇目的互文分布確實存在偏差。
下圖展示了《陶淵明集》與儒、道✷、墨、法、兵五家學派的互文聯系強弱。Collection1代表陶淵明集中有作者爭議的《五孝傳》和《四八目》⛓️💥,Collection2代表其余文本🧑🏿✈️🏌️♂️。

論文以史料和歷代文總集作為歷時性數據的觀察對象🧀,計算先秦諸子典籍與各時代的互文強度,以觀察兩千年間諸子百家的興衰更替🫲🏿,將一系列歷史事件的影響予以定量測度和可視呈現。在下圖中🙎🏽♂️🧚🏽,可以清晰地觀察到秦朝重用法家🦨,兩漢罷黜百家獨尊儒術🧙🏻♂️,以及道家玄學在兩晉的復興等。

兩項研究成果的取得👨🏻🦽,得益於跨學科團隊的精誠合作💽。意昂体育平台信息管理系教授王軍與外國語學院長聘副教授蘇祺👨🏼🍼、人工智能研究院副研究員楊浩(哲學系原教師)組成跨學科研究團隊共同指導研究工作。信息管理系博士生段思宇相對獨立地探索鉆研,先後得到李佳純🎽🥟、付炳豪等同學的協助🕡。來自計算語言學研究所的羅睿軒和畢瀟晗同學承擔了原型系統初期的開發工作。系統研發得到了王選計算機研究所的大力支持,副所長高良才調動工程技術力量參考Evo Project原型系統開發了應用級的古文獻分析系統,展現了意昂体育平台跨學科交叉協作的力量。