瞿秋白现代社会学马克思主义中国化方法独特性
瞿秋白的《现代社会学》是布哈林《历史唯物主义理论》的转译作品。从文本在马克思主义中国化中起到的作用来看,有研究者认为瞿秋白在转译的过程中对马克思主义哲学理论进行了系统阐述,并形成了独特的中国风格和中国特色。如路宽指出:“从在同时期各种文本中的地位来看,《现代社会学》是在中国最早系统阐述辩证唯物主义的论著。”[1]还有些学者认为,他的《现代社会学》第一次把辩证法与唯物论统一起来,推动了马克思主义在中国的传播[2]。从推动中国马克思主义社会学的建立来看,季甄馥认为瞿秋白的《现代社会学》阐明了社会学的若干基本问题,初步建构了中国的社会学理论体系[3]。还有学者认为,瞿秋白的《现代社会学》《社会哲学概论》等推动了马克思主义社会学的建立,堪称中国社会学的奠基人[4]。
至此,学术界主要从《现代社会学》对马克思主义哲学理论的系统阐述以及其推动马克思主义社会学建立的意义角度出发进行研究。但布哈林在《历史唯物主义理论》的导论部分称“历史唯物主义理论就是马克思主义的社会学”[5]7,“然而瞿秋白的社会学思想是在历史唯物主义指导下确立的,但又不能完全等同于历史唯物论。”[6]两者在一定程度上有差异性,因而也鲜未挖掘瞿秋白是如何对布哈林《历史唯物主义理论》进行有效取舍,以社会学理论为桥梁吸引人们接受和理解马克思主义并进行理论传播的。
而LDA最大的优势就是能够避免人为主观因素,实现提取文本隐藏的主题信息。因此本文将利用LDA主题模型,将瞿秋白转译的《现代社会学》与原文献《历史唯物主义理论》转化为能够识别的数据信息,通过聚类进行二者文本的比较分析,尝试发现瞿秋白在早期转译过程中进行马克思主义理论传播的独特性。
一、研究方法和数据说明
(一)研究方法
本研究运用到的主要方法是LDA主题模型分析技术,它通过计算机的科学算法能够识别大规模的文档或发现文本语料库中隐藏的主题信息,进而形成自动的主题提炼。其基本思想是:“文本看成是一系列潜在主题的概率分布,其中每一个主题都是隶属该主题的词条集的概率分布。”[7]通过将目标文本转化为能够识别的数据信息,LDA将用概率分布形式来表示每一篇文档若干主题的权重生成情况,在经过多次迭代之后,根据收敛最佳状况,最终输出多个不同主题的包含一定量概念词汇的词群,进行聚类分析。在进行LDA建模时,会预先对一些没有实际语义的词类进行剔除,比如大多依附于实词的副词、连词、助词、叹词等,只保留形容词、动词、名词。这样不仅能有效提高LDA模型的系统性能,还能够降低建模周期。针对文本语义分析而言,LDA所输出的结果非纯粹的统计数据,而是一组有意义的词群,人文社科学者能够依据这些词汇对文本进行更为准确的定性分析,克服人为研读的主观性,达到证实或证伪一些猜测。因此本研究将以这一技术作为核心研究方法,进而实现既定的研究目的。
具体到《现代社会学》与《历史唯物主义理论》的比较研究,由于其所包含的信息较为晦涩,通过LDA技术对著作进行主题分析,并运用定性分析和定量研究相结合的方式,便可以克服由于主观因素导致的干扰,使结论更具有说服力。同时借助主题模型技术,还可以实现对文本内容的归纳和文本分类,去除人工研读无法避免的主观性误差,发现一些以往研究的不足和未知点。
(二)研究过程和数据说明
首先是获取研究对象的电子文本,本次研究的电子文本来源为:《瞿秋白文集》(政治理论编)第2卷《现代社会学》(瞿秋白著,人民出版社,2013年09月)、《历史唯物主义理论》(布哈林著,人民出版社,1983年4月第1版)。
其次,对已获取的电子文本进行了能够使LDA建模识别的文本格式的转换。之后,对格式转码后的两个电子文本进行了处理:以句为单位,分别对其进行文本切分。由于瞿秋白《现代社会学》只对《历史唯物主义理论》前四章进行了转译,为了文本比较的客观性,选取了《历史唯物主义理论》的前四章内容与之进行比较分析。因此最终将《现代社会学》切分为1362个独立的文档、《历史唯物主义理论》切分为了1711句,并将切分后的文档建立为一个独立的语料库。此后,将已储存好的语料库输入LDA模型进行运算,进行多次反复循环调整主题数和迭代次数,使最终输出的结果达到最佳为止。经过多次的反复实践结果表明,本研究最佳的主题数为20个,主题的词汇量选取为20个,最佳的迭代次数为500次。从结果来看,最终输出的主题和词群很好地反映了该著作的内容和特征,方法有效。