《雾都孤儿》的语料库分析

(整期优先)网络出版时间:2021-09-29
/ 2

《雾都孤儿》的语料库分析

田原

(四川师范大学外国语学院,四川成都 610068)

摘要: 为了研究《雾都孤儿》的内在涵义,作者对《雾都孤儿》的英文文本进行语料库分析,包括统计分析、词频分析和词汇聚类分析。

关键词: 语料分析; 雾都孤儿; 词频分析

The Corpus Analyses of the Text of Oliver Twist


TIAN Yuan

(School of Foreign Languages,Sichuan Normal University, Chengdu, Sichuan 610068, China)


Abstract: For the potential implications of Oliver Twist, corpus analyses of the text are performed: statistics analysis, Word frequency analysis and Word cluster analysis.

Key words: corpus analysis, Oliver Twist, Word frequency


《雾都孤儿》是英国作家查尔斯·狄更斯于1838年出版的写实小说。以雾都伦敦为背景,讲述了一个孤儿悲惨的身世及遭遇,主人公奥利弗在孤儿院长大,经历学徒生涯,艰苦逃难,误入贼窝,历尽无数辛酸,最后在善良人的帮助下,查明身世并获得了幸福。我们对《雾都孤儿》的英文文本进行了语料库分析。


一,统计分析

使用统计工具WordSmith Tools,我们得到了《雾都孤儿》的文本统计数据。以下是统计结果的部分摘要。

N Overall 1

text file Oliver Twist.txt

1-letter words 7,726

2-letter words 27,576

3-letter words 38,853

4-letter words 31,342

5-letter words 17,893

6-letter words 13,362

7-letter words 9,913

8-letter words 6,529

9-letter words 4,421

10-letter words 2,423

11-letter words 1,164


二,词频分析

词频分析(Word Frequency Analysis)是文本分析的主要方法,其基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。我们对文本进行了词频分析。代词如he, him, her等功能词具有高频率,因此省略了这些功能词。以下是按照降序排列的高频率的一些实义词。

N Word Freq. %

16 SAID 1,232 0.76

17 HAD 1,225 0.75

20 MR 1,080 0.67

25 OLIVER 875 0.54

56 REPLIED 464 0.29

57 OLD 448 0.28

58 OUT 414 0.26

61 MAN 398 0.25

62 BUMBLE 397 0.24

67 SIKES 354 0.22

68 Gentleman 337 0.21

70 TIME 333 0.21


从这个频率表中,我们可以看到:出现频率最高的四个实义词是Said,Had,Mr.,Oliver。奥利弗作为《雾都孤儿》的主人公,是一个敏感温柔,但又不失勇敢坚强的男孩。从小在济贫院生活的奥利弗饱受欺凌,但却始终保持了一颗纯真善良的心。当他到了伦敦的时候,被带到了费金的家里。费金机关算尽想让奥利弗走向黑暗。虽然奥利弗出生于苦难之中,在黑暗和充满罪恶的社会中成长,但在他的心中始终保持着一片纯洁的天地和一颗善良的心。


三,词汇聚类分析

词聚类分析是通过文献聚类统计的方法,确定词之间的联系密切程度,并将距离较近的主题词聚集在一起,“形成一个个概念相互独立的类团,使得类团内属性相似性最大(Ullmann, 1957: 30)”。使用单词聚类分析,我们发现出现频率最高的三个动词是said、had和are。

N Word Freq.

16 SAID 1,232

17 HAD 1,225

71 ARE 325

77 KNOW 297

88 COME 255

said出现了1,232次,是出现频率最高的动词;had出现了1,225次,是出现频率最二高的动词;are出现了325次。经查询,said和had主要体现其语法功能的作用,对于小说人物刻画的意义不大。

词汇类聚分析能够揭示出作者的写作特征。值得注意的是:动词come的出现频率很高,而下面两个句子中却都出现了另外一个动词redeem。redeem意思是“从苦难或罪恶中得到救赎”,这反映了奥利弗经历的种种磨难并不能使他堕落,反而更显示出他出污泥而不染的光彩夺目的晶莹品质。下面是动词come和redeem的同现集(concordance set)的一些样本。

N Concordance Set of COME

1 thought something might one day come of it too; and so redeem

2 still be redeemed. Nothing had come of it; and, as I tell

3 shoulder, “Blood! How things come about!” “The child was


N Concordance Set of REDEEM

1 The Time Arrives For Nancy To Redeem Her Pledge To Rose May

2 Ce, Whoever He Might Be, Would Redeem His Pledge, Most


最终,善良的小奥利弗历经重重困难后,终于雨后见彩虹。由此可见,狄更斯在《雾都孤儿》中,以高超的艺术手法描绘了包罗万象的社会图景,作品表现出揭露和批判的锋芒,贯彻惩恶扬善的人道主义精神,塑造出众多令人难忘的人物形象。


参考书目:

S. Ullmann. The Principles of Semantics. Glasgow: Jackson, 1957

Charles Dickens, Oliver Twist, New York Airmont Publishing Company, Inc 1963


作者简介:田原(1977―),男,汉族,四川内江市人,四川师范大学 外国语学院副教授,英语语言文学硕士,研究方向为英语语言学、文本分析。