摘 要 : 本文简要介绍了语料库的概念,强调了标注语料库在语言教学中的用途,并用大量的语言证据从词语搭配、词类搭配等方面说明语料库对基础教育的意义
同时,文章提出了应加强基础教育领域的语料库研究,使语料库能在该领域内发挥更大作用,促进我国英语基础教育进一步发展
prefix = o ns = "urn:schemas-microsoft-com:office:office" / 关键词 :语料库;英语基础教育;语料库应用 一、语料库的概念 语料库的使用早在几百年前就开始了(Kennedy 2000: 13-15)
但是,过去的“语料库”是非计算机操作,人们把需要的句子抄在卡片或纸条上,然后对其检索
所以,这种现象我们只能称之为语料库方法,而非现代意义上的语料库
有人把语料库定义为语言材料的仓库,该定义远远不能说明语料库的特征
语料库以计算机检索为手段
计算机有一个强大的检索功能,这是人所不及的
语料库中聚集了大量文本,而计算机对任意大的语料库进行检索易如反掌
所以,有人认为术语“语料库语言学”应为“计算机语料库语言学”(Leech 1997: 1)
语料库文本的收集是按照某些原则进行的
英国国家语料库(British National Corpus,以下简称BNC)的书面语占总库的90%,口语占10%,整个库的结构如表1所示
Brown语料库不包括口语,书面语的收集方法和BNC有很大不同,其结构见何安平(2004:141-143)
BNC的文本长度参差不齐,长的达436 048个单词,短文本只有25个单词;而Brown把文本的长度固定在2 000词左右,超出则删除
LOB(与Brown结构相同)语料库的文件长度平均为2 013单词左右
表1BNC文本结构信息 语域 总码数 文档总数 形符数 applied science 7 104 636 370 7 424 216 Arts 6 600 741 263 6 939 259 belief and thought 2 972 665 145 3 087 156 Commerce 7 257 529 295 7 565 415 Imaginative 16 386 486 477 17 548 572 Leisure 12 139 853 437 12 662 241 natural sciences 3 784 273 146 3 934 819 social science 13 906 177 527 14 482 806 Spoken 10 341 729 910 10 425 409 world affairs 17 116 377 483 17 870 882 world news 15 627 1 16 367 total 97 626 093 4054 101 957 142 语料库分为生语料库(raw corpus)和标注语料库语料库语言学中“标注”、“赋码”、“附码”、“标识”、“标记”等均指对语料库内容标以识别信息,以便专用程序对其进行统计查询等
相应的英语术语(动词)有annotate, tag, parse, encode, markup, bracket等
本文统一使用“标注”这一说法
(annotated corpus),前者只是电子库(electronic archive),而利用标注语料库,不仅可以研究词语搭配,还可以研究词类搭配
标注就是文本标记词性码、语法码、语义码等,是语料库建设的重要阶段,是对文本增加语言信息的过程(Hunston 2002: 79-80)
例如BNC [DCK.104]即文档DCK中的104行
中的一个句子:
利用生语料库,可能的查询为Possibly so这样的搭配情况
但so前面还能使用其他什么副词,利用生库无法知道
利用标注语料库可以很容易找到和so搭配的其他副词:right / just / quite / much / more / rightly / a bit / actually / alright等
这些语言信息就是在有词性码的情况下得到的
所以,从语料库中提取语言信息时,码的作用不可比拟
语料库使用的语言材料应该是真实的
学习者语料库就应该体现出学生使用英语的原始情况,包括错误句子、拼写等
李文中多次批评“大学英语教材语料库由薛学彦建立的教材语料库
目前该库收集930个文本,近80万词容的语料,该库建设的第一阶段于2004年4月完成,包括结构标注和词性标注
”的真实性
他认为教材中的文本和原始文本相去很远,是经过编写人员改编的,从真实性的角度来讲已不能代表其原始文本个人交流
总之,语料库的概念不是一个简单的语言材料的仓库,不是简单的文本量的增加
它涉及到取样、文本量、标注、甚至相关软件开发等问题
二、语料库应用与基础英语教育 20世纪90年代以后,语料库和语料库语言学发展很快,原因是计算机硬件的普及和发展
世界上第一个计算机语料库Brown用了10年的时间尚未完工,而现在建立一个同样大小的语料库就易如反掌
目前,语料库的应用主要在辞书和其他工具书的编写,而且,欧洲国家远远领先我国的研究
朗文等几个大的出版社已出版几种有影响的、基于语料库的字典和工具书,我国的出版社在这方面的工作还很薄弱
从应用层面来讲,语料库应用更应该在教学方面,尤其在基础教育领域
从语料库语言学著作和其他研究成果中得知,常用词汇应该是语言学习的重心,而这些常用词语教学恰恰是在基础教育阶段
有研究表明,英语中出现频率最高的1 000个单词,覆盖全部语料的80%左右(见桂诗春1988: 19-20;Kennedy 2000: 96)
表2是根据一个近5千万词的语料库统计出来的结果
大学英语教材语料库中出现频率为1次到2次的单词,占全部类符的50%;BNC的数据表明,出现频率为1次到2次的单词,占全部类符的60.2%
表2单词(类符)在语料中的使用比率 频率最高的类符 占总形符的百分比* 频率最高的类符 占总形符的百分比* 100 52.77 4 200 88.12 1 000 76.06 5 500 90.09 1 800 81.19 6 500 91.23 2 000 82.1 10 000 93.84 3 000 85.49 total: 192 656 100 4 000 87.75 * 说明:出现频率最高的前100个类符占总形符(即全部语料)的52.77%,等
Sinclair和Renouf(1988,见卫乃兴 2002:26)认为,词语应当在教学大纲中占据中心地位
Alexander(1984,ibid.)也认为应以一种系统的方法对待词汇教学,其中,词组的学习,包括成语和种种固定表达方式,应是教学的起点
他建议教学过程中应重视“搭配”这一语言现象