浅谈关于中国日语学习者的中日对译语料库构建的研究

　　文章简述的是构建中的外语学习者语料库的一部分：中国日语学习者中日对译语料库的建设情况。介绍构建学习者语料库的四个主要阶段,即语言资料的收集、各种工具的开发、语料库的研制、语料库的分析。
　　一、引言
　　在开发计算机辅助语言教学系统（CALL System）的过程中，其准备工作之一是语料库的研制。语料库可以分成两种类型：母语语料库和学习者语料库（Learners Corpus）。其中学习者语料库特别受到语言教学邻域研究者的注目。目前，世界上的双（多）语语料库均为英语与其他语言的平行语料库，汉语与日语的平行语料库开发较少。随着信息社会的到来和中日交流的不断扩大，越来越多的语言研究者、教育者以及机器翻译研究者急需一个大型的中日平行语料库。为此，长沙民政技术学院是于2008年9月开始着手构建基于中国人日语学习者《中日对译语料库》建设的。这个项目是正在进行中的长沙民政职业技术学院外语学院外语学习者语料库建设项目中的一部分。
　　二、语料库构建的目的
　　本语料库构建的最终目的是用计算机同时检索中日文语料中的信息，以有助于从语言学角度对中国学习者的日语语言应用进行分析。这些语言分析工作是语料库建设的一个环节，同时对日语教学实践又有着直接的指导意义。
　　随着全球范围内对日语学习的需求，至今人们已开发了许多类型的日语教学系统。但是，能够认识到学习者第一语言（L1）的不同，而考虑到学习者的母语和目的语的差异，从这个角度开发的教学系统现在还很少。在这种情况下，要开发适用于以汉语为第一语言、以日语为目的语的语言习者教学系统，其初期工作就是首先构建一个中国日语学习者语料库。
　　三、本语料库的研究成果与特色
　　对译语料库与单语语料库相比，最大的特点是双语性和平行性。利用对译语料库进行各种目的的研究时，应该充分认识并有效利用这一特点。根据我们的实践体会，合理的利用译例，往往可以取得意想不到的效果。为此，对对译语料需要加以分类后，按不同目的重新组合以有效地利用。考虑到以上情况，我们决定构建一个以汉语为第一语言与以日语为目的语的中日双语平行的大型语料库，而且为了从多方面对学习者的语言错误进行定量分析，我们使用独自开发的工具来进行赋码操作。
　　四、研究方法
　　1.语言资料的收集方法。首先构建一个基于中国日语学习者的中日双语平行的大型语料库，收录至少有译文的汉语和日语平行语料1000万字，为兼顾多种研究目的，收录的内容以有研究价值的中日文学名著为主，兼收剧本、散文、政论文等其他文体的文章，原文和译文全文收录。为满足文学和翻译学学习者的需要，部分名著收录多个译本，语料错误率确保在千分之五以内。
　　2.编辑与电子化。编辑工作包括三个部分：（1）把手写的译文材料电子化，使其成为日中逐句对译的文件形式。（2）在每个文件上附上该学习年龄、性别、出生地、日语学习经历等的基本者的信息。（3）原则上以益冈隆志、田洼行则编著《基本日本语文法》的语法体系为基准，并参考有关中国日语学习者误用例的先行研究，来设计错误码的目录，并用其进行赋码操作。
　　电子化过程，是为了便于进行语料库分析和处理，把编辑完的文件变成XML形式。
　　3.语料库检索工具的研制。一个高水平的语料库需要一个高效率、多功能的检索工具。中日对译语料库要求其检索工具必须具备双语平行检索、关键词检索（KWIC）、句型搭配检索、抽象的句型检索等专用功能。为了满足此需要，拟在探明中日文版WINDOWS95/98的内码基础上，提出解决中日双语同窗显示和检索问题的方案，并开发一个可挂接于中日对译语料库的双语检索工具。该检索工具为窗口操作，界面友好；既对现有检索工具的优秀功能进行必要的集成，又根据双语语料库的特点增添必要的功能。
　　4.语料库的分析。中日对译语料库的研制是一项涉及语言学、翻译学、信息工程学和计算机科学的跨学科综合研究课题，其研究方法需要取自社会科学和自然科学。在选择语料、文本对齐、语料检索与标注加工方面，我们主张首先对文本语言进行深入研究，尽量吸收语言学、文学和翻译学的最新成果；在运用语料库进行语言研究方面，主张充分利用信息工程学的方法和计算机科学的最新技术，以达到以往的研究方法所不能取得的研究效率和成果。
　　五、结语与展望
　　中国日语学习者中日对译语料库是长沙民政职业技术学院外语学院外语学习者语料库建设的一个重要组成部分。下阶段，我们还会使用自然语言处理技术，并在分析从本语料库得出的学习者错误趋向的基础上，为中国日语学习者开发出能够自动生成学习菜单和教授信息的计算机辅助翻译教学系统。
　　
　　参考文献：
　　[1]徐一平,曹大峰主编.中日对译语料库的研制与应用研究[M].外语教学与研究出版社,2002.
　　
　　（作者单位：长沙民政职业技术学院外语学院）

推荐访问:语料库日语学习者浅谈中国