• 赵丽颖全直播首秀 看YY LIVE如何玩出花式营销 不要轻易放弃。学习成长的路上,我们长路漫漫,只因学无止境。


    【择要】美剧影视的传播影响了多量英语深造者,对美剧里的人物、台词、情节等的分析如火如荼。目前国内还不建成可用的美剧语料库,平行语料库的研究也是希望迟缓。因此本项目建设了一个小型的美剧双语平行语料库,期望为语料库翻译学的研究供给平台根蒂基础。论文论述了平行语料库的设计历程,从语料的采集加工、标注对齐、软件使用等方面详细分析,给语料库爱好者们供给建库指南。【Abstract】ThespreadofAmericanmoviesandTVplaysagreatinfluenceonalargenumberofEnglishlearners.Theanalysisofcharacters,linesandplotsintheAmericandramaisinfullswing.Atpresent,thereisnoavailablecorpusofAmericandramainChina,andtheresearchofparallelcorpusisdevelopingslowly.SothisprojecthasbuiltasmallbilingualparallelcorpusofAmericandramas,hopingtoprovideaplatformforthestudyofcorpustranslation.Thispaperexpoundsthedesignprocessoftheparallelcorpus,analyzesthecollectionandprocessingofcorpus,labelalignmentandsoftwareusage,etc.,andprovidesdatabaseenthusiastswithalibraryguide.【�P键词】美剧字幕;平行语料库建设;双语语料【Keywords】Americandramasubtitle;parallelcorpusconstruction;bilingualcorpus【中图分类号】H315.9【文献符号表记标帜码】A【文章编号】1673-1069(2018)07-0094-021弁言自20世纪80岁月以来,美剧在中国大陆传播成长已有38年。美剧在我国从小众独享到网络热播,正迈向全民化。先生是美剧的受众群体之一,经过历程寻觅美剧中的话题与外国人举办跨文化的交流;寓目美剧不只给人带来视听享用,而且相比教材文本,可以 呐喊学到最新合用的辞汇用法及白话表白;借助美剧可以 呐喊理解美国的政治、历史、文化、社会和美国人的日常生活等学识。语言是不断更新成长的,综上,美剧是深造英语最鲜活生动的材料。但是由于网络传播中的美剧作品不带有中文字幕,这就催生了一批字幕通译员,只管翻译出了美剧台词的主要意思,但翻译品质难免良莠不齐。这就引出了对翻译尺度、译者风格和翻译战略等翻译学的研究,美剧语料库的建设是呼天喊地始出来。因此,建设一个美剧字幕翻译英汉语料库可为后来的影视翻译研究供给平台根蒂基础[1]。语料库是以计算机为载体承载语言学识的根蒂基础资源;寄放的是现实使用中实在出现过的语言材料。这些实在语料要经过加工措置,才会成为有研究价值的资源。语料库仰仗电子计算机驾御细碎和相干语料库软件,对所收集语料举办赋码和标注措置,实现语料的自动存储、检索和统计(胡开宝2011)。双语平行语料库可以 呐喊使两种或两种以上的语言对比,具备微观研究和微观研究联合的下风。语料库尤其是平行语料库作为一种研究工具,在语言学研究,尤其是翻译学、天然语言措置以及机器翻译等研究领域起着愈来愈不成替代的作用[2]。2美剧字幕平行语料库的全体设计思路2.1设计偏向近年来英语国度的影视作品对英语深造者产生了影响,尤其台词的模拟在语言交流中随处耳闻。迄今为止,国内还不该领域建成可用的美剧字幕语料库。在遴选语料库类型时,依照研究需要,遴选能匹配美剧字幕翻译的双语平行语料库。王克非(2004a)指出平行语料是由源语文本及其平行对应的译语文本构成的双语语料库。与其他语料库相比,平行语料库的下风在于能自动浮现两种或两种以上的语句对应关连。建设美剧字幕库的偏向是为了后续在此平台的根蒂基础上举办研究:①翻译语言个性和尺度研究;②美剧的白话鄙谚研究;③美国社会文化的反应;④译者风格和翻译教养等研究。因此,本项目组自建一个小型的美剧字幕翻译英汉双语平行语料库,以补偿该领域的空缺[3]。2.2语料库领域人们遍布认为语料库领域越大,就越有研究语言使用的价值,但是任何语料库只代表关于语言使用现状的小样本(胡开宝2011a)。以是应依照设计偏向和语料库属性来确定语料库领域,不成盲目求大。由于措置难度高,平行语料库的成长一贯滞后于其他类型语料库,而且平行语料库耗损多量时间和肉体,故本项目建设一个容纳100万词的小型美剧字幕平行语料库,以共时性为主,即主要收集二十世纪后半叶和二十一世纪的有影响力的语料,担保语言文本的新颖和经典。2.3语料库属性语料库依照收录语料内容的不同分为四种:异质型(Heterogeneouscorpus)宽泛收录各种语料;同质型(Homogeneous)只收集同一类此外语料;细碎型(Systematic)选用的语料有均衡性和细碎性,反应语言的全貌;专用型(Specialized)是为特定用途而建立的语料。本语料库属于同质、专用型,主要抽样采集几部摩登热播美剧和经典影片,对英语深造者有影响的和受同学们喜闻乐道的影视字幕,如《纸牌屋》、《权益的游戏》、《摩登家庭》、《乱世佳人》美剧。3美剧语料的采集和措置采集语料在人人影视、字幕库等网站下载字幕文件包,解压文件包举办遴选,留下汉语和英语的简写文本。大都字幕文件的英汉双语在一个文件里,需要家养脱离将英语和汉语另存一个文本,而后用计算机软件对语料举办去噪和加工。3.1语料初加工选用的文本编辑软件是Emeditor,其驾御便捷,撑持多种配置。用此编辑器举办文本污染,清除时间轴和字体代码等喧华的信息,数字和不必要的空格以及符号也清除,之后务必在篇头处保存译者的名字。此驾御的辅佐成效为计算机的搜索和替换成效,使用正则表白式批量措置,偏向是担保英语和汉语的句子匹配对齐。由于下载的字幕包里汉语部分不标点,以是对着英语部分句对句的手动添加标点,这也是平行语料库耗时耗力的缘由之一。措置完毕后举办语料的初步校对,清除杂质,将无法匹配的影视剧中出现的专有名词如场景、地名等删除,而后将英语和汉语分离存在一个文件夹里,存储花式为txt花式,文件名标写了了的美剧名称。3.2标注和措置所谓标注(也称附码)把各种默示语言个性的附码标注在相应的语言成分上,便于计算机识读。无论是计算机自动仍是家养标注,都不克不迭削除失误(余国良2009a)。标注分为词性标注、词义标注、句法标注和语篇标注,经过历程这些加工,语料才变成有哄骗价值的研究材料。本项目选用了词性标注,即用词性符号符号表记标帜单词的词性,如动词,形容词。针对汉语语料,用汉语词性标注工具软件,该使用法式驾御便捷,可批量措置文件。打开软件加载汉语文件夹,遴选要措置的文件,点击开始切分标注,瞬间失掉标注胜利的汉语语料。针对英语语料,使用的软件为TagAnt,每次只能措置一个保存为utf-8花式的文档。点击inputfiles遴选要措置的英语语料,按start瞬间失掉标注胜利的英语语料。而后打开标注后的语料,在英汉双语的句号、问号和叹号处加之\n分句符号,可用计算机的查找替换成效驾御,勾选正则表白式是批量措置。4语料库的平行匹配4.1语料对齐和校对ParaConc是富强的语言分析软件,可以 呐喊措置无限量的平行语料;可以 呐喊保存或打印检索下场为纯文本文件;可以 呐喊实现多语言文本的对齐,热词搜索,词频统计等成效。打开软件,起首在菜单里勾选LoadCorpusFiles,在ParallelTexts栏目里遴选语言种类 品行,点击Add添加文本。最后遴选所需的对齐花式(AlignFormat),点击Ok。其次在菜单里遴选ViewCorpusAlignment,选中文档点击Alignment,便可看到文本的平行状态。计算机对齐有很大误差,需要家养校对每个句子的匹配,当发现一对多或多对一时,点击鼠标右键举办句子的合并或脱离。当发现句子里有多余符号或误差很大时,前往原语料文本,污染噪点,即从头驾御,直到美满对齐,以便当检索。4.2语料保存和检索语料的保存有两种体式格局。一是点击file菜单里的saveworkspaceas,天生两个分离以BIN和PWS为名字后缀的文件。Workspace的两个文件不克不迭挪移位置,会由于更改道路打开失败;二是点击file里的exportcorpusfiles,在文件名前加之A-,保存到文件夹中。导入语料后,举办语料库的搜索成效,打开Search菜单,遴选语言类型和输入要找的字符。鼠标移到搜索的文档区域,点击右键勾选HotWords,即显现热词。5结语语料库翻译学蒸蒸日上,而平行语料库是合适翻译研究的最好平台。建设平行语料库难度较大,步调多且耗时耗力,且不克不迭担保完全不误差。本文将建库历程和体式格局部分展示出来,这个小型美剧字幕英汉平行语料库是举一反三之作,等候业界研发出更美满的计算机软件,探求出建设平行语料库更便捷的体式格局。【参考文献】【1】王克非.双语对应语料库研制与使用[M].北京:外语教养与研究出版社,2004.【2】刘瑞.影视对白平行文本语料库建设[J].河南科技,2017(11):31-33.【3】胡�_宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011.

    上一篇:酒店装饰趋势之我见

    下一篇:闭于财务分监委派造实行中无闭题纲的念考