您當(dāng)前位置:首頁 > 新聞資訊
人工智能驅(qū)動下的眾包翻譯技術(shù)架構(gòu)展望
時間:2019-11-08來源:佛山翻譯公司點(diǎn)擊:430次

  摘要:眾包翻譯作為數(shù)字化、互聯(lián)網(wǎng)化時代誕生的一種全新線上翻譯協(xié)作模式,在互聯(lián)網(wǎng)、人工智能技術(shù)的推動下迅猛發(fā)展。它跨越國家與地域之邊界,有效整合大眾智慧與社會零散資源,促進(jìn)翻譯產(chǎn)業(yè)化、社會化的同時提升其效率。近年來,眾包翻譯在社會、語言、政治、倫理等領(lǐng)域影響深遠(yuǎn),從翻譯倫理、翻譯定義、翻譯評估、翻譯技術(shù)等多個維度挑戰(zhàn)了傳統(tǒng)翻譯模式。本文結(jié)合 AI 時代背景,探討眾包對傳統(tǒng)翻譯實踐和理論帶來的沖擊,從譯前、譯中、譯后三個階段,以架構(gòu)圖的形式系統(tǒng)地勾勒了人工智能技術(shù)與眾包翻譯有機(jī)結(jié)合的可能方式及潛在機(jī)遇,并圍繞每個技術(shù)切入點(diǎn)分析其具體實施策略,以期對翻譯跨學(xué)科研究作出有益探索。

  關(guān)鍵詞:眾包翻譯;人工智能;認(rèn)知科學(xué);翻譯模型

  中圖分類號:H059 文獻(xiàn)標(biāo)識碼:A 文章編號:1000-873X (2019) 04-0126-09

  在信息互聯(lián)時代, 翻譯已不僅限于傳統(tǒng)意義上的語內(nèi)翻譯、語際翻譯、符際翻譯等,數(shù)字化擴(kuò)大了翻譯內(nèi)涵和外延,即 GILT= Globalisation(互聯(lián)網(wǎng)化)+ Internationalisation(**化)+Localisation(本地化)+Translation(翻譯)。正如 Cronin(2013)所揭示的:“翻譯正經(jīng)歷一場革命性劇變。數(shù)字技術(shù)與互聯(lián)網(wǎng)對翻譯的影響持續(xù)、廣泛且深刻。從自動在線翻譯服務(wù)到眾包翻譯的興起,以及智能手機(jī)上翻譯應(yīng)用程序的普及,翻譯變革無處不在?!雹傥阌怪靡?, 信息科學(xué)、 人工智能(Artificial Intelligence,AI) 與翻譯結(jié)合, 已經(jīng)對語言、社會、文化等產(chǎn)生深遠(yuǎn)影響。眾包(crowdsourcing) 是網(wǎng)上協(xié)作翻譯(Online Collaborative Translation)的一種形式,是數(shù)字化時代**新,也是覆蓋面**廣、發(fā)展**快的翻譯模式。眾包翻譯作為跨越邊界的網(wǎng)絡(luò)協(xié)作翻譯模式,極大影響了翻譯倫理、翻譯定義、翻譯評估等多個方面。近年來,在深度學(xué)習(xí)、大數(shù)據(jù)、高性能計算的協(xié)同推動下,人工智能技術(shù)取得了長足進(jìn)步。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(neuralmachine translation,NMT)成為技術(shù)主流,翻譯質(zhì)量逐年提升。2018 年,微軟研究院 AI 課題組機(jī)器翻譯團(tuán)隊在**數(shù)據(jù)集 WMT-17 的新聞數(shù)據(jù)集 newstest2017 上首次超越了人類專業(yè) 水 平(Hassan et al.,2018)。WMT 是機(jī)器翻譯領(lǐng)域**頂級評測比賽之一,其數(shù)據(jù)集為機(jī)器翻譯研究領(lǐng)域公認(rèn)的主流數(shù)據(jù)集。其中,newstest2017 新聞報道測試集由產(chǎn)業(yè)界和學(xué)術(shù)界的合作伙伴共同開發(fā),包括來自新聞評論語料庫、聯(lián)合國平行語料庫、CWMT 語料庫的共計近 2500 萬測試句對。微軟在此數(shù)據(jù)集上取得的成績對于人工智能技術(shù)在翻譯領(lǐng)域的應(yīng)用具有標(biāo)志意義。AI 時代的到來將深刻改變?nèi)祟惖纳钆c工作方式,眾包翻譯協(xié)作模式亦不再限于人與人的范疇,更將延伸至人與機(jī)器,甚至機(jī)器與機(jī)器的維度。本文將在這一背景下探討眾包翻譯當(dāng)前所面臨的挑戰(zhàn),并對未來與 AI 可能結(jié)合的技術(shù)架構(gòu)進(jìn)行展望。

  一、眾包與 AI 對傳統(tǒng)翻譯實踐和理論的挑戰(zhàn)

  “眾包”一詞由美國記者 Howe 在《連線》(Wired)雜志首先提出,他將其定義為“傳統(tǒng)上交給指定代理的工作任務(wù),以自愿形式外包給非特定的、通常是大眾網(wǎng)絡(luò)群體來做??刹捎么蟊娚a(chǎn)的形式,也常由個人擔(dān)綱”(Howe,2006)②。眾包翻譯由非職業(yè)譯員群體完成,**典型的案例就是對 Facebook和 Wikipedia 的翻譯。眾包翻譯模式的出現(xiàn),引起對翻譯質(zhì)量、合理報酬、譯者地位等翻譯倫理問題的討論。與此同時,人工智能技術(shù)作為當(dāng)今一項關(guān)鍵生產(chǎn)力要素,正不斷地驅(qū)動著各行各業(yè)生產(chǎn)方式和生產(chǎn)關(guān)系的重構(gòu)。

  眾包與 AI 相結(jié)合,將對傳統(tǒng)翻譯理論和實踐形成巨大沖擊。其一,在翻譯的定義方面,在當(dāng)代翻譯理論中,翻譯被視作交際、認(rèn)知、文本生成過程(Hurtado Albir,2017),這個過程可以是社會性的(Wolf,2010)、文化性的(Bassnet & Lefevere,1990)、 技 術(shù) 性 的(Jiménez-Crespo,2013)或包容性的(Shao,2010;2017)。盡管這些傳統(tǒng)定義已很好呈現(xiàn)了經(jīng)典視域下的翻譯,但眾包與 AI 時代的到來引入了三個新的特點(diǎn):碎片性、數(shù)據(jù)性和智能性。

  就碎片性而言,語言學(xué)派的翻譯觀通常認(rèn)為,在宏觀層面上的文本處理對產(chǎn)生連貫且銜接良好的目標(biāo)文本至關(guān)重要,它能**翻譯質(zhì)量,且能達(dá)到預(yù)期交際目的。然而,眾包翻譯將互聯(lián)網(wǎng)任務(wù)分解為眾多微型任務(wù),隨后由大量翻譯愛好者來完成,要求源文本本身可以被分解為多個離散微型任務(wù),交由不同譯者承擔(dān),這種微型任務(wù)處理方法可能會缺乏連貫性、風(fēng)格一致性以及宏觀上的把握,從而顛覆了傳統(tǒng)語言學(xué)派翻譯觀。就數(shù)據(jù)性而言,大數(shù)據(jù)已成為驅(qū)動現(xiàn)代文明發(fā)展的一種戰(zhàn)略資源,它具有大量、多維度、完備性和及時性等特點(diǎn)。依托海量語料大數(shù)據(jù)(特別是雙語 / 多語平行語料)的翻譯研究和應(yīng)用逐步形成趨勢。這些數(shù)據(jù)在維度上包含:文本、語音、圖像 / 視頻(例如手語、肢體語言、表情語言)等。在完備性上覆蓋:不同語種、不同專業(yè)領(lǐng)域、不同地域、不同人群等。在及時性上不斷更新迭代,將新的概念、新的語言(如:互聯(lián)網(wǎng)語言、程序設(shè)計語言等)融入其中。在可以預(yù)見的未來,大數(shù)據(jù)的使用將成為翻譯的一個重要屬性。

  就智能性而言,大數(shù)據(jù)、高性能計算、深度學(xué)習(xí)的結(jié)合為 AI 發(fā)展注入了前所未有的活力,推動著整個社會各行業(yè)的升級與變革。AI 領(lǐng)域的各個研究分支:機(jī)器翻譯、語音識別、字符識別、語音合成、手語識別、姿態(tài)識別、表情識別等正逐步應(yīng)用于翻譯行業(yè)。字符識別→機(jī)器翻譯→譯后編輯→人工審校的模式大幅度提升了筆譯行業(yè)的生產(chǎn)效率。語音識別→機(jī)器翻譯→語音合成的模式開始勝任一些簡單的口譯任務(wù)。谷歌、百度、騰訊等許多科技公司也推出基于手機(jī)拍照→字符識別→機(jī)器翻譯模式的 APP 應(yīng)用,幫助人們在日常生活中實現(xiàn)便捷的翻譯。智能技術(shù)將更加深入地滲透到不同翻譯應(yīng)用場景中,在提升工作效率、降低勞動強(qiáng)度、改善服務(wù)體驗、規(guī)范行業(yè)標(biāo)準(zhǔn)等許多方面對翻譯進(jìn)行重塑。

  其二,就源文本交付方式而言,Bowker(2006:180)認(rèn)為:“若要翻譯文本的全部信息,譯者通常需跨越句的邊界,因此翻譯記憶所使用的以句為單位的方法可能不利于全文本消息的有效翻譯”③。然而,眾包翻譯為了將源文本交付社區(qū)譯者,需要將其拆分為更小單位。兩種**常見的情況如下:一是,一本書的若干章節(jié),通過某種方式由社區(qū)譯者認(rèn)領(lǐng),譯者利用傳統(tǒng)方式或現(xiàn)代方式處理。二是,一本書在眾包平臺上,通過眾包平臺后臺文本管理系統(tǒng)將篇章拆分為段落或者句子,由社區(qū)用戶認(rèn)領(lǐng),或者系統(tǒng)推薦給水平相當(dāng)?shù)淖杂脩糇龇g,至于是否使用翻譯記憶(Translation Memory,TM)技術(shù),由譯者決定。此外,隨著機(jī)器翻譯技術(shù)水平的不斷提升,是否采用機(jī)器翻譯對源文本進(jìn)行預(yù)處理,再將機(jī)翻結(jié)果與源文本推送給譯者參考以提**率、降低勞動強(qiáng)度,是翻譯實踐層面需考慮的問題。

  其三,在數(shù)字化和 AI 時代,源文本與目標(biāo)文本都可能以多種形式呈現(xiàn)。文本不僅包含文字,而且還可由非語言形式形成,如圖形、圖像、動畫、格式標(biāo)記符排版、視覺,多媒體元素(cf. Remael,2010)以及數(shù)字文本 互 動 性(cf. Jiménez-Crespo,2013)。 例如,Nord 將文本定義為“在交際互動中使用的交際信號的總和”(1991:14)。因此,文本不僅可用語言手段表達(dá),也是一種可以通過口頭和非語言手段相結(jié)合實現(xiàn)的交際行為(同上:15)。 同 理,G?pferich 把科技翻譯中的文本定義為“由語言或圖形語言構(gòu)成的連貫整體”(1995:57)。眾包翻譯涵蓋了從將任務(wù)縮小到處理孤立句子的語言層次,到讓任務(wù)“所得即所見”(YGWYS)環(huán)境中目標(biāo)文本的多模態(tài)性(Jiménez-Crespo,2017:168)。采用眾包模式的譯后編輯網(wǎng)站已經(jīng)比較多,例如微軟協(xié)作翻譯框架(Aikawa et al.,2012)、Smartling 網(wǎng)絡(luò)協(xié)作翻譯平臺④、多鄰國(Duolingo)語言學(xué)習(xí)平臺⑤、Amara開源實時協(xié)同字幕翻譯平臺⑥(又稱字幕在線編輯器)等。

  其四,就文本的動態(tài)性而言,在傳統(tǒng)譯論中,文本是穩(wěn)定且完整的翻譯單位,只根據(jù)具體翻譯活動的要求而改變。在眾包和協(xié)作翻譯模式中,文本內(nèi)容可能會經(jīng)常更新( 例 如, 著 名 軟 件 開 發(fā) 平 臺 GitHub ⑦ 上的大量開源軟件庫的開發(fā)教程、應(yīng)用程序接口都隨軟件庫版本的不斷迭代而快速更新,Wikipedia 上的各種詞條也有類似情況),通常以碎片化、分批次、微任務(wù)的方式傳遞、翻譯、交付、驗收,因此基于眾包的網(wǎng)絡(luò)協(xié)作翻譯模式與傳統(tǒng)翻譯模式有所不同,眾包根據(jù)微型任務(wù)(micro-task)的需求,將源文本進(jìn)行必要的分割與分解,而源文本本身可能動態(tài)地不斷更新。

  二、AI 技術(shù)賦予眾包翻譯的機(jī)遇展望

  1950 年英國數(shù)學(xué)家艾倫 · 麥席森 · 圖靈(Alan Mathison Turing) 提出著名的圖靈測試(Turing,1950)設(shè)想之后,機(jī)器是否能夠模仿人類智能這一問題受到越來越多學(xué)者關(guān)注。1956 年 8 月,在美國漢諾斯小鎮(zhèn)的達(dá)特茅斯學(xué)院匯聚了約翰 · 麥卡錫(John McCarthy)、馬文 · 明斯基(Marvin Minsky,人工智能與認(rèn)知科學(xué)專家 )、 克勞 德· 香農(nóng)(Claude Shannon, 信息論創(chuàng)始人 )、 艾倫·紐厄爾(Allen Newell,計算機(jī)科學(xué)家)、赫伯特 · 西蒙(Herbert Simon,諾貝爾經(jīng)濟(jì)學(xué)獎得主)約 20 位科學(xué)家,共同探討用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能,并正式提出人工智能(Artificial Intelligence)的概念(McCarthy et al.,2006)。隨后的近 60 年間,人工智能技術(shù)持續(xù)發(fā)展, 新的思想不斷涌現(xiàn)(cf. Russell & Norvig,2016)。1956 年至 70 年代中后期代表性研究包括:命題邏輯、謂詞邏輯、啟發(fā)式搜索等,研究者從初期抱有過于樂觀的預(yù)期到逐漸意識到現(xiàn)實問題的復(fù)雜性和多樣性;隨后的 80 年代初期,人工智能技術(shù)開始步入工業(yè)應(yīng)用領(lǐng)域,專家系統(tǒng)、知識工程、醫(yī)療診斷等為該階段的主要代表;80 年代末期出現(xiàn)了一個短暫的神經(jīng)網(wǎng)絡(luò)研究熱潮,此后人工智能開始圍繞計算機(jī)視覺、自然語言理解、認(rèn) 知 科 學(xué)、 機(jī) 器 學(xué) 習(xí)、機(jī)器人學(xué)(Robotics)等獨(dú)立發(fā)展。2012 年 Hinton 研究團(tuán)隊提出了深度神經(jīng)網(wǎng)絡(luò)模型 AlexNet(Krizhevsky et al.,2012), 將 ImageNet LSVRC-2010 圖片識別測 試 top-1、top-5 錯誤率從之前**好記錄47.1%、28.2% 分別降至 37.5%、17.0%, 至此深度學(xué)習(xí)開始成為人工智能研究熱點(diǎn)。人們在大數(shù)據(jù)和高性能計算的驅(qū)動下利用神經(jīng)網(wǎng)絡(luò)逐步構(gòu)建出穩(wěn)定、可靠的特征提取機(jī)制,推動人工智能技術(shù)在人臉識別、目標(biāo)檢測、語音識別、機(jī)器翻譯等眾多復(fù)雜應(yīng)用場景取得長足進(jìn)步。這一趨勢延伸至今,計算機(jī)視覺、自然語言理解與交流、認(rèn)知與推理、機(jī)器人學(xué)、博弈與倫理、機(jī)器學(xué)習(xí)成為當(dāng)前人工智能技術(shù)六大主要研究領(lǐng)域。其中,自然語言理解與交流、計算機(jī)視覺、機(jī)器學(xué)習(xí)與眾包翻譯關(guān)系密切。為了系統(tǒng)地展望人工智能技術(shù)在眾包翻譯領(lǐng)域的潛在應(yīng)用價值,筆者將整個眾包翻譯過程劃分為:譯前、譯中、譯后三個階段,針對每階段所面臨的關(guān)鍵問題列出了具體的結(jié)合方式。圖 1 展示了人工智能技術(shù)與眾包翻譯的結(jié)合構(gòu)想框架。

  (一)譯前階段的人工智能應(yīng)用展望

  在譯前階段,用戶向眾包翻譯平臺提供需要翻譯的文件,此階段要解決的關(guān)鍵問題為:如何從用戶文件中提取待翻譯的源文本信息,如何將源文本分割為具體的翻譯任務(wù)推送給不同譯者,如何對源文本進(jìn)行預(yù)處理以提升后續(xù)譯者翻譯的質(zhì)量和效率,如何為不同的翻譯任務(wù)找到合適的譯者。

  1)以源文本提取為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  眾包翻譯源文件除常見的 Office 文檔、RTF、TXT、HTML、可解析 PDF 等可直接通過解碼獲得源文本的格式外,還存在如:不可解析的 PDF(通常由掃描或拍照獲得)、圖片(JPEG、PNG、TIFF 等 )、 語音文件(WAV、MP3、WMA、APE、AAC 等 )、 視頻(MOV、AVI、MPEG、MP4 等 )。人工智能領(lǐng)域的光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)和自動語音識別技術(shù)(Automatic Speech Recognition,ASR)便可在此發(fā)揮作用。OCR 旨在利用計算機(jī)識別出圖像中的文字,ASR 可自動識別語音文件并將其轉(zhuǎn)寫為文字。當(dāng)源文本無法從文件中直接解析獲取時,這兩項技術(shù)可起到重要輔助作用,大幅度降低眾包翻譯的勞動強(qiáng)度、提高其工作效率。

  2)以源文本分割為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  眾包翻譯由大量譯者網(wǎng)上協(xié)作完成,每個譯者僅負(fù)責(zé)部分內(nèi)容。其完成翻譯工作的模式主要可分為四種:其一,僅依靠人工對所分配的源文本進(jìn)行翻譯。其二,利用 CAT系統(tǒng)協(xié)助人工進(jìn)行翻譯。其三,首先采用機(jī)器翻譯系統(tǒng)對源文本進(jìn)行預(yù)翻譯,然后在此基礎(chǔ)上由人工進(jìn)行校審和編輯。其四,采用機(jī)器翻譯系統(tǒng)對源文本進(jìn)行預(yù)翻譯,然后在此基礎(chǔ)上進(jìn)行計算機(jī)輔助翻譯,**后由人工進(jìn)行校審和編輯。無論何種模式,如何將源文本有效分割成合適的語義單元,對于翻譯的質(zhì)量與效率都極為重要。直接按照句子進(jìn)行分割的方式,易產(chǎn)生上下文語義損失從而導(dǎo)致誤譯和漏譯,例如:源文本中可能大量存在的小句復(fù)合體,小句之間存在的復(fù)雜邏輯關(guān)系被分割后可能產(chǎn)生損失或歧義。然而,若將大段文本作為一個翻譯單元則將延遲譯者完成單個翻譯單元的速度,降低眾包翻譯的并發(fā)性和及時性;此外,將大段文本提交給 CAT 翻譯系統(tǒng),可能會導(dǎo)致語料匹配率和翻譯效果的下降。采用自然語言處理(Natural Language Processing,NLP)技術(shù),對源文本語義結(jié)構(gòu)進(jìn)行分析以實現(xiàn)可靠分割,是人工智能應(yīng)用于翻譯眾包的一個重要的切入點(diǎn)。

  3)以譯前文本預(yù)處理為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  在對源文本進(jìn)行翻譯之前,適當(dāng)?shù)念A(yù)處理工作可以有效提升翻譯的質(zhì)量和效率。筆者認(rèn)為譯前文本預(yù)處理階段,人工智能技術(shù)可從三個方面切入:(1)非譯元素 / 專業(yè)術(shù)語的智能識別與標(biāo)記。當(dāng)源文本來自特定專業(yè)領(lǐng)域或語境時,其中大量專業(yè)術(shù)語、非譯元素很難被通用的機(jī)器翻譯引擎有效處理。若能在譯前階段對非譯元素進(jìn)行識別和標(biāo)記,對于提升翻譯質(zhì)量,適應(yīng)不同翻譯項目需求具有重要的潛在價值。(2)小句復(fù)合體簡化。小句復(fù)合體(clause complex)又稱復(fù)句,是目前機(jī)器翻譯領(lǐng)域面臨的難點(diǎn),利用 AI 技術(shù)對小句復(fù)合體進(jìn)行簡化,降低后續(xù)機(jī)器翻譯的難度,對于避免誤譯和漏譯的產(chǎn)生具有良好的研究價值。(3)源文本噪聲濾除。在源文本提取過程中,特別是利用 OCR 技術(shù)從圖像中獲取源文本的情況下,可能產(chǎn)生一定的噪聲,例如:字符亂碼、錯誤識別、錯誤標(biāo)點(diǎn)符號等。智能地識別和濾除噪聲,糾正源文本中的錯誤,對提升眾包翻譯質(zhì)量意義重大。

  4)以譯者推薦為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  隨著眾包翻譯規(guī)模的不斷擴(kuò)大,如何根據(jù)眾包翻譯任務(wù)的具體內(nèi)容,將其推薦給感興趣并具有相應(yīng)能力的譯者成為提升眾包翻譯運(yùn)營效率、提高翻譯質(zhì)量的關(guān)鍵。AI 領(lǐng)域推薦系統(tǒng)已被廣泛地應(yīng)用于電子商務(wù)、在線視頻、社交網(wǎng)絡(luò)等商業(yè)場景,幫助企業(yè)更好地理解用戶需求以提供卓越服務(wù)。在眾包翻譯項目管理中,根據(jù)譯者基礎(chǔ)信息(例如,教育背景、從業(yè)經(jīng)驗、擅長語種、熟悉領(lǐng)域、文化背景等)、譯者動態(tài)信息(例如,在線時間、譯文質(zhì)量、響應(yīng)速度等)構(gòu)建一套譯者推薦系統(tǒng)將不同領(lǐng)域、類型的源文本在特定時間推送給合適譯者,提升任務(wù)匹配率和用戶體驗的同時讓眾包平臺譯者自身特長得到充分發(fā)揮。

  (二)譯中階段的人工智能應(yīng)用展望

  在譯中階段,待翻譯的源文本被分割為不同任務(wù)由眾包翻譯平臺分配給不同的譯者,此階段要解決的關(guān)鍵問題為:如何提升譯者的翻譯質(zhì)量和效率,如何降低譯者勞動強(qiáng)度,如何有效管理大量譯者,如何及時了解譯者狀態(tài)和項目進(jìn)展并根據(jù)譯者的實時表現(xiàn)水平動態(tài)調(diào)整任務(wù)分配策略。

  1)以機(jī)器翻譯為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  機(jī)器翻譯是人工智能技術(shù)與眾包翻譯相結(jié)合**重要的切入點(diǎn)之一,它隸屬于計算語言學(xué)(Computational Linguistics),旨在利用計算機(jī)將文本或語音從一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)。作為當(dāng)今 AI 領(lǐng)域熱點(diǎn)問題,其研究跨越計算機(jī)科學(xué)、認(rèn)知科學(xué)、語言學(xué)、信息論等多個學(xué)科。機(jī)器翻譯的研究可追溯至 1933 年的兩個標(biāo)志事件(Hutchins,2004):其一,1933年 7 月 22 日,法國工程師 Georges Artsrouni獲 得 一 項 名 為“mechanical brain”( 法 語:cerveau mécanique) 的 專 利 授 權(quán), 在 其 中他首次提出了用機(jī)器來進(jìn)行翻譯的構(gòu)想。其二,同年,前蘇聯(lián)科學(xué)家 Peter Troyanskii 向蘇聯(lián)科學(xué)院介紹了一種能將一種語言翻譯成另一種語言的機(jī)器模型,并于 9 月 5 日提交了專利申請。在隨后的發(fā)展中機(jī)器翻譯大致經(jīng)歷了:**次熱潮時期(1956-1966);基于規(guī)則的機(jī)器翻譯(Rule-Based Machine Translation,RBMT)(1967-2007); 統(tǒng)計機(jī) 器 翻 譯(Statistical Machine Translation,SMT)(1993-2016); 神經(jīng) 網(wǎng) 絡(luò) 機(jī) 器 翻 譯(Neural Machine Translation,NMT)(2013-至今);目前,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯取代統(tǒng)計機(jī)器翻譯成為學(xué)術(shù)界研究主流,在工業(yè)界基于Transformer、ConvS2S 等神經(jīng)網(wǎng)絡(luò)模型的機(jī)器翻譯系統(tǒng)被廣泛應(yīng)用。開源社區(qū)為機(jī)器翻譯的發(fā)展注入蓬勃動力,tf-seq2seq(Google),fairseq(Facebook)、Sockeye(Amazon)、OpenNMT(哈佛大學(xué))等開源神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架的發(fā)布和不斷更新讓越來越多企業(yè)與個人能夠快速分享機(jī)器翻譯領(lǐng)域**新研究成 果。隨著注意力機(jī)制(Attention Mechanism)、 對偶學(xué)習(xí)(Dual Learning)、推敲網(wǎng)絡(luò)(Deliberation Networks)、聯(lián)合訓(xùn)練(Joint Training)、 端到端訓(xùn)練(End to End Training)等一系列新思想的提出,機(jī)器翻譯的精度被不斷刷新。2018 年,微軟研究院 AI 課題組機(jī)器翻譯團(tuán)隊在**數(shù)據(jù)集WMT-17 的新聞數(shù)據(jù)集 newstest2017 上取得了超過人類專業(yè)水平的效果,這一事件進(jìn)一步印證了機(jī)器翻譯的巨大潛力。在可以預(yù)見的未來,機(jī)器翻譯→眾包譯后編輯→眾包人工審校的模式,將大幅度提升眾包翻譯的效率和質(zhì)量。

  2)以計算機(jī)輔助翻譯為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  CAT 與機(jī)器翻譯不同,它不依賴于計算機(jī)的自動翻譯,而是在人的參與下完成整個翻譯過程。在眾包翻譯過程中,計算機(jī)輔助翻譯可使繁重的人工翻譯流程自動化,并大幅度提高翻譯效率和翻譯質(zhì)量。代表性產(chǎn)品包括:Trados( 英 國 )、 memoQ(匈牙利 )、Déjà vu( 法 國 ), 以 及 國 內(nèi) 的 iCAT、Transmate 等。人工智能領(lǐng)域關(guān)于自然語言處理的研究,對提升現(xiàn)有 CAT 系統(tǒng)的記憶庫模糊匹配、術(shù)語識別、自動修正等方面有著廣泛的應(yīng)用前景。

  3)以譯者管理為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  如何有效管理大量譯者,在**翻譯質(zhì)量的同時,提升翻譯效率,是眾包翻譯研究的一個核心問題。人工智能技術(shù)在此具有良好的潛在應(yīng)用價值,例如,眾包中采用對譯者付費(fèi)的方式時,不同經(jīng)驗、能力、資歷的譯者其單位工作量所獲報酬不同,為了避免第三者頂替的情況發(fā)生,可引入人臉識別技術(shù)、指紋識別技術(shù)、虹膜識別技術(shù)等對譯者進(jìn)行身份驗證。翻譯作為一種跨語言的理解、重構(gòu)行為,與譯者的認(rèn)知心理狀態(tài)緊密聯(lián)系。現(xiàn)代認(rèn)知心理學(xué)的發(fā)展經(jīng)歷了從“身心二元”(離身認(rèn)知,disembodied cognition)到“身心 一 體 ”( 具 身 認(rèn) 知,embodied cognition)范式的轉(zhuǎn)變。具身認(rèn)知強(qiáng)調(diào)人類生理狀態(tài)在其認(rèn)知心理過程發(fā)揮重要影響,這一觀點(diǎn)被大量的科學(xué)研究所支持(Wells & Petty,1980;Steppe & Strack,1993;Rizzolatti & Craighero,2004;Williams & Bargh,2008)。在工作過程中,譯者各種生理狀態(tài):疲勞程度、面部表情、體征表現(xiàn),都會對其心理認(rèn)知過程造成干擾,進(jìn)而影響其譯文質(zhì)量和翻譯效率。人工智能領(lǐng)域的疲勞檢測技術(shù)和表情識別技術(shù)等非常適合這一應(yīng)用場景,當(dāng)發(fā)現(xiàn)譯者處于疲勞狀態(tài)或情緒劇烈波動時,系統(tǒng)可提醒其適當(dāng)休息并減少其任務(wù)的分配量,以免將過多的任務(wù)發(fā)送給疲勞或情緒不佳的譯者;而對于精力充沛、情緒良好的譯者則適當(dāng)配予更多翻譯任務(wù),提升眾包翻譯平臺綜合管理水平。

  (三)譯后階段的人工智能應(yīng)用展望

  在譯后階段,譯者完成眾包翻譯平臺分配的任務(wù)并將譯文反饋給平臺,此階段要解決的關(guān)鍵問題為:如何有效檢測譯者的誤譯、漏譯等偶然因素造成的錯誤,如何對不同譯者的翻譯工作進(jìn)行評估以便績效管理,如何獲取譯者的工作效率、業(yè)務(wù)能力、擅長語種、擅長領(lǐng)域、工作細(xì)致程度等多方面特征以便精準(zhǔn)地分配任務(wù)。

  1)以譯后編輯為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  無論譯中階段采用人工翻譯還是機(jī)器翻譯,譯文中均可能存在誤譯、漏譯以及其它偶然因素造成的錯誤。譯后編輯成為眾包翻譯質(zhì)量保障一個關(guān)鍵環(huán)節(jié)。此階段,可引入自然語言處理技術(shù)對譯文的邏輯性、語法、選詞、拼寫和語義完整性等方面進(jìn)行全面分析,實現(xiàn)譯文自動校對,修復(fù)常見語法、邏輯錯誤等,再由眾包翻譯的譯后編輯人員進(jìn)一步人工處理。此外,還可以引入計算機(jī)視覺技術(shù),根據(jù)原始文檔對譯文排版進(jìn)行自動調(diào)整,使其與原始文件的視覺效果保持一致,以進(jìn)一步提高目標(biāo)文本質(zhì)量。

  2)以翻譯評估為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  翻譯評估可讓管理者及時了解譯文質(zhì)量并在眾包翻譯過程中做出適當(dāng)干預(yù)和調(diào)整。傳統(tǒng)翻譯評估采用人工方式進(jìn)行,效率低、成本高,而機(jī)器翻譯采用的自動度量標(biāo)準(zhǔn),例如:BLEU、NIST、 錯詞率(Word Error Rate)、METEOR 等需要預(yù)先設(shè)置目標(biāo)文本作為參考(通常眾包翻譯中并無預(yù)先設(shè)置的目標(biāo)文本)。此處可利用翻譯大數(shù)據(jù)對譯文錯誤進(jìn)行預(yù)測,利用譯后編輯過程中所產(chǎn)生的反饋數(shù)據(jù),結(jié)合自然語言處理技術(shù)、模式識別技術(shù)等實現(xiàn)自動翻譯評估,及時反饋譯文質(zhì)量。

  3)以譯者畫像為切入點(diǎn)的人工智能技術(shù)應(yīng)用

  眾包翻譯在譯中階段若采用人工進(jìn)行翻譯,可獲取各類譯者行為數(shù)據(jù),如:譯者提交譯文的速度、接單量、接單時間、主動選擇的譯文類型以及譯后編輯產(chǎn)生的反饋數(shù)據(jù)可反映出譯者的工作效率、業(yè)務(wù)能力、擅長語種、擅長領(lǐng)域、工作細(xì)致程度等多方面特征。此階段可引入人工智能領(lǐng)域的用戶畫像技術(shù),分析譯者特點(diǎn),建立并不斷完善譯者模型,動態(tài)了解譯者工作狀況、專業(yè)領(lǐng)域優(yōu)勢、翻譯水平等,為眾包翻譯的譯者考核管理、翻譯任務(wù)調(diào)度等提供支撐。

  (四)基于眾包翻譯數(shù)據(jù)的人工智能系統(tǒng)迭代

  現(xiàn)代人工智能技術(shù)的發(fā)展對數(shù)據(jù)的質(zhì)與量都有極強(qiáng)依賴,眾包翻譯作為一種跨語言、跨地域的語料數(shù)據(jù)加工方式,其中間環(huán)節(jié)和**終輸出均可為人工智能的模型訓(xùn)練、優(yōu)化以及人工智能技術(shù)研究提供海量優(yōu)質(zhì)數(shù)據(jù)資源。筆者認(rèn)為可從以下三個方面切入,充分運(yùn)用眾包翻譯所產(chǎn)生的數(shù)據(jù)對人工智能系統(tǒng)進(jìn)行迭代,不斷優(yōu)化其智能水平以適應(yīng)不同應(yīng)用場景需求:

  1)利用眾包翻譯所產(chǎn)生的平行語料數(shù)據(jù)迭代機(jī)器翻譯系統(tǒng)

  眾包翻譯的**終輸出可加工為平行語料數(shù)據(jù)(通常為雙語平行語料,當(dāng)源文本被同時翻譯為兩個以上語種目標(biāo)文本時則可輸出多語平行語料),這些語料數(shù)據(jù)通過進(jìn)一步加工和完善,可反饋給機(jī)器翻譯系統(tǒng)以用于訓(xùn)練、改進(jìn)現(xiàn)有機(jī)器翻譯模型或用于新的機(jī)器翻譯技術(shù)研究。

  2)利用譯后編輯數(shù)據(jù)構(gòu)建譯者畫像模型迭代譯者推薦系統(tǒng)

  譯后階段所產(chǎn)生的譯后編輯數(shù)據(jù)可反映出譯者對特定文本的翻譯水平、工作細(xì)致程度。在此基礎(chǔ)之上,結(jié)合譯者行為數(shù)據(jù)構(gòu)建譯者畫像模型,將其反饋給譯前階段的譯者推薦系統(tǒng),可提升推薦系統(tǒng)的精準(zhǔn)度或用于研究新的推薦模型。

  3)利用譯后編輯數(shù)據(jù)迭代源文本提取系統(tǒng)

  當(dāng)譯前階段源文件為圖片或無法直接解析出文本的 PDF 格式等情況時,若源文本提取系統(tǒng)基于 OCR 技術(shù)對圖像進(jìn)行文字識別,其識別結(jié)果可能存在一定錯誤輸出。針對這一問題,在譯前階段或譯后編輯中可適當(dāng)人工校對,對源文本和譯文進(jìn)行檢查、修正其中字符識別錯誤或排版格式識別錯誤。這些被識別錯誤的圖片,可作為新標(biāo)注的困難樣本反饋給源文本提取系統(tǒng),用于改進(jìn)現(xiàn)有模型或研究新的 OCR 算法,通過不斷迭代讓人工智能技術(shù)適應(yīng)不同實際應(yīng)用場景文本提取需要。

  三、結(jié)語

  數(shù)字化技術(shù)和互聯(lián)網(wǎng)帶來的眾包翻譯模式,通過有效整合社會零散翻譯資源和大眾智慧,提升翻譯效率、促進(jìn)翻譯產(chǎn)業(yè)化和社會化。隨著 AI 時代的到來,在大數(shù)據(jù)、高性能計算、深度學(xué)習(xí)技術(shù)的驅(qū)動下,機(jī)器翻譯、文字識別、語音識別等許多應(yīng)用領(lǐng)域取得突破進(jìn)展,顯現(xiàn)出巨大社會效應(yīng)和商業(yè)價值。如何將人工智能技術(shù)有機(jī)地融入眾包翻譯的理論與實踐之中,提高翻譯效率、改善譯文水平、促進(jìn)譯員分工協(xié)作、推動行業(yè)進(jìn)步成為翻譯學(xué)科一個新的課題。本文分析了當(dāng)前眾包翻譯所面臨的機(jī)遇與挑戰(zhàn),并結(jié)合 AI 時代背景,對人工智能技術(shù)與眾包翻譯協(xié)同發(fā)展的藍(lán)圖進(jìn)行展望。從眾包翻譯的譯前、譯中、譯后三個階段,系統(tǒng)探討了人工智能技術(shù)在眾包翻譯領(lǐng)域的切入點(diǎn)、結(jié)合方式、潛在價值、技術(shù)難點(diǎn)及應(yīng)對策略。針對人工智能技術(shù)發(fā)展的數(shù)據(jù)依賴性,提出了一種利用眾包翻譯過程加工與生成數(shù)據(jù)以改進(jìn)現(xiàn)有人工智能技術(shù)的構(gòu)想。眾包與AI 時代的到來,必然導(dǎo)致社會分工協(xié)作方式和產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,也將對翻譯學(xué)科發(fā)展產(chǎn)生深刻與長期的影響。

  基金項目:本文是國家社會科學(xué)基金青年項目“認(rèn)知文體學(xué)視域下阿來小說地域特征性及漢英平行文本對比研究 ”( 批準(zhǔn)號:14CYY002)、西南交通大學(xué)美國研究中心 2019 年年度項目(ARC2019001)的階段性成果。

  注釋

  ① Translation is living through a period of revolutionary upheaval. The effects of digital technology and the internet on translation are continuous, widespread and profound. From automatic online translation services to the rise of crowdsourced translation and the proliferation of translation apps for smartphones, the translation revolution is everywhere.

 ?、?[T]he act of taking a job traditionally performed by a designated agent […] and outsourcing it to an undefined, generally large group of people in the form of an open call. This can take the form of peer-production, but it is also often undertaken by a sole individual.

 ?、?[T]o translate the overall message of the text, translators often need to

  work outside the artificial boundaries of sentences, so the sentence-bysentence approach imposed by TMs may not be conducive to effective

  translation of the text’s message as a whole.

 ?、?https://www.smartling.com

 ?、?https://www.duolingo.com

  ⑥ https://amara.org

 ?、?https://www.github.com

  參考文獻(xiàn)

  [1] Aikawa, Takako, Yamamoto, Kentaro and Hitoshi Isahara. The Impact of Crowdsourcing Post-editing with the Collaborative Translation Framework [A]. In Hitoshi Isahara and Kyoko Kanzaki (eds.). Advances in Natural Language Processing [C]. Berlin and Heidelberg: Springer, 2012: 1-10.

  [2] Bassnett, Susan and André Lefevere. Translation, History and Culture [C]. London and New York: Pinter, 1990.

  [3] Bowker, Lynn. Translation Memory and Text [A]. In Lynn Bowker (ed.). Lexicography, Terminology and Translation [C]. Ottawa: University of Ottawa Press, 2006: 174-187.

  [4] Cronin, Michael. Translation in the Digital Age [M]. New York & London: Routledge, 2013.

  [5] G?pferich, Susanne. Textsorten in Naturwissenschaften und Technik, Pragmatische Typologie-Kontrastierung-Translation [M]. Tubinga: Gunter Narr, 1995.

  [6] Hassan, Hany, et al. Achieving Human Parity on Automatic Chinese to English News Translation [Z]. arXiv preprint arXiv:1803.05567. 15 March 2018.

  [7] Howe, Jeff. Crowdsourcing: A Definition [EB/OL]. (2006-06-02) [2018-02-19]. http://crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html. The Rise of Crowdsourcing [EB/OL]. Wired. (2006-06-01)[2018-11-04]https://www.wired.com/2006/06/crowds/

  [8] Hurtado Albir, Amparo. Researching Translation Competence by PACTE Group [C]. Amsterdam and Philadelphia: John Benjamins, 2017.

  [9] Hutchins, John. Two Precursors of Machine Translation: Artsrouni and Trojanskij [J]. International Journal of Translation, 2004, 16(1): 11-31.

  [10] Jiménez-Crespo, Miguel A. Translation and Web Localization [M]. New York and London: Routledge, 2013.

  [11] Jiménez-Crespo, Miguel A. Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [M]. Amsterdam and Philadelphia: John Benjamins, 2017.

  [12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks [A]. In F. Pereira, C.J.C. Burges, L. Bottou and K.Q. Weinberger (eds.). NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems [C]. Vol. 1. 2012: 1097-1105.

  [13] McCarthy, John, Marvin L. Minsky, Nathaniel Rochester, and Claude E. Shannon. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence [J]. AI Magazine, 2006, 27(4): 12-14.

  [14] Nord, Christiane. Text Analysis in Translation: Theory, Methodology and Didactic Application of a Model for TranslationOriented Text Analysis [M]. Amsterdam and Atlanta: Rodopi, 1991.

  [15] Remael, Aline. Audiovisual Translation [A]. In Yves Gambier and Luc van Doorslaer (eds.). Handbook of Translation Studies [C]. Vol. 1. Amsterdam and Philadelphia: John Benjamins, 2010: 12-17.

  [16] Rizzolatti, Giacomo and Laila Craighero. The Mirror-Neuron System [J]. Annual Review of Neuroscience, 2004, 27(1): 169-192.

  [17] Russell, Stuart J. and Peter Norvig. Artificial Intelligence: A Modern Approach [M]. 3rd ed. Upper Saddle River, New Jersey: Pearson Education, 2010.

  [18] Shao, Lu. Reconceptualizing Translation: Tymoczko and the Radical Inclusive Approaches to Translation [J]. Translation Quarterly, 2010 (57): 99-107.

  [19] Shao, Lu. Review of Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [J]. Babel, 2017, 63 (6): 901-906.

  [20] Stepper, Sabine and Fritz Strack. Proprioceptive Determinants of Emotional and Nonemotional Feelings [J]. Journal of Personality and Social Psychology, 1993, 64 (2): 211-220.

  [21] Turing, Alan Mathison. Computing Machinery and Intelligence [J]. Mind, 1950 (49): 433-460.

  [22] Wells, Gary L. and Richard E. Petty. The Effects of Over Head Movements on Persuasion: Compatibility and Incompatibility of Responses [J]. Basic and Applied Social Psychology, 1980, 1(3): 219-230.

  [23] Williams, Lawrence E. and John A. Bargh. Experiencing Physical

  Warmth Promotes Interpersonal Warmth [J]. Science, 2008, 322(5901): 606-607.

  [24] Wolf, Michaela. Translation “Going Social”? Challenges to the (Ivory) Tower of Babel [J]. MonTI, 2010 (2): 29-46.

  作者簡介 邵璐,香港浸會大學(xué)翻譯學(xué)哲學(xué)博士,中山大學(xué)外國語學(xué)院教授、博士生導(dǎo)師、博士后合作導(dǎo)師,天津外國語大學(xué)中央文獻(xiàn)翻譯研究基地兼

  職研究員。研究方向:文學(xué)翻譯、翻譯技術(shù)、翻譯批評。

免責(zé)聲明:文章部分?jǐn)?shù)據(jù)、圖片信息來源于互聯(lián)網(wǎng),內(nèi)容僅供參考,如有侵權(quán)請及時聯(lián)系我們進(jìn)行修改或刪除處理! 謝謝
相關(guān)閱讀
Copyright ? 2016-2021 佛山市禪城區(qū)博雅翻譯服務(wù)中心 fsxiaoyuan.com All Rights Reserved. 粵ICP備19093485號-1
佛山翻譯服務(wù)中心 專業(yè)筆譯 口譯服務(wù) 更多類型 82281353 13318391728
钦州市| 通榆县| 屯门区| 册亨县| 建平县| 沈丘县| 荆州市| 宝丰县| 历史| 宁都县| 台中县| 武定县| 茂名市| 阿尔山市| 万盛区| 宁河县| 疏附县| 西丰县|