您當前位置:首頁 > 新聞資訊
技術界與翻譯界的交鋒:機器翻譯離我們還有多遠?
時間:2019-10-18來源:佛山翻譯公司點擊:723次

  機器翻譯歷史

  機器翻譯的歷史大體可以分為兩大階段,**階段是從60年代到90年代初期,理性主義方法是主流,主要是讓人類專家觀察語言規(guī)律,把它描述成規(guī)則,讓機器按照既定規(guī)則進行翻譯。第二個階段是90年代,特別是互聯(lián)網(wǎng)出現(xiàn)以后,開始從事統(tǒng)計機器翻譯研究,此時數(shù)據(jù)以及相應的數(shù)據(jù)驅動方法得到蓬勃發(fā)展。

  統(tǒng)計方法比較經(jīng)典的模型叫做隱變量對數(shù)線性模型,它的特點是要設計特征,X代表輸入,Y代表輸出,Z就代表中間的語言結構,通過定義各種特征函數(shù)來訓練一個參數(shù),很多工作都集中在如何設計好的特征來描述翻譯規(guī)律上。

  但語言太過復雜,窮盡人類智慧也很難把這個特征設計全面,其中一個難點稱之為調序,比如“就中東局勢舉行了一個小時會談”,這是一個典型的介詞短語和動詞短語的組合,在中文中先說介詞短語,再說動詞短語,但在英文中都是反過來的。

  2015年后,深度學習在機器翻譯得到應用。深度學習的主要意義在于它可以從數(shù)據(jù)中自動提取表示,就不需要像以前一樣設計特征來描述翻譯規(guī)則,只需要設計一個網(wǎng)絡,讓機器自動在數(shù)據(jù)去尋找表述,效果非常好。但還是有難解決的問題,它根本不知道數(shù)字是什么意思,不知道為什么出錯,不知道怎么去改動它,而且很難控制。

  目前**核心的技術叫做注意力機制,希望通過自動計算發(fā)現(xiàn)中英文之間的相關性,這在整個深度學習里也是非常核心的技術?,F(xiàn)在可以利用一些比較新的技術,這個是transformer,希望能夠處理更長的序列。

  機器翻譯旨在彌補人類干不了的場景

  **近幾年出現(xiàn)了一系列機器翻譯應用,比如翻譯機、微信的翻譯服務。機器翻譯很大程度上是為解決不同國家、不同文化之間的溝通問題,如果機器翻譯能在一定程度上取代人、幫助人,溝通的信道會有一個巨大的釋放。那么機器翻譯究竟能否代替人呢?

  宗成慶老師認為,機器翻譯近幾年的進步很大,可以大幅提高翻譯效率,但是機器翻譯的運用需要基于場景和任務,機器翻譯在一些場景下確實能幫助人,比如旅游問路,但是在某些領域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還為時過早。

  張民老師對宗老師的觀點表示贊同,他補充道,機器翻譯要從學術界和產(chǎn)業(yè)界兩個側面看。學術界一直可以做下去,產(chǎn)業(yè)界里機器翻譯已經(jīng)蓬勃發(fā)展,產(chǎn)業(yè)對學術界技術需求強烈,技術達到了產(chǎn)業(yè)低端門坎,產(chǎn)業(yè)推動技術發(fā)展、技術服務行業(yè)。

  李長栓老師也認為雖然機器翻譯進步驚人,但不會有取代人的一天,其主要原因在于機器翻譯質量還達不到專業(yè)翻譯的要求,單個句子能理解,但通篇沒有邏輯。

  朱靖波老師同意宗老師和張老師的觀點,并舉例說,通常假設翻譯人員的結果完全正確,而技術想要超過100%去達到101%的正確率,這在真理上是無法超越的。

  但是機器翻譯在大數(shù)據(jù)之后蓬勃發(fā)展,并非意在取代人類,比如國家知識產(chǎn)權里幾百萬個專利文檔,只能利用機器翻譯,非人工所為;再比如身在國外,人工翻譯不可能隨時在身邊,只能利用機器翻譯,這都不能算是代替人工翻譯,而是去彌補人工翻譯干不了的應用場景。

  是機器翻譯的問題,還是技術尚未成熟?

  李長栓老師根據(jù)自己的使用經(jīng)驗,歸納了一下機器翻譯中遇到的主要問題:

  以句子為基礎翻譯,忽略上下文中文長句子翻譯成英文,需要斷成幾句,但斷開之后,后面的句子就沒有主語了,這時候要補充主語。而機器翻譯根據(jù)什么補充主語成迷。

  同一個詞出現(xiàn)多個譯文版本比如“訴裁程序”,機器翻譯給出了十幾個譯文版本,這個問題應該可以解決,但是神經(jīng)網(wǎng)絡翻譯似乎還沒有解決這個問題。

  機械處理信息機器翻譯是依賴于形式的轉換,遇到歧義時是根據(jù)概率決定修飾關系;一詞多義也是,即便給了語料庫,但是在同一個專業(yè)領域,一個詞也有很多意思。

  朱靖波老師對此表示部分贊同:

  首先,目前基于句子級翻譯系統(tǒng)主要因為具體實現(xiàn)機制的問題,實際上學術界關于篇章級機器翻譯有不少研究工作?;谏舷挛姆治鲋髡Z省略和指代消解等問題,他更傾向于認為是理解問題而非翻譯問題,但可以將兩者結合起來實現(xiàn)更好的翻譯結果。

  其次,有些問題應該分成兩個環(huán)節(jié)來考慮,比如原文錯誤,人會通過理解對其進行糾正錯誤后翻譯,但是對于機器翻譯來說,它認為這是用戶想要表達的意思,不能輕易自動修改原文,導致錯誤的翻譯。這就引出一點,機器翻譯是不是和別的技術融合在一起使用的效果更好。

  **后,一詞多義跟結構歧義的問題是現(xiàn)在做得不夠好,不是機器翻譯沒有能力解決,機器翻譯建模的核心就是為了解決這兩個問題。

  宗成慶老師指出,現(xiàn)在機器翻譯的基本假設是,只要收集到足夠多樣本就行。但這個假設是有問題的,**,模型能否學成存疑,第二,不應該只基于樣本,還有日常生活經(jīng)歷和常識等?,F(xiàn)在的模型還不夠智能,提供足夠的樣本也無法學成,這也是提出基于知識的機器翻譯的原因。

  張民老師從學術界的角度分析了機器翻譯存在的兩個重大問題。一是篇章問題,翻譯本來應該根據(jù)上下文理解和邏輯分析,但目前機器翻譯建模方法都是句子對句子,在句子層面把翻譯看作是純數(shù)學映射,因此深度學習的方法如果遇上語料訓練缺失的情況急劇下降。二是知識和推理驅動,不僅僅是語言學知識,還包括常識知識、領域知識、世界知識等。

  預訓練的提出與背景補充構想

  劉洋老師舉了一個例子,有高翻在法國為了翻譯一本很厚的地鐵資料,坐了一周的法國地鐵,向乘務員詢問各種信息,后來為核電站翻譯也是如此,要知道設備的用途,他認為翻譯的絕大功夫都是花在對背景知識的理解。

  而反觀現(xiàn)在的機器翻譯,還是基于數(shù)據(jù),沒有上升到知識。預訓練是一個非常不一樣的想法,在單語數(shù)據(jù)上設計相關問題的學習任務,這樣數(shù)據(jù)幾乎是無限的,然后在上面訓練模型。

  過去一年,預訓練的方法基本刷榜了LP任務,普遍提升8-10個點。但是機器翻譯還沒有這么好的效果,因為翻譯的輸出不是簡單的分類,而是整個序列,這個序列光輸出這個詞,就是指數(shù)級的數(shù)據(jù),同時還要排準數(shù)據(jù)和階層,復雜度非常高。

  預訓練和機器翻譯的結合是一個方向,如果提升到基于知識的翻譯系統(tǒng),顯然是更好的策略。目前比較容易想到的是知識圖譜和機器翻譯結合,但這塊沒有突破性的進展。

  李長栓老師也認為專業(yè)翻譯大部分時間是用來查資料的,他舉例,“某一個先生指出,索馬里沿海海島問題,聯(lián)絡小組鼓勵通過法律允許根據(jù)捕獲和釋放的做法進行起訴”,看 完之后不知所云,這就是機器翻譯的結果。

  這種時候專業(yè)翻譯就會去查閱相關資料,明白之后再進行翻譯,“誰誰指出,鑒于一些國家存在先抓后放的做法,某小組鼓勵相關國家通過立法允許起訴”。翻譯是一個不斷調查、不斷獲取文字背后意思的過程,表達的過程是在理解基礎上自然形成的。

  同時李長栓老師也提供了他對機器翻譯的優(yōu)化思路,機器補充知識是機器的優(yōu)勢,它有無窮無盡的語料,翻譯某一句話時就可以利用超鏈接等方式提供相關背景,這樣會更有助于翻譯的進行。

  朱靖波老師根據(jù)自己的經(jīng)驗列舉出好的機器翻譯系統(tǒng)需要的三個東西。一是擴大訓練數(shù)據(jù)規(guī)模,提高品質;二是不斷創(chuàng)新技術;三是根據(jù)問題不斷打磨,三者缺一不可。他把機器翻譯技術的概念擴大到兩個不同對象之間的等價轉換,并認為機器翻譯與人工智能和NLP不同,機器翻譯是一個產(chǎn)業(yè),機器翻譯+也是一個產(chǎn)業(yè)。

  宗成慶老師認為雖然現(xiàn)在機器翻譯問題很多,但是不用悲觀,從研究角度講,只有發(fā)現(xiàn)問題才能改進問題,問題代表了進步空間。

  機器翻譯的突破口在于產(chǎn)生新的范式

  朱靖波老師認為未來機器翻譯的突破口在于產(chǎn)學研形成閉環(huán),應用需求不斷推進機器翻譯理論和技術研究。

  劉洋老師表示,必須要在范式上進行革新,要找到好的策略和方法,充分利用非標注數(shù)據(jù)。或者能把數(shù)據(jù)用好,或者能夠從未標注數(shù)據(jù)中提煉出知識,這兩點都非常關鍵。

  李長栓老師認為,機器翻譯在中英文間的切換還是很困難,但是在新聞語言等領域,機器翻譯的質量已經(jīng)很高。未來的突破還是要回歸到范式或者是思維方法的改變上來,從句子當中抓取意思,再重新表達,這是人做翻譯時的思維過程,未來機器翻譯也是這樣。

  宗成慶老師補充道,高質量的機器翻譯結果并非一定要達到信達雅,那是人類翻譯的終極目標,目前在某些場景的翻譯結果已經(jīng)很好,未來還需要解決更細節(jié)的問題。從某種意義上講,現(xiàn)在神經(jīng)網(wǎng)絡機器翻譯的性能已經(jīng)接近天花板,未來一定是對翻譯模型進行改進和提高,從技術應用和產(chǎn)業(yè)發(fā)展的角度講,需要明確具體需求和任務,針對性地做定向開發(fā),這是推動整個技術真正走向實用的比較可行的路線。

  張民老師表示,機器翻譯本身既是一個科學問題,又是一個工程問題,未來想要突破,科學上的突破一定要從科學技術上,產(chǎn)生新的范式;工程上的突破一定要依賴知識,而知識需要在不同的領域、需要全人類來解決。


免責聲明:文章部分數(shù)據(jù)、圖片信息來源于互聯(lián)網(wǎng),內容僅供參考,如有侵權請及時聯(lián)系我們進行修改或刪除處理! 謝謝
相關閱讀
Copyright ? 2016-2021 佛山市禪城區(qū)博雅翻譯服務中心 fsxiaoyuan.com All Rights Reserved. 粵ICP備19093485號-1
佛山翻譯服務中心 專業(yè)筆譯 口譯服務 更多類型 82281353 13318391728
五大连池市| 佛教| 永清县| 封丘县| 纳雍县| 江口县| 信宜市| 庆城县| 吉林市| 松阳县| 隆回县| 曲阳县| 太湖县| 兰西县| 盖州市| 木兰县| 乌鲁木齐县| 新和县|