伊人色综合久久天天小片,99re在线观看视频免费

由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團(tuán)隊(duì)今天宣布，其研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道的中譯英測(cè)試集上，達(dá)到了人類專業(yè)譯者水平。這是首個(gè)在新聞報(bào)道的翻譯質(zhì)量和準(zhǔn)確率上媲美人類專業(yè)譯者的翻譯系統(tǒng)。

微軟技術(shù)院士黃學(xué)東微軟技術(shù)院士，負(fù)責(zé)微軟語(yǔ)音、自然語(yǔ)言和機(jī)器翻譯工作的黃學(xué)東博士表示，這是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)里程碑式的成就。“這是我們的情懷，是非常有意義的工作，”黃學(xué)東告訴新智元：“消除語(yǔ)言障礙，讓人們能更好地溝通，非常有價(jià)值，值得我們多年來(lái)不斷為此付出努力。”

黃學(xué)東驕傲地說(shuō)，2015年微軟率先在圖像識(shí)別ImageNet數(shù)據(jù)集達(dá)到人類水平，2016年在Switchboard對(duì)話語(yǔ)義識(shí)別達(dá)到人類水平，2017在斯坦福問(wèn)答數(shù)據(jù)集SQuAD上達(dá)到人類水平，今天又在機(jī)器翻譯上達(dá)到人類水平，一路走來(lái)，微軟的進(jìn)步激動(dòng)人心，“這是我們共同的成就，我們是站在同行的肩膀上往上走”。

黃學(xué)東表示，微軟語(yǔ)音和NLP組在成立時(shí)，便立下了要在兩年后將機(jī)器翻譯做到人類專業(yè)水平的目標(biāo)。如今，這一目標(biāo)提前實(shí)現(xiàn)，“除了計(jì)算力的大幅提高，深度學(xué)習(xí)方法的提高，我們還結(jié)合了以前在Switchboard上取得的經(jīng)驗(yàn)，數(shù)據(jù)也做了很多整理，比如去除低質(zhì)量的訓(xùn)練數(shù)據(jù)，等等。”黃學(xué)東說(shuō)。

“這既是技術(shù)上的突破，也是工程上的突破，是技術(shù)和工程的完美結(jié)合，只有把過(guò)程中的每一件事情都做好，才能得到這樣的結(jié)果。”

NLP里程碑式突破：首個(gè)媲美人類專業(yè)譯者的機(jī)器翻譯系統(tǒng)

這次微軟的翻譯系統(tǒng)是在數(shù)據(jù)集WMT-17的新聞數(shù)據(jù)集newstest2017上取得了上述成果。WMT是機(jī)器翻譯領(lǐng)域的國(guó)際頂級(jí)評(píng)測(cè)比賽之一。WMT數(shù)據(jù)集也是機(jī)器翻譯領(lǐng)域一個(gè)公認(rèn)的主流數(shù)據(jù)集。其中，newstest2017新聞報(bào)道測(cè)試集由產(chǎn)業(yè)界和學(xué)術(shù)界的合作伙伴共同開(kāi)發(fā)，包括來(lái)自新聞評(píng)論語(yǔ)料庫(kù)的約332K個(gè)句子對(duì)，來(lái)自聯(lián)合國(guó)平行語(yǔ)料庫(kù)的15.8M個(gè)句子對(duì)，以及來(lái)自CWMT語(yǔ)料庫(kù)的9M個(gè)句子對(duì)。

雖然研究人員只進(jìn)行了漢譯英的測(cè)試，但黃學(xué)東表示，英譯漢結(jié)果也應(yīng)該并無(wú)不同。“從技術(shù)上說(shuō)，漢譯英和英譯漢是相同的，只要有足夠的數(shù)據(jù)。”

為了確保翻譯結(jié)果準(zhǔn)確且達(dá)到人類的翻譯水平，微軟研究團(tuán)隊(duì)還邀請(qǐng)了雙語(yǔ)語(yǔ)言顧問(wèn)，將微軟的翻譯結(jié)果與兩個(gè)獨(dú)立的人工翻譯結(jié)果進(jìn)行了比較評(píng)估（全部盲測(cè)）。黃學(xué)東告訴新智元：“當(dāng)機(jī)器翻譯質(zhì)量很差的時(shí)候，使用BLEU評(píng)分還行，但是當(dāng)機(jī)器翻譯質(zhì)量提高以后，就需要靠人類來(lái)評(píng)價(jià)。”

具體說(shuō)，當(dāng)100分是標(biāo)準(zhǔn)滿分時(shí)，微軟的系統(tǒng)得分69.9，專業(yè)譯者68.6，而眾包翻譯得分為67.6。

人類專家的評(píng)估結(jié)果（部分）：其中，Reference-HT為純?nèi)斯しg；Reference-PE為使用Google Translate加人工后期編輯的翻譯；Reference-WMT是WMT原始翻譯，包含錯(cuò)誤；Online-A-1710是2017年10月16日收集的Microsoft翻譯商用系統(tǒng)（production system）；Online-B-1710是2017年10月16日收集的谷歌翻譯商用系統(tǒng)；Sogou是搜狗NMT翻譯系統(tǒng)，這是在2017年WMT中英機(jī)器翻譯競(jìng)賽的冠軍。

機(jī)器翻譯提前7年超越人類譯者，人工智能再下一城

機(jī)器翻譯是科研人員攻堅(jiān)了數(shù)十年的研究領(lǐng)域，曾經(jīng)很多人都認(rèn)為機(jī)器翻譯根本不可能達(dá)到人類翻譯的水平。

2017年中旬，牛津大學(xué)面向機(jī)器學(xué)習(xí)研究人員做了一次大規(guī)模調(diào)查，調(diào)查的內(nèi)容是他們對(duì) AI 進(jìn)展的看法。這些研究人員預(yù)測(cè)，未來(lái)10年，AI 將在許多活動(dòng)中超過(guò)人類，具體預(yù)測(cè)見(jiàn)下表：

微軟的這次突破，將機(jī)器翻譯超越人類業(yè)余譯者的時(shí)間，提前了整整7年，遠(yuǎn)遠(yuǎn)超出了眾多ML研究人員的預(yù)想。

雖然此次突破意義非凡，但微軟研究人員也提醒大家，這并不代表人類已經(jīng)完全解決了機(jī)器翻譯的問(wèn)題，只能說(shuō)明我們離終極目標(biāo)又更近了一步。微軟亞洲研究院副院長(zhǎng)、自然語(yǔ)言計(jì)算組負(fù)責(zé)人周明表示，在WMT17測(cè)試集上的翻譯結(jié)果達(dá)到人類水平很鼓舞人心，但仍有很多挑戰(zhàn)需要解決，比如在實(shí)時(shí)的新聞報(bào)道上測(cè)試系統(tǒng)等。

微軟機(jī)器翻譯團(tuán)隊(duì)研究經(jīng)理Arul Menezes表示，團(tuán)隊(duì)想要證明的是：當(dāng)一種語(yǔ)言對(duì)（比如中-英）擁有較多的訓(xùn)練數(shù)據(jù)，且測(cè)試集中包含的是常見(jiàn)的大眾類新聞詞匯時(shí)，那么在人工智能技術(shù)的加持下，機(jī)器翻譯系統(tǒng)的表現(xiàn)可以與人類媲美。

突破當(dāng)前神經(jīng)機(jī)器翻譯范式局限，性能再上一個(gè)數(shù)量級(jí)

為了能夠取得中-英翻譯的里程碑式突破，來(lái)自微軟亞洲研究院和雷德蒙研究院的三個(gè)研究組，進(jìn)行了跨越中美時(shí)區(qū)、跨越研究領(lǐng)域的聯(lián)合創(chuàng)新。

在這篇有24位作者的論文《機(jī)器翻譯：中英新聞翻譯方面達(dá)到與人類媲美的水平》（Achieving Human Parity on Automatic Chinese to English News Translation ）中，微軟研究團(tuán)隊(duì)描述了他們?yōu)樾侣劃h英翻譯任務(wù)在規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)人類水平所作的努力。

在論文中，作者表示他們解決了當(dāng)前NMT范式的一些局限。他們的研究主要貢獻(xiàn)包括：利用翻譯問(wèn)題的對(duì)偶性（duality），使模型能夠從源語(yǔ)言到目標(biāo)語(yǔ)言（Source to Target）和從目標(biāo)語(yǔ)言到源語(yǔ)言（Target to Source）這兩個(gè)方向的翻譯中學(xué)習(xí)。同時(shí)，這讓我們能同時(shí)從有監(jiān)督和無(wú)監(jiān)督的源數(shù)據(jù)和目標(biāo)數(shù)據(jù)中學(xué)習(xí)。具體而言，我們利用通用的對(duì)偶學(xué)習(xí)（dual learning）方法，并引入聯(lián)合訓(xùn)練（Joint Training）算法，通過(guò)在一個(gè)統(tǒng)一的框架中反復(fù)提高從源語(yǔ)言到目標(biāo)語(yǔ)言翻譯和從目標(biāo)語(yǔ)言到源語(yǔ)言翻譯的模型，從而增強(qiáng)單語(yǔ)源和目標(biāo)數(shù)據(jù)的效果。

NMT系統(tǒng)從左到右自動(dòng)回歸解碼，這意味著在按順序生成輸出期間，之前的錯(cuò)誤將被放大，并可能誤導(dǎo)后續(xù)生成的結(jié)果。這只能部分通過(guò)波束搜索（beam search）進(jìn)行補(bǔ)救。我們提出了兩種方法來(lái)緩解這個(gè)問(wèn)題：推敲網(wǎng)絡(luò)（Deliberation Networks），這是一種基于雙路解碼來(lái)優(yōu)化翻譯的方法；以及在兩個(gè)Kullback-Leibler（KL）散度正則化項(xiàng)上的新訓(xùn)練目標(biāo)，鼓勵(lì)從左到右和從右到左的解碼結(jié)果變得一致。

由于NMT非常容易受到嘈雜訓(xùn)練數(shù)據(jù)、數(shù)據(jù)中的罕見(jiàn)事件以及總體訓(xùn)練數(shù)據(jù)質(zhì)量的影響，論文還討論了數(shù)據(jù)選擇和過(guò)濾的方法，包括跨語(yǔ)言句子表示。

最后，我們發(fā)現(xiàn)我們的系統(tǒng)是完全互補(bǔ)的，因此可以從系統(tǒng)組合中獲益很多，最終實(shí)現(xiàn)了機(jī)器翻譯達(dá)到人類水平的目標(biāo)。

四大技術(shù)加持，神經(jīng)機(jī)器翻譯將成今后機(jī)器翻譯絕對(duì)主流

其中，微軟亞洲研究院機(jī)器學(xué)習(xí)組將他們的最新研究成果——對(duì)偶學(xué)習(xí)（Dual Learning）和推敲網(wǎng)絡(luò)（Deliberation Networks）應(yīng)用在了此次取得突破的機(jī)器翻譯系統(tǒng)中。其中，對(duì)偶學(xué)習(xí)利用的是人工智能任務(wù)的天然對(duì)稱性。當(dāng)我們把訓(xùn)練集中的一個(gè)中文句子翻譯成英文之后，系統(tǒng)會(huì)將相應(yīng)的英文結(jié)果再翻譯回中文，并與原始的中文句子進(jìn)行比對(duì)，進(jìn)而從這個(gè)比對(duì)結(jié)果中學(xué)習(xí)有用的反饋信息，對(duì)機(jī)器翻譯模型進(jìn)行修正。

微軟亞洲研究院副院長(zhǎng)、機(jī)器學(xué)習(xí)組負(fù)責(zé)人劉鐵巖

而推敲網(wǎng)絡(luò)則類似于人們寫文章時(shí)不斷推敲、修改的過(guò)程。通過(guò)多輪翻譯，不斷地檢查、完善翻譯的結(jié)果，從而使翻譯的質(zhì)量得到大幅提升。“我們?cè)谏疃葘W(xué)習(xí)和自然語(yǔ)言這兩者中間找到了一個(gè)平衡點(diǎn)，我們想通過(guò)對(duì)機(jī)器翻譯的研究，從自然語(yǔ)言的角度對(duì)機(jī)器學(xué)習(xí)做進(jìn)一步的理解，找到一些直覺(jué)，再通過(guò)這個(gè)直覺(jué)反過(guò)來(lái)影響機(jī)器學(xué)習(xí)研究的路線，走出盲目嘗試的狀態(tài)。”微軟亞洲研究院副院長(zhǎng)、機(jī)器學(xué)習(xí)組負(fù)責(zé)人劉鐵巖說(shuō)。

那研究人員從推敲網(wǎng)絡(luò)中獲得的直覺(jué)是什么呢？他們發(fā)現(xiàn)，人在做翻譯的時(shí)候，在看見(jiàn)或聽(tīng)完源語(yǔ)言后，腦子里會(huì)形成一個(gè)觀點(diǎn)，這其實(shí)就是編碼的過(guò)程。但是，我們真正把這句話當(dāng)成目標(biāo)語(yǔ)言講出來(lái)，實(shí)際上是三思而后行的。我們不會(huì)一個(gè)字一個(gè)字往出蹦，我們會(huì)先醞釀一下要怎么講，如果是文字翻譯，還可能不斷地修改，讓語(yǔ)句更加通順或者優(yōu)美。

“我們常常說(shuō)，人會(huì)做推敲的事情，是‘僧敲月下門’還是‘僧推月下門’，要琢磨琢磨，上下文關(guān)系用哪個(gè)字更好，如何在一個(gè)機(jī)器學(xué)習(xí)的模型中將這種推敲過(guò)程體現(xiàn)出來(lái)，就是推敲網(wǎng)絡(luò)所要去嘗試的一個(gè)點(diǎn)。”劉鐵巖告訴新智元。

推敲，也就是在解碼器，或者說(shuō)在文本生成的過(guò)程多做點(diǎn)文章，把人的一些直覺(jué)放進(jìn)去。“在我們的DeliberationNet里面，解碼器是有多層的，解碼器先做一遍，可能翻譯得不太好，但從頭到尾翻譯完了，這句翻譯會(huì)再扔給下一個(gè)解碼器再做一遍，這個(gè)過(guò)程可以不斷反復(fù)，不停地去修改之前翻譯的完整結(jié)果，這其實(shí)就在做推敲。我們發(fā)現(xiàn)，這樣推敲后的結(jié)果比只過(guò)一次要好很多，多過(guò)一次時(shí)間代價(jià)會(huì)增多，但是結(jié)果會(huì)更好。”

微軟亞洲研究院副院長(zhǎng)、自然語(yǔ)言計(jì)算組負(fù)責(zé)人周明周明帶領(lǐng)的自然語(yǔ)言計(jì)算組多年來(lái)一直致力于攻克機(jī)器翻譯，這一自然語(yǔ)言處理領(lǐng)域最具挑戰(zhàn)性的研究任務(wù)。周明表示，“由于翻譯沒(méi)有唯一的標(biāo)準(zhǔn)答案，它更像是一種藝術(shù)，因此需要更加復(fù)雜的算法和系統(tǒng)去應(yīng)對(duì)。”

基于之前的研究積累，自然語(yǔ)言計(jì)算組在此次的系統(tǒng)模型中增加了另外兩項(xiàng)新技術(shù)：聯(lián)合訓(xùn)練（Joint Training）和一致性規(guī)范（Agreement Regularization），以提高翻譯的準(zhǔn)確性。聯(lián)合訓(xùn)練可以理解為用迭代的方式去改進(jìn)翻譯系統(tǒng)，用中英翻譯的句子對(duì)去補(bǔ)充反向翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)集，同樣的過(guò)程也可以反向進(jìn)行。一致性規(guī)范則讓翻譯可以從左到右進(jìn)行，也可以從右到左進(jìn)行，最終讓兩個(gè)過(guò)程生成一致的翻譯結(jié)果。

左邊是聯(lián)合訓(xùn)練：從源語(yǔ)言到目標(biāo)語(yǔ)言翻譯（Source to Target）P(y|x) 與從目標(biāo)語(yǔ)言到源語(yǔ)言翻譯（Target to Source）P(x|y)；右邊是一致性規(guī)范

這次使用的技術(shù)，從對(duì)偶學(xué)習(xí)（Dual Learning）、推敲網(wǎng)絡(luò)（Deliberation Network）到一致性規(guī)范（Agreement Regularization），都屬于神經(jīng)機(jī)器翻譯（NMT）方法。而黃學(xué)東也認(rèn)為，今后的機(jī)器翻譯領(lǐng)域，NMT也將成為絕對(duì)主流。“相比統(tǒng)計(jì)機(jī)器翻譯，神經(jīng)機(jī)器翻譯有一個(gè)很大的提高，而這次我們新的系統(tǒng)，相比普通的神經(jīng)機(jī)器翻譯，又有一個(gè)很大的提高。”黃學(xué)東說(shuō)：“我們這次的系統(tǒng)是把很多不同的機(jī)器翻譯系統(tǒng)組合到一起，這些系統(tǒng)每一個(gè)都能獨(dú)立工作，輸出結(jié)果，最終，我們?cè)賹⑦@些結(jié)果綜合起來(lái)，輸出一個(gè)最好的結(jié)果。”

深度學(xué)習(xí)NLP掌握著實(shí)現(xiàn)強(qiáng)人工智能的鑰匙

對(duì)于語(yǔ)音識(shí)別等其它人工智能任務(wù)來(lái)說(shuō)，判斷系統(tǒng)的表現(xiàn)是否可與人類媲美相當(dāng)簡(jiǎn)單，因?yàn)槔硐虢Y(jié)果對(duì)人和機(jī)器來(lái)說(shuō)完全相同，研究人員也將這種任務(wù)稱為模式識(shí)別任務(wù)。

然而，機(jī)器翻譯卻是另一種類型的人工智能任務(wù)，即使是兩位專業(yè)的翻譯人員對(duì)于完全相同的句子也會(huì)有略微不同的翻譯，而且兩個(gè)人的翻譯都不是錯(cuò)的。那是因?yàn)楸磉_(dá)同一個(gè)句子的“正確的”方法不止一種。周明表示：“這也是為什么機(jī)器翻譯比純粹的模式識(shí)別任務(wù)復(fù)雜得多，人們可能用不同的詞語(yǔ)來(lái)表達(dá)完全相同的意思，但未必能準(zhǔn)確判斷哪一個(gè)更好。”

復(fù)雜性讓機(jī)器翻譯成為一個(gè)極有挑戰(zhàn)性的問(wèn)題，但也是一個(gè)極有意義的問(wèn)題。劉鐵巖認(rèn)為，我們不知道哪一天機(jī)器翻譯系統(tǒng)才能在翻譯任何語(yǔ)言、任何類型的文本時(shí)，都能在“信、達(dá)、雅”等多個(gè)維度上達(dá)到專業(yè)翻譯人員的水準(zhǔn)。不過(guò)，他對(duì)技術(shù)的進(jìn)展表示樂(lè)觀，因?yàn)槊磕晡④浀难芯繄F(tuán)隊(duì)以及整個(gè)學(xué)術(shù)界都會(huì)發(fā)明大量的新技術(shù)、新模型和新算法，“我們可以預(yù)測(cè)的是，新技術(shù)的應(yīng)用一定會(huì)讓機(jī)器翻譯的結(jié)果日臻完善。”

研究團(tuán)隊(duì)還表示，他們計(jì)劃將此次技術(shù)突破推廣到其他語(yǔ)言上面，同時(shí)應(yīng)用到微軟的商用多語(yǔ)言翻譯系統(tǒng)產(chǎn)品中。

黃學(xué)東認(rèn)為，神經(jīng)機(jī)器翻譯，或者說(shuō)深度學(xué)習(xí)，最激動(dòng)人心的地方在于，它能夠?qū)W會(huì)自然語(yǔ)言內(nèi)部的embedded feature，把語(yǔ)言的結(jié)構(gòu)，語(yǔ)義結(jié)構(gòu)和語(yǔ)義的表示學(xué)習(xí)出來(lái)，再反饋到系統(tǒng)，從而實(shí)現(xiàn)自然語(yǔ)言理解的突破。

“機(jī)器學(xué)習(xí)需要很多數(shù)據(jù)，NLP沒(méi)有很多標(biāo)注的數(shù)據(jù)，把表示學(xué)習(xí)出來(lái)，還能推廣到其他系統(tǒng)。”黃學(xué)東說(shuō)：“NLP掌握著今后實(shí)現(xiàn)強(qiáng)人工智能的鑰匙。”

轉(zhuǎn)載請(qǐng)注明出處。

人工智能再下一城：機(jī)器翻譯提前7年達(dá)到人類專業(yè)翻譯水平