2013年2月22日 星期五

[數碼新聞]神經網絡成科技巨頭新寵:人機對話將更自然(視訊)






  導語:美國《連線》雜誌網絡版撰文稱,雖然神經網絡技術早在上世紀80年代就已經成為熱門領域,但後來卻逐漸沉寂。然而,隨著新模式的湧現和GPU的發展,加之 Google 、微軟和IBM等科技巨頭的關注,這一領域又再度炙手可熱。

視頻:微軟最新計算機“同聲傳譯
媒體來源:新浪科技
  以下為文章全文:
  神經網絡

   Google 開發最新一代Android流動操作系統時,這家網絡巨頭對該系統解讀語音指令的方式做出了一些重大調整。它安裝了一套以“神經網絡”為基礎的語音識別系統,也就是一套模擬人腦的計算機學習系統。

  在很多用戶看來,結果顯而易見,其中就包括參與該項目的 Google 研究員文森特‧範好克(Vincent Vanhoucke)。“只是對模型進行了調整就能實現這麼好的效果,的確令人驚訝。”他說。

  範好克表示,新版Android系統(果凍豆)的語音錯誤率比上一代系統下降了約25%,提升了語音指令的用戶滿意度。他表示,用戶更願意在發出語音指令時使用更自然的語言。換句話說,他們的行為已經不那麼像是在跟機器人對話了。“這確實改變了人們的行為方式。”他說。

  神經網絡算法極大地改變了科技運行模式以及我們使用科技的模式,而語音指令只是其中的一個例子。雖然早在1980年代就已經成為最熱門的研究領域之一,神經網絡近年來卻逐漸沉寂。不過,隨著 Google 、微軟和IBM爭相探索這一技術的實用價值,該領域又再度炙手可熱。

  語音分析

  當你與Android語音識別軟件對話時,你的聲譜會被分割,然後發送到 Google 龐大服務器網絡中的8台電腦上,再利用範好克和他的團隊開發的神經網絡模型對數據進行處理。 Google 恰好非常擅長分割龐大的計算任務並快速處理數據。而為了研究具體方法, Google 把任務分配給了傑夫‧迪恩(Jeff Dean)和他的工程師團隊,該團隊最知名的貢獻是重塑了現代數據中心的工作模式。

  神經網絡為範好克這樣的研究人員提供了一種方式,幫助其研究多種多樣的形態──在果凍豆中,則是用戶語音的聲譜圖──然後預測可能會呈現何種全新的形態。這種比喻源於生物學,機體內的神經元與其他細胞構成了一個網絡,使之能以專門的方式處理信號。在果凍豆使用的神經網絡中, Google 可能會分析現實世界中的龐大數據,從而製作多種模型來描繪語言的工作方式──例如,其中一種可以處理英語發出的語音搜索請求。

  “人們很早以前就相信──部分源於你在大腦中看到的內容──要獲得優秀的感知系統,就需要利用多個功能層。”多倫多大學計算機科學教授喬弗利‧辛頓(Geoffrey Hinton)說,“但問題在於,如何高效地學習這些內容。”

  Android首先拍攝下語音指令的圖像,之後由 Google 使用其神經網絡模型分析用戶所說的內容。

   Google 的軟件首先會嘗試瞭解語音中的每個獨立部分──即組成單詞的不同元音和輔音。這是神經網絡的一個層。隨後再使用這些信息展開複雜的猜測,每深入一層,其猜測的結果都會更加接近用戶的真實語義。

  神經網絡算法還可以用於分析圖片。“你希望在像素中尋找一些結構片段,例如,圖片中的一個邊緣。你或許擁有一個特徵探測器層,可以探測小邊緣這樣的事物。當探測完成之後,還會有另外一個特徵探測器層,可以探測邊緣的組合,例如一些邊角。一旦完成,還會再來一層,如此反複持續下去。”辛頓說。

  技術進步

  神經網絡早在1980年代就號稱可以實現類似的功能,但要做到辛頓所描述的這種分析模式卻很睏難。

  但2006年卻出現了兩大重要變化。首先,辛頓和他的團隊找到了一種更好的方式來規劃深層神經網絡──這種網絡可以具備多個不同的聯繫層。其次,低價GPU面市使得學術機構擁有了更加廉價而快速的方式來處理數十億次計算。“這帶來了巨大變化,因為我們的計算速度一夜之間提升了30倍。”辛頓說。

  如今,神經網絡算法正在逐步滲透到語音識別和圖形軟件中,但辛頓認為,這種技術可以用於任何需要進行預測的領域。去年11月,多倫多大學的一個團隊利用神經網絡預測出藥物分子在現實世界中可能的作用方式。

  迪恩表示, Google 現在正在多款產品中使用神經網絡算法──有些只是嘗試,有些不是──但進展都不及果凍豆的語音識別軟件。“圖片搜索領域顯然也有利用價值。”他說,“你肯定希望使用圖片中的某些像素來確定這究竟是什麼物體。” Google 街景也可以利用神經網絡算法來區分其拍攝的不同物體之間有何差異──例如,一棟房子和一個牌照。

  有人或許覺得這項技術與普通人無關,但請注意以下的案例:包括迪恩在內的 Google 研究人員去年開發了一套神經網絡,可以通過自學認出YouTube視頻中的貓。

  微軟和IBM也在研究神經網絡。去年10月,微軟首席研究館里克‧拉什德(Rick Rashid)在天津展示了一款基於神經網絡的語音處理軟件。在展示過程中,拉什德用英語演講,每一句都會停頓一下。令觀眾驚喜的是,微軟的軟件會同步將他的話翻譯成中文,然後“說”出來。這款軟件甚至可以自動調整音調,模仿拉什德的聲音。

  “這個領域有很多工作要做,但這項技術很有前景,我們希望能夠在幾年內打破人與人之間的語言界限。”他說,“我個人認為,這將讓世界更美好。”(思遠)



.[數碼新聞]神經網絡成科技巨頭新寵:人機對話將更自然(視訊)
http://digital1010.blogspot.com/2013/02/blog-post_22.html