您的當前位置:首頁 > 常見問題
語音助手大戰(zhàn)時代:蘋果Siri為何這么“笨”?
語音助手已經變得無處不在,它就在你的口袋中、家中以及汽車中。你可以使用蘋果公司的Siri設定約會提醒,命令亞馬遜公司的Alexa為你播放歌曲,或者向谷歌助理詢問當?shù)氐奶鞖忸A報。總之,人們與這些非人類助手的互動已經變得很正常。

Siri在2011年登陸iPhone,但是它的底層技術實際上要比你可能想象的陳舊。和對手的產品相比,蘋果的Siri“有些笨”。
語音助手發(fā)展史
80年前,首個能夠處理合成語音的機器由貝爾實驗室在1939年開發(fā)而成。1952年,貝爾實驗室發(fā)明了一款能夠聽懂從0到9語音數(shù)字的機器。兩年后的1954年,一臺與喬治城語言學家合作的IBM機器能夠把60句俄語話翻譯成英語。
1962年,IBM開發(fā)的Shoebox設備能夠聽懂16個單詞。到了1976年,卡內基梅隆大學將機器能夠聽懂的單詞數(shù)量增加到了1000個以上。上世紀80年代中期,機器已經能夠聽懂數(shù)萬個單詞。
自那之后,科學家開始在語音處理技術中融入人工智能(AI)。AI自上世紀50年代以來就已經出現(xiàn)。
在這些技術的積累下,我們現(xiàn)在才擁有了能夠聽懂我們講話的Siri、Alexa、谷歌助理以及微軟的“小娜”。
AI的不同類型
AI是計算機科學家們能夠讓語音助手更加易于使用的一大原因,但是你所理解的AI可能和它的實際含義有所不同。
“AI分為兩種類型,”密歇根州立大學計算機科學和工程教授喬伊斯·柴(Joyce Chai)表示,“強AI主要是處理能夠像人一樣推理、思考或行動的開發(fā)系統(tǒng)。另外一種就是弱AI,它更加專注于具體任務,也包含虛擬語音助手。我們距離實現(xiàn)強AI依舊還有很遠的距離。”
傳統(tǒng)上講,計算機要想就某件事情做出決定,它需要一套人類預定義的規(guī)則。借助AI分支機器學習,計算機通過對大量數(shù)據學習后可以自主推斷出規(guī)則。在這種情況下,他們可以學習人類如何談話和互動,從而聽懂人類的語言。這需要大量數(shù)據。

Siri聽不懂問題
哥本哈根信息技術大學副教授納塔利·舒樂特(Natalie Schluter)解釋稱,這些公司面臨的主要挑戰(zhàn)是通過足夠多樣化的形式獲取充足的數(shù)據,以便讓機器為更多人服務,而不是局限在某個特定人身上。舒樂特表示,在實驗室中開發(fā)出一款只能夠理解你所說話的產品可能十分有趣,但是世界上有許多方言、不同的口音以及不同的聲調。
這不只是量的問題,數(shù)據的種類也很重要。如果你訓練機器的數(shù)據只來自舊金山的白種人,那么你訓練出的AI只能聽懂范圍非常窄的人群。
“蘋果和亞馬遜不乏才華橫溢的員工,”舒樂特表示,“但是有時我們必須確保這些員工對數(shù)據進行干預,保證他們在訓練AI時使用的數(shù)據量適當,并且來自許多不同種類的人群。”
為什么Siri落后了?
那么,為什么Siri不能總是理解你提出的問題呢?
從某種程度上講,這和科學無關,而是與不同公司的實際運作情況有關。“Siri面臨的挑戰(zhàn)之一就是蘋果在早期承諾過多但又做不到所造成的的負面形象。”SoundHound聯(lián)合創(chuàng)始人兼CEO肯揚·曼哈耶爾(Keyvan Mohajer)表示。SoundHound為其他公司提供語音助手、音樂識別技術和語音工具。
曼哈耶爾稱,Siri的另外一個挑戰(zhàn)就是沒能真正像人們期望的那樣快速增加知識庫。亞馬遜Alexa已經從最初的少量技能發(fā)展到了數(shù)萬項。蘋果也沒有真正建立起一個開發(fā)者生態(tài)系統(tǒng)。
另外一個可能導致Siri落后的原因就是蘋果嚴格的隱私標準。在許多語音助手盡可能多的收集用戶數(shù)據來訓練他們的AI時,蘋果一直在宣揚盡量降低這種數(shù)據收集,并進行匿名處理。盡管這可能導致語音助手的用處不夠大,但是蘋果對此不屑一顧。
“我們拒絕接受這種理由,即充分利用技術就意味著放棄你的隱私權。”蘋果CEO蒂姆·庫克(Tim Cook)去年在杜克大學畢業(yè)典禮上發(fā)表演講時稱。
此外,蘋果還是一家出了名的保密公司。“蘋果的員工在干什么,他們所認為真正重要的問題是什么?我們一點也不知道,”舒樂特表示,“通常情況下,我們與谷歌、亞馬遜、微軟以及其他公司的研究人員在同一個領域工作,參加相同的會議。我們發(fā)表文章,一起合作。然而,蘋果的一切卻無從知曉。”
蘋果從谷歌挖來詹南德利亞
但是,蘋果似乎開始越來越認真對待AI了。去年,蘋果從谷歌挖來了知名計算機科學家約翰·詹南德利亞(John Giannandrea)擔任其機器學習和AI策略高級副總裁。今年稍早時候,蘋果又任命伊恩·古德菲洛(Ian Goodfellow)為其機器學習總監(jiān),后者曾是谷歌頂尖AI研究人員之一。
去年年底,風投公司Loup Ventures發(fā)布的一份研究報告顯示,Siri并不是語音助手的領頭羊,但是在追趕競爭對手。本周,蘋果又在全球開發(fā)者大會上宣布對Siri快捷方式進行更新,允許開發(fā)者進一步整合Siri,并升級了Siri的文本轉語音引擎,現(xiàn)在已完全使用由軟件發(fā)出的聲音。
不過,要想讓Siri變得更強大,蘋果還有一些事情要做。“第一版Siri能做12件事,”曼哈耶爾稱,“但是要想變得真正有用,你需要能夠做所有事情。這是覆蓋范圍的問題,增加更多內容,具備一個允許你增加內容,讓理解速度比線性速度更快的架構。”
曼哈耶爾指出,他認為蘋果能夠做到的最有前景的事情之一,就是圍繞著Siri建立一個非常成功的開發(fā)者社區(qū)。他認為,在語音AI領域,還沒有一家公司成功建立開發(fā)者社區(qū)。
免責聲明:文章內容均來自互聯(lián)網,由多科回收整理編輯,版權歸原創(chuàng)者所有,如果你在多科回收上發(fā)現(xiàn)了侵犯你權益的內容,請及時通知多科回收,我們會刪除對你造成侵權的相關內容,以免對你造成影響,謝謝合作~
聯(lián)系方式 :
微信公眾號:多科回收(duokehuishouwang)
微信客服:duokehuishou
語音助手已經變得無處不在,它就在你的口袋中、家中以及汽車中。你可以使用蘋果公司的Siri設定約會提醒,命令亞馬遜公司的Alexa為你播放歌曲,或者向谷歌助理詢問當?shù)氐奶鞖忸A報。總之,人們與這些非人類助手的互動已經變得很正常。

Siri在2011年登陸iPhone,但是它的底層技術實際上要比你可能想象的陳舊。和對手的產品相比,蘋果的Siri“有些笨”。
80年前,首個能夠處理合成語音的機器由貝爾實驗室在1939年開發(fā)而成。1952年,貝爾實驗室發(fā)明了一款能夠聽懂從0到9語音數(shù)字的機器。兩年后的1954年,一臺與喬治城語言學家合作的IBM機器能夠把60句俄語話翻譯成英語。
1962年,IBM開發(fā)的Shoebox設備能夠聽懂16個單詞。到了1976年,卡內基梅隆大學將機器能夠聽懂的單詞數(shù)量增加到了1000個以上。上世紀80年代中期,機器已經能夠聽懂數(shù)萬個單詞。
自那之后,科學家開始在語音處理技術中融入人工智能(AI)。AI自上世紀50年代以來就已經出現(xiàn)。
在這些技術的積累下,我們現(xiàn)在才擁有了能夠聽懂我們講話的Siri、Alexa、谷歌助理以及微軟的“小娜”。
AI的不同類型
AI是計算機科學家們能夠讓語音助手更加易于使用的一大原因,但是你所理解的AI可能和它的實際含義有所不同。
“AI分為兩種類型,”密歇根州立大學計算機科學和工程教授喬伊斯·柴(Joyce Chai)表示,“強AI主要是處理能夠像人一樣推理、思考或行動的開發(fā)系統(tǒng)。另外一種就是弱AI,它更加專注于具體任務,也包含虛擬語音助手。我們距離實現(xiàn)強AI依舊還有很遠的距離。”
傳統(tǒng)上講,計算機要想就某件事情做出決定,它需要一套人類預定義的規(guī)則。借助AI分支機器學習,計算機通過對大量數(shù)據學習后可以自主推斷出規(guī)則。在這種情況下,他們可以學習人類如何談話和互動,從而聽懂人類的語言。這需要大量數(shù)據。

Siri聽不懂問題
哥本哈根信息技術大學副教授納塔利·舒樂特(Natalie Schluter)解釋稱,這些公司面臨的主要挑戰(zhàn)是通過足夠多樣化的形式獲取充足的數(shù)據,以便讓機器為更多人服務,而不是局限在某個特定人身上。舒樂特表示,在實驗室中開發(fā)出一款只能夠理解你所說話的產品可能十分有趣,但是世界上有許多方言、不同的口音以及不同的聲調。
這不只是量的問題,數(shù)據的種類也很重要。如果你訓練機器的數(shù)據只來自舊金山的白種人,那么你訓練出的AI只能聽懂范圍非常窄的人群。
“蘋果和亞馬遜不乏才華橫溢的員工,”舒樂特表示,“但是有時我們必須確保這些員工對數(shù)據進行干預,保證他們在訓練AI時使用的數(shù)據量適當,并且來自許多不同種類的人群。”
為什么Siri落后了?
那么,為什么Siri不能總是理解你提出的問題呢?
從某種程度上講,這和科學無關,而是與不同公司的實際運作情況有關。“Siri面臨的挑戰(zhàn)之一就是蘋果在早期承諾過多但又做不到所造成的的負面形象。”SoundHound聯(lián)合創(chuàng)始人兼CEO肯揚·曼哈耶爾(Keyvan Mohajer)表示。SoundHound為其他公司提供語音助手、音樂識別技術和語音工具。
曼哈耶爾稱,Siri的另外一個挑戰(zhàn)就是沒能真正像人們期望的那樣快速增加知識庫。亞馬遜Alexa已經從最初的少量技能發(fā)展到了數(shù)萬項。蘋果也沒有真正建立起一個開發(fā)者生態(tài)系統(tǒng)。
另外一個可能導致Siri落后的原因就是蘋果嚴格的隱私標準。在許多語音助手盡可能多的收集用戶數(shù)據來訓練他們的AI時,蘋果一直在宣揚盡量降低這種數(shù)據收集,并進行匿名處理。盡管這可能導致語音助手的用處不夠大,但是蘋果對此不屑一顧。
“我們拒絕接受這種理由,即充分利用技術就意味著放棄你的隱私權。”蘋果CEO蒂姆·庫克(Tim Cook)去年在杜克大學畢業(yè)典禮上發(fā)表演講時稱。
此外,蘋果還是一家出了名的保密公司。“蘋果的員工在干什么,他們所認為真正重要的問題是什么?我們一點也不知道,”舒樂特表示,“通常情況下,我們與谷歌、亞馬遜、微軟以及其他公司的研究人員在同一個領域工作,參加相同的會議。我們發(fā)表文章,一起合作。然而,蘋果的一切卻無從知曉。”
蘋果從谷歌挖來詹南德利亞
但是,蘋果似乎開始越來越認真對待AI了。去年,蘋果從谷歌挖來了知名計算機科學家約翰·詹南德利亞(John Giannandrea)擔任其機器學習和AI策略高級副總裁。今年稍早時候,蘋果又任命伊恩·古德菲洛(Ian Goodfellow)為其機器學習總監(jiān),后者曾是谷歌頂尖AI研究人員之一。
去年年底,風投公司Loup Ventures發(fā)布的一份研究報告顯示,Siri并不是語音助手的領頭羊,但是在追趕競爭對手。本周,蘋果又在全球開發(fā)者大會上宣布對Siri快捷方式進行更新,允許開發(fā)者進一步整合Siri,并升級了Siri的文本轉語音引擎,現(xiàn)在已完全使用由軟件發(fā)出的聲音。
不過,要想讓Siri變得更強大,蘋果還有一些事情要做。“第一版Siri能做12件事,”曼哈耶爾稱,“但是要想變得真正有用,你需要能夠做所有事情。這是覆蓋范圍的問題,增加更多內容,具備一個允許你增加內容,讓理解速度比線性速度更快的架構。”
曼哈耶爾指出,他認為蘋果能夠做到的最有前景的事情之一,就是圍繞著Siri建立一個非常成功的開發(fā)者社區(qū)。他認為,在語音AI領域,還沒有一家公司成功建立開發(fā)者社區(qū)。
免責聲明:文章內容均來自互聯(lián)網,由多科回收整理編輯,版權歸原創(chuàng)者所有,如果你在多科回收上發(fā)現(xiàn)了侵犯你權益的內容,請及時通知多科回收,我們會刪除對你造成侵權的相關內容,以免對你造成影響,謝謝合作~
聯(lián)系方式 :
微信公眾號:多科回收(duokehuishouwang)
微信客服:duokehuishou