現(xiàn)在位置:主頁 > 科技 > “Hey Siri” 背后的黑科技大揭秘!

“Hey Siri” 背后的黑科技大揭秘!

作者:編輯 ? 時間:2020-04-05 ? 瀏覽:人次

原標(biāo)題:“HeySiri”背后的黑科技大揭秘!

作者|VishantBatta

譯者|蘇本如,責(zé)編|伍杏玲

以下是譯文:

如今蘋果手機可隨時檢測并回答“HeySiri”命令,有人可能會想,它是不是在隨時記錄我們的日常生活對話呢?

答案是否定的!

“HeySiri”能做的并沒有我們想象的那么多!

讓我們先看看“HeySiri!”的發(fā)展歷史吧。

“HeySiri!”作為預(yù)裝語音助手Siri的附加功能,于2014年9月在iOS8中發(fā)布。然而,在iOS9(2015年9月)它升級了,只允許被用來識別用戶的個性化語音。

而谷歌助手在2013年之前就已經(jīng)有了這個功能,但是,在你的屏幕關(guān)閉時,它不能支持這個功能。即使是現(xiàn)在,很多安卓手機都不支持這個功能。

讓我們來比較一下用戶體驗,如下圖所示:

常規(guī)方式vs.“HeySiri!”

常規(guī)方式是這樣的:用戶拿起手機->長按home按鈕->Siri啟動。

而在“HeySiri!”方式下,用戶只需說“HeySiri!”,無需按鍵,就可以讓Siri啟動。

這樣有一個好處是,因為當(dāng)用戶不方便使用手操作(如開車時),用戶也可以使用手機的一些功能。

Siri的前身:M9運動協(xié)處理器

“協(xié)處理器”可以理解為具有有限功能和電池消耗的輔助處理器,用來支持即使在手機空閑(屏幕關(guān)閉)時也可以訪問“始終開啟”的功能。

M9運動協(xié)處理器是蘋果協(xié)處理器家族的第三代產(chǎn)品,于2015年9月與iPhone6s一起推出。得益于它基于ARM、64位的A9片上系統(tǒng)所具有的強大的處理能力和微量的電池消耗,這個蘋果手機著名的“喚醒”功能才得以實現(xiàn)。M9有時也被人們描述為“嵌入到運動協(xié)處理器上的始終在線處理器(AOP-AlwaysonProcessor)”

“HeySiri!”是如何工作的?

當(dāng)你第一次啟用這個功能時,它會提示你說一定次數(shù)的“HeySiri!”。然后你的iPhone將這些聲音保存起來,用做將來識別你的個性化聲音的“觸發(fā)鍵”。

這個個性化的“觸發(fā)鍵”保存在協(xié)處理器中,即使你的手機處于空閑狀態(tài),協(xié)處理器也會偵聽(而不是聽到)落到麥克風(fēng)上的所有聲音。

因此,當(dāng)聲音落在麥克風(fēng)上,并與“觸發(fā)鍵”匹配成功后,協(xié)處理器就會激活主處理器開始錄音(就像我們長按主屏幕按鈕打開Siri一樣)。然后,該錄音被發(fā)送到服務(wù)器,并以類似于每個語音助手的過程進行解釋。

想象一下這個過程,就好像你擁有數(shù)千把鑰匙,你正試圖找到哪把鑰匙正好匹配你要打開的鎖。

這里要注意的重要一點是,AOP處理器(A9)總是在“偵聽”而不是“聽”用戶的聲音。它就像一個嬰兒,他一直在聽人說話,但無法完全處理聽到的話,只有在呼喚他的名字時,它才會被觸發(fā)而開始工作。

M9運動協(xié)處理器于2015年9月與iPhone6s一起發(fā)布。但正如本文一開始所說,“HeySiri!”功能早于2014年9月就已經(jīng)推出。那么,早期版本的iPhone是如何能夠“被動地”偵聽呢?

好吧,如果你碰巧認(rèn)識一個擁有iPhone6的人,你可以檢查一下“HeySiri!”。即使你的手機處于空閑狀態(tài)(屏幕關(guān)閉),該功能也只能在充電模式下工作。正如我們可以簡單地推斷的那樣,它僅僅能在充電時獲取少量的額外電量??纯聪旅鎖Phone6Siri的設(shè)置截圖:

“HeySiri!”背后的算法

用戶的聲音會以0.01秒為一幀的單位被采樣下來,然后每次將20個這樣的幀(0.2秒),連續(xù)輸入到深度神經(jīng)網(wǎng)絡(luò)(DNN),神經(jīng)網(wǎng)絡(luò)將這些聲音轉(zhuǎn)換為概率密度函數(shù),當(dāng)該函數(shù)值超過最低閾值時,從而激活主處理器。

DNN訓(xùn)練

這里的閾值不是固定不變的,而是根據(jù)背景噪聲而變化。因此,為了清楚地理解,你可以說DNN每時每刻都在計算閾值。

此外,當(dāng)?shù)谝淮斡涗浤愕恼Z音樣本并生成“觸發(fā)鍵”時,實際上是在訓(xùn)練該DNN并定義權(quán)重以計算概率。

對于不同的口音,DNN的訓(xùn)練是不同的。例如,“HeySiri”的發(fā)音有點像美國英語中的“Serious”,只是它沒有標(biāo)點符號。而“HeySiri!”中的“i”發(fā)音長度不同,而且?guī)в幸粋€驚嘆號。

“HeySiri”背后的數(shù)學(xué)計算

下面的內(nèi)容是為所有機器學(xué)習(xí)愛好者準(zhǔn)備的:)。

這是深度神經(jīng)網(wǎng)絡(luò)(DNN)模型:

DNN模型

總的概率函數(shù)如下:

其中:

  • F(i,t)是模型中狀態(tài)i的累計分?jǐn)?shù)

  • q(i,t)是聲學(xué)模型的輸出。這個輸出是語音類別的對數(shù)分?jǐn)?shù),它與時間t附近給定語音模式的第i個狀態(tài)有關(guān)

  • s(i)是和留在狀態(tài)i相關(guān)的開銷

  • m(i)是從狀態(tài)i繼續(xù)向后移動的開銷

這里的s(i)和m(i)與定義“觸發(fā)鍵”時訓(xùn)練的權(quán)重相關(guān),可以這樣假設(shè):

s(i)-由“觸發(fā)鍵”的單個幀決定,取決于音調(diào)、音量等參數(shù)。

m(i)-取決于“觸發(fā)鍵”的頻率,或簡而言之速度,以及s(i)參數(shù)改變的大小和快慢。

例如:m(i)和s(i)對埃米納姆(Eminem)和阿黛爾(Adele)來說是非常不同的,因為埃米納姆唱得更快(實際上要快得多),同時變化較小。而阿黛爾唱得更慢些,而且變化更大。

考慮到處理功率和電池消耗,對于協(xié)處理器(32層)和主處理器(192層),DNN中的層級大小是不同的。

“HeySiri!”這項功能雖然沒有被廣泛宣傳,但它卻是朝著自動化和提高移動電話易用性邁出的革命性一步。它也可以被視為一個很好的例子,說明一個小小的改變?nèi)绾螌τ脩趔w驗產(chǎn)生巨大的影響,以及這些小小的革命性改變有時需要進行廣泛的研究。

原文鏈接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

本文為CSDN翻譯,轉(zhuǎn)載請注明來源出處。

熱文推薦

你點的每個“在看”,我都認(rèn)真當(dāng)成了喜歡

轉(zhuǎn)載請保留原文鏈接:http://eatcooks.com/a/keji/2020/0405/43606.html上一篇:上一篇:我想等下半年的蘋果iPhone 12手機,你會等嗎?
下一篇:下一篇:沒有了