現(xiàn)在位置:主頁(yè) > 經(jīng)濟(jì) > 百度輸入法開(kāi)啟AI輸入時(shí)代,瞄準(zhǔn)Z世代

百度輸入法開(kāi)啟AI輸入時(shí)代,瞄準(zhǔn)Z世代

作者:編輯 ? 時(shí)間:2019-01-18 ? 瀏覽:人次

從機(jī)械鍵盤(pán)被發(fā)明開(kāi)始,人們對(duì)于輸入法就有著特殊的感情,一面對(duì)“鍵盤(pán)”有太多的不舍,即便全觸屏的智能手機(jī)早已普及,輸入時(shí)依舊要依賴(lài)于“虛擬鍵盤(pán)”;一面又急于尋找更為高效的輸入方案,比如篤定語(yǔ)音交互將成為主流的人機(jī)交互方式。

1月16日的百度輸入法發(fā)布會(huì)上,百度輸入法AI探索版正式亮相,不僅將全語(yǔ)音輸入作為默認(rèn)輸入方式,并開(kāi)啟了調(diào)動(dòng)表情、肢體的全感官輸入2.0時(shí)代。曾經(jīng)困擾人們多年的鍵盤(pán)輸入糾結(jié)癥,終于有了新答案。

輸入法AI化,先來(lái)解決三個(gè)痛點(diǎn)

智能手機(jī)的誕生已經(jīng)有了十多個(gè)年頭,可為何語(yǔ)音輸入取代鍵盤(pán)的一幕直到2019年才開(kāi)始出現(xiàn)?要回答這個(gè)問(wèn)題,先要看語(yǔ)音輸入面臨的三個(gè)痛點(diǎn):

1、準(zhǔn)確率能否再高一點(diǎn)?

早在幾年前,百度、科大訊飛等相繼宣布語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)97%,并不懷疑數(shù)字的真實(shí)性,Attention模型已經(jīng)較為成熟,各家也在實(shí)驗(yàn)室里進(jìn)行了大量的機(jī)器學(xué)習(xí),但在實(shí)際應(yīng)用中卻存在兩個(gè)用戶(hù)體驗(yàn)上的“盲點(diǎn)”。

一個(gè)是流式解碼的問(wèn)題。諸如谷歌LAS等傳統(tǒng)Attention模型,大多是基于整句的建模,客觀上需要整句語(yǔ)音上傳到服務(wù)器后,才開(kāi)始聲學(xué)打分計(jì)算和解碼,勢(shì)必會(huì)產(chǎn)生較長(zhǎng)的用戶(hù)等待時(shí)間。

另一個(gè)是長(zhǎng)句建模的精度下降。Attention模型的核心思想是基于整句的全局信息,通過(guò)機(jī)器學(xué)習(xí)選擇和當(dāng)前建模單元最匹配的特征,于是句子越長(zhǎng),識(shí)別難度就越大,出錯(cuò)的概率越高,錯(cuò)誤前后傳導(dǎo)的概率也越高。

為了解決這些“盲點(diǎn)”,百度創(chuàng)新性地提出了流式多級(jí)截?cái)嘧⒁饬δP蚐MLTA,先使用CTC算法對(duì)連續(xù)語(yǔ)音流進(jìn)行截?cái)?,然后?duì)每一個(gè)階段的語(yǔ)音進(jìn)行建模,把原來(lái)整句的建模,變成了局部語(yǔ)音小段的Attention建模,同時(shí)引入多級(jí)Attention機(jī)制避免CTC的插入刪除錯(cuò)誤對(duì)系統(tǒng)的影響,最終在識(shí)別精度上提升了15%,并在保持計(jì)算量、解碼速度等方面和傳統(tǒng)CTC模型持平。

2、離線狀態(tài)下該怎么玩?

作為一款基礎(chǔ)工具,輸入法要應(yīng)對(duì)各種場(chǎng)景,比如在地鐵、電梯等信號(hào)弱,或者人流密集的環(huán)境下,傳統(tǒng)的“虛擬鍵盤(pán)”似乎不會(huì)有太多影響,全語(yǔ)音輸入?yún)s要回答另一個(gè)疑問(wèn):如何在離線狀態(tài)下保證語(yǔ)音識(shí)別效率?

為了解決用戶(hù)的多元輸入場(chǎng)景需求,百度輸入法持續(xù)優(yōu)化了Deep Peak 2系統(tǒng),除了SMLTA上的創(chuàng)新,還大幅提升了離線語(yǔ)音的識(shí)別準(zhǔn)確率,相較于行業(yè)平均水平提升了35%,不斷縮小離線識(shí)別和在線識(shí)別在準(zhǔn)確率上的差距。

百度語(yǔ)音技術(shù)總監(jiān)高亮在發(fā)布會(huì)上進(jìn)行了一場(chǎng)離線PK,參賽選手分別是百度輸入法AI探索版、訊飛輸入法和搜狗輸入法,結(jié)果顯示百度輸入法的識(shí)別準(zhǔn)確率和識(shí)別速度要明顯高于另外兩家友商的產(chǎn)品?;蛟S離線識(shí)別還不夠完美,至少百度輸入法已經(jīng)可以滿(mǎn)足離線場(chǎng)景先的精準(zhǔn)輸入。

3、語(yǔ)言混合輸入如何解?

語(yǔ)言在不斷進(jìn)化,年輕人群尤為如此,明明在說(shuō)漢語(yǔ),卻夾雜著各種英文詞匯,有時(shí)還會(huì)蹦出兩個(gè)日語(yǔ)或韓語(yǔ)單詞;有時(shí)候前一句是普通話(huà),下一句可能冒出一句家鄉(xiāng)話(huà)……輸入法的使命儼然是順應(yīng)潮流,那么也就必須解決漢語(yǔ)和外語(yǔ)、方言與方言、方言和普通話(huà)來(lái)回切換等特殊場(chǎng)景。

常見(jiàn)的解決方案是“手動(dòng)切換”,比如你想要用四川話(huà)進(jìn)行語(yǔ)音輸入,先要到輸入法的設(shè)置中將語(yǔ)言設(shè)定為四川話(huà),說(shuō)普通話(huà)的時(shí)候再去切換回來(lái)。如此不僅未能解決語(yǔ)言混輸?shù)膯?wèn)題,還進(jìn)一步增加了用戶(hù)的學(xué)習(xí)成本,體驗(yàn)自然不盡如人意。

百度輸入法的優(yōu)勢(shì)在于,不局限在國(guó)內(nèi)市場(chǎng)的布局,百度海外輸入法已經(jīng)擴(kuò)充到了120門(mén)語(yǔ)言,百度輸入法的語(yǔ)音團(tuán)隊(duì)也在配合市場(chǎng)布局持續(xù)發(fā)力,陸續(xù)上線了日語(yǔ)、英語(yǔ)、印地語(yǔ)、西班牙語(yǔ)、印度英語(yǔ)等語(yǔ)言識(shí)別,為了適應(yīng)一些國(guó)家語(yǔ)言混輸?shù)奶攸c(diǎn),百度輸入法很早就推出本了地語(yǔ)言和英語(yǔ)混輸?shù)墓δ?。有了海外市?chǎng)的成熟經(jīng)驗(yàn),應(yīng)對(duì)國(guó)內(nèi)市場(chǎng)的“中英混輸”自然不在話(huà)下。

此外為了解決方言混輸?shù)碾y題,百度輸入法將普通話(huà)和六大方言融合成一個(gè)語(yǔ)音識(shí)別模型,進(jìn)而實(shí)現(xiàn)了方言與方言、方言與普通話(huà)的混合語(yǔ)音輸入。截止到目前,百度輸入法還是唯一實(shí)現(xiàn)高精度中英文混合語(yǔ)音輸入、方言免切換語(yǔ)音輸入的輸入法產(chǎn)品。

為何要先于行業(yè)邁出第一步,或許會(huì)陰謀家給出“炫技”的論調(diào),但百度語(yǔ)音技術(shù)總監(jiān)高亮的觀點(diǎn)值得借鑒:“我們有一個(gè)理念,技術(shù)只有在產(chǎn)品上使用、讓用戶(hù)真正體驗(yàn)到才是真正的技術(shù),我們絕不會(huì)為了技術(shù)而技術(shù)。”畢竟在輸入法的取舍過(guò)程中,用戶(hù)擺脫雙手的需求早已出現(xiàn),只是百度的視野會(huì)止于此嗎?

輸入多點(diǎn)AI,百度瞄準(zhǔn)了Z世代

如果僅僅從創(chuàng)新的角度來(lái)審視百度輸入法的進(jìn)化,未免會(huì)低估百度的野心,在將全語(yǔ)音輸入作為默認(rèn)輸入方式的同時(shí),諸如拍立活、秀場(chǎng)、表情秀、凌空手寫(xiě)等新表達(dá)和新探索,可以說(shuō)是整場(chǎng)發(fā)布會(huì)的另一大焦點(diǎn)。

比如拍立活可以對(duì)人及動(dòng)物的臉部關(guān)鍵點(diǎn)進(jìn)行識(shí)別,利用貼圖及骨骼蒙皮技術(shù)還原出角色的3D模型,然后利用自研的面部行為編碼系統(tǒng)驅(qū)動(dòng)角色做出豐富的表情,還可以隨意疊加各種AR表情素材,讓表情的制作更加簡(jiǎn)單、有趣。

再比如凌空手寫(xiě)功能,開(kāi)創(chuàng)了全新的文字識(shí)別技術(shù),區(qū)別于其他實(shí)驗(yàn)室中的類(lèi)似概念,百度輸入法的凌空手寫(xiě),不需要特殊的手寫(xiě)筆,也不需要深度攝像頭或多目攝像頭等硬件支持,普通的RGB攝像頭就可以完美支持。

由此不難看到,技術(shù)范的百度正在以自身擅長(zhǎng)的玩法,向崛起的Z世代拋出橄欖枝。

先解釋下什么是Z世代,巴克萊銀行在一份報(bào)告中,將1995年后出生的人群從時(shí)間調(diào)度定義為“Z世代”,并給出了Z世代的典型特征:數(shù)字原住民。并不難理解,Z世代自出生開(kāi)始就生活在互聯(lián)網(wǎng)的海洋里,對(duì)于其他年齡層的用戶(hù)而言,互聯(lián)網(wǎng)可能還只是生活的一小部分,在Z世代的眼中無(wú)異于生活的全部。于是相比于其他年齡層的用戶(hù),Z世代往往是新技術(shù)、新科技、新理念的忠實(shí)擁躉。

在CBNData發(fā)布的《2018互聯(lián)網(wǎng)消費(fèi)生態(tài)大數(shù)據(jù)報(bào)告》中,給95后貼上了“懶”的標(biāo)簽,成為外賣(mài)等上門(mén)服務(wù)的核心消費(fèi)。當(dāng)然也可折射了95后對(duì)于效率的追求,對(duì)傳統(tǒng)行為方式的不滿(mǎn)足,如果只盯著“懶”的一面,注定會(huì)誤解新一代消費(fèi)者,很可能和潛在的商業(yè)前景失之交臂。

百度輸入法顯然深諳于此,較于傳統(tǒng)、低效的鍵盤(pán),Z世代對(duì)語(yǔ)音輸入有著更強(qiáng)烈的訴求,也是語(yǔ)音輸入撬動(dòng)鍵盤(pán)輸入的重要支點(diǎn)。拍立活、凌空手寫(xiě)等近一步印證了百度輸入法打入年輕人群內(nèi)部的野心,想要和年輕用戶(hù)溝通對(duì)話(huà),勢(shì)必要選擇年輕人樂(lè)意接受的方式,解決了產(chǎn)品“盲點(diǎn)”的語(yǔ)音輸入本就是如此,百度輸入法又加上了更多有趣的籌碼,打出一套面向年輕用戶(hù)的組合拳。

在巴克萊銀行給出的數(shù)據(jù)中,預(yù)計(jì)到2020年Z世代將成為全球最大的消費(fèi)群體,或?qū)⒄紦?jù)美國(guó)、歐洲和金磚四國(guó)消費(fèi)市場(chǎng)的40%份額。隱約可以看到,百度輸入法之所以推崇全語(yǔ)音輸入,并向Z世代拋出橄欖枝,絕非是無(wú)意之舉。

尾記

創(chuàng)新的車(chē)輪從未停滯,古老而又活力四射的輸入法早已成為用戶(hù)行為的風(fēng)向標(biāo),如同80后們大多已經(jīng)忘了70后“必修”的五筆,90后對(duì)九宮格輸入法的青睞又被00后們嫌棄……可以預(yù)見(jiàn),當(dāng)Z世代以及更年輕的世代崛起后,傳統(tǒng)的輸入法難逃被淘汰的命運(yùn),取而代之的將是語(yǔ)音、表情、肢體等“AI輸入”。

轉(zhuǎn)載請(qǐng)保留原文鏈接:http://eatcooks.com/a/jingji/20190118/25887.html上一篇:上一篇:電子健康卡,逆襲之路不得不邁過(guò)的三道坎……
下一篇:下一篇:沒(méi)有了