在线观看免费A∨网站,精品二久久香蕉国产线看观看,久久久亚洲熟妇熟女

現(xiàn)在位置：主頁 > 科技 > 搜狗AI交互技術(shù)顛覆語音背后，超強(qiáng)T4助力AI+語音猛沖行業(yè)領(lǐng)先

搜狗AI交互技術(shù)顛覆語音背后，超強(qiáng)T4助力AI+語音猛沖行業(yè)領(lǐng)先

作者：編輯 ? 時(shí)間：2020-04-11 ? 瀏覽：人次

原標(biāo)題：搜狗AI交互技術(shù)顛覆語音背后，超強(qiáng)T4助力AI+語音猛沖行業(yè)領(lǐng)先

智東西（公眾號：zhidxcom）

文|韋世瑋

隨著AI技術(shù)的爆發(fā)和發(fā)展，智能語音技術(shù)已逐漸成為人們生活中最普遍的AI交互技術(shù)之一。

事實(shí)上，語言作為維系人與人之間情感和交際的重要紐帶，一直以不同的承載形式為人們所用。例如在搜狗以語言為核心的AI技術(shù)布局中，從中文、多方言和外國語種的語音識別轉(zhuǎn)寫、AI同傳翻譯，再到個(gè)性化的語音合成和變聲……在人們生活中語言應(yīng)用的方方面面，都不乏搜狗的身影。

如今，搜狗作為國產(chǎn)AI+語音領(lǐng)域顛覆傳統(tǒng)語音行業(yè)領(lǐng)先者之一，AI語音技術(shù)具有高識別率、高準(zhǔn)確率、低時(shí)延和多模態(tài)融合等優(yōu)勢，已廣泛應(yīng)用到教育、商務(wù)、旅游等多個(gè)應(yīng)用場景，并已深入你我身邊的千家萬戶中。

其中，搜狗語音識別準(zhǔn)確率最高可達(dá)98%，語音日均請求量已達(dá)十億級，尤其在錄音筆行業(yè)，其搜狗輸入法通過AI賦能，也已為市場超90%的錄音筆提供接入服務(wù)。

智東西發(fā)現(xiàn)，在搜狗AI技術(shù)體系一次次引領(lǐng)行業(yè)創(chuàng)新，顛覆傳統(tǒng)行業(yè)生態(tài)的背后，是搜狗AI算法平臺(tái)和深度學(xué)習(xí)平臺(tái)Eva搭建起的“骨架”。而AI平臺(tái)和深度學(xué)習(xí)框架的背后，強(qiáng)大的算力平臺(tái)也助力其構(gòu)筑起了語音領(lǐng)域的強(qiáng)大的競爭力和領(lǐng)先性。

那么，在搜狗多年的AI業(yè)務(wù)布局中，搜狗是如何逐漸構(gòu)筑起自己龐大的AI交互技術(shù)生態(tài)？近日，智東西與搜狗AI交互事業(yè)部首席科學(xué)家陳偉進(jìn)行了深入交流，試圖探尋搜狗AI交互技術(shù)其背后的故事，進(jìn)一步挖掘智能語音技術(shù)的核心與發(fā)展。

一、國內(nèi)AI語音行業(yè)先鋒，語音處理日請求量超十幾億次

2020年開年以來，新型冠狀肺炎病毒疫情一直影響著國內(nèi)市場的復(fù)工和發(fā)展，但陳偉帶領(lǐng)的搜狗AI交互技術(shù)團(tuán)隊(duì)在科研領(lǐng)域的技術(shù)應(yīng)用和研究，并沒有受到影響而減緩。

“搜狗在AI領(lǐng)域始終堅(jiān)持的就是以語言為核心?！标悅フ劦?，他所帶領(lǐng)的搜狗AI交互事業(yè)部團(tuán)隊(duì)，核心解決的問題則是圍繞自然交互領(lǐng)域，讓人機(jī)交互更加自然，尤其是多模態(tài)的交互。

實(shí)際上，搜狗以語言為核心的AI技術(shù)主要布局自然交互和知識計(jì)算兩大賽道。

搜狗AI主要通過語音和圖像的感知、對話、翻譯等來實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互；另一方面，知識計(jì)算則更多地圍繞基于海量的網(wǎng)絡(luò)數(shù)據(jù)或已有數(shù)據(jù)，通過搜索和自然語言處理（NLP），從中抽取出真正的知識以解決問題。

從2012年起，隨著搜狗開始投入智能語音技術(shù)的研發(fā)，其AI團(tuán)隊(duì)規(guī)模已發(fā)展至將近1000人。

而在搜狗AI體系構(gòu)建的背后，有一個(gè)名為Eva的搜狗深度學(xué)習(xí)平臺(tái)則發(fā)揮了關(guān)鍵作用。

“在深度神經(jīng)網(wǎng)絡(luò)建立之前，搜狗的每一項(xiàng)技術(shù)如語音合成和語音識別，是兩個(gè)獨(dú)立的方向?！标悅ソ榻B到，但在Eva構(gòu)建之后，從底層的模型架構(gòu)到算法設(shè)計(jì)等方面都形成了一個(gè)端到端的有機(jī)整體。

通俗地說，就是它能夠?qū)⒄Z音、圖像、NLP等技術(shù)集成在一起，為研發(fā)人員統(tǒng)一提供深度學(xué)習(xí)模型的訓(xùn)練。

由于最初的模型和算法并不復(fù)雜，搜狗一開始的深度神經(jīng)網(wǎng)絡(luò)仍然依靠CPU來運(yùn)行。但隨著數(shù)據(jù)的增長和算法復(fù)雜度的提升，模型訓(xùn)練的數(shù)據(jù)規(guī)模十分龐大，CPU早已無法滿足深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求。

例如，在語音模型訓(xùn)練過程中，動(dòng)輒需要十幾萬小時(shí)的數(shù)據(jù)?！皠e說CPU，就算用數(shù)十塊英偉達(dá)GPU來進(jìn)行訓(xùn)練，也需要數(shù)月的時(shí)間才能完成?！标悅フf。

因此，隨著深度神經(jīng)網(wǎng)絡(luò)并行計(jì)算需求的增加，以及模型愈發(fā)復(fù)雜，搜狗從2013年后開始逐漸探索用GPU來對模型進(jìn)行訓(xùn)練，以持續(xù)迭代線上的AI服務(wù)性能。據(jù)了解，基于英偉達(dá)強(qiáng)大的GPU算力支持，目前搜狗語音的日均請求量已達(dá)十億以上。

二、英偉達(dá)GPU+超大規(guī)模推理平臺(tái)，助力搜狗AI語音兩大創(chuàng)新方向

而在搜狗強(qiáng)大AI交互技術(shù)過程中，英偉達(dá)T4和TensorRT為搜狗實(shí)現(xiàn)算力突破，創(chuàng)新行業(yè)提供了強(qiáng)勁的技術(shù)支持。

在陳偉看來，英偉達(dá)GPU在訓(xùn)練和推理兩個(gè)方向都提供了強(qiáng)大的算力支持。

一是面向線下的模型訓(xùn)練，需要GPU具有充分強(qiáng)大的算力和足夠的顯存，以驅(qū)動(dòng)模型基于大數(shù)據(jù)的訓(xùn)練，如目前使用的TeslaV100和P40；二是面向線上的推理和部署，這對GPU顯存和算力的需求相對較小，適合對大規(guī)模海量計(jì)算機(jī)進(jìn)行部署，如TeslaP4和T4。

其中，T4GPU專為優(yōu)化和提升AI性能而打造，配備了英偉達(dá)TurningTensor核心，能夠在實(shí)現(xiàn)高效算力的同時(shí)，進(jìn)一步支持服務(wù)器實(shí)現(xiàn)AI訓(xùn)練和推理的橫向擴(kuò)展。

T4GPU具有三大性能優(yōu)勢。一是其能夠優(yōu)化可擴(kuò)展服務(wù)器，能效高出CPU的50倍以上，大大降低運(yùn)營成本；二是它具有多精度計(jì)算特性，可實(shí)現(xiàn)FP32、FP16到INT8以及INT4精度的突破性AI性能，其訓(xùn)練性能達(dá)到CPU的9.3倍，推理性能超36倍；三是它能夠加速深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的訓(xùn)練、推理、視頻解碼和虛擬桌面，并支持所有AI框架和網(wǎng)絡(luò)模型，進(jìn)一步提高大規(guī)模部署的效用。

此外，搜狗在使用GPU推理的過程中，還利用了英偉達(dá)超大規(guī)模推理平臺(tái)TensorRT，以加速深度神經(jīng)網(wǎng)絡(luò)的推理。

據(jù)了解，TensorRT超大規(guī)模推理平臺(tái)是英偉達(dá)專為全球開發(fā)者和數(shù)據(jù)科學(xué)家們開發(fā)，其配備了英偉達(dá)T4GPU，能夠加速圖像、語音、翻譯和推薦系統(tǒng)等廣泛領(lǐng)域的神經(jīng)網(wǎng)絡(luò)。同時(shí)，它還支持加速業(yè)內(nèi)各大主流的深度學(xué)習(xí)框架，例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2。

“好的算法和龐大的數(shù)據(jù)，一定需要好的運(yùn)算平臺(tái)?！痹陉悅タ磥?，英偉達(dá)的GPU和AI推理平臺(tái)為搜狗AI技術(shù)體系的構(gòu)建，提供了批量運(yùn)算或并行運(yùn)算的能力，并逐漸形成良好的開發(fā)生態(tài)。

三、T4加持，語音識別準(zhǔn)確率高達(dá)98%

如今，搜狗在自然交互和知識計(jì)算兩個(gè)AI戰(zhàn)略方向上，布局了語音、計(jì)算機(jī)視覺、對話、翻譯、問答多個(gè)領(lǐng)域，并在搜狗分身、搜狗同傳、搜狗變聲等多個(gè)差異化賽道持續(xù)領(lǐng)跑，對算力需求進(jìn)一步提升。

“隨著搜狗語音識別、多模態(tài)識別（語音+唇語）、OCR、機(jī)器翻譯、語音合成、圖像生成等應(yīng)用場景和需求的擴(kuò)展，它們對算力資源的需求是根據(jù)不同任務(wù)而定的?！标悅ヅe例，搜狗的多模態(tài)識別服務(wù)，是將語音和唇語的兩個(gè)模態(tài)融合后再進(jìn)行識別，而這一多模態(tài)感知的方式也使得模型對運(yùn)算的要求更加復(fù)雜。

在陳偉看來，AI語音領(lǐng)域?qū)\(yùn)算的需求只會(huì)越來越大。他說，盡管近幾年語音識別顛覆性的創(chuàng)新和突破越來越少，但現(xiàn)有技術(shù)還在持續(xù)迭代中，模型本身的學(xué)習(xí)能力也將不斷加強(qiáng)。

與此同時(shí)，隨著5G、IoT技術(shù)的推動(dòng)，大數(shù)據(jù)也在急劇爆發(fā)和增長，這對于AI公司來說無疑意味著更復(fù)雜的模型和更龐大的訓(xùn)練數(shù)據(jù)，從而對GPU的算力提出了更高要求。

在搜狗的語音轉(zhuǎn)寫應(yīng)用中，語音識別準(zhǔn)確率是影響用戶體驗(yàn)和應(yīng)用的重要因素之一。

據(jù)介紹，目前搜狗語音輸入法在業(yè)內(nèi)具有領(lǐng)先的中英自由說能力、遠(yuǎn)場語音識別解決方案，以及業(yè)界首創(chuàng)的語音修改能力。例如，搜狗語音輸入法能識別日韓英法等10余種外語和粵川等10種方言，支持語音增強(qiáng)和個(gè)性化交互，同時(shí)其語音識別準(zhǔn)確率最高為98%，日均語音輸入調(diào)用次數(shù)突破十億次。

實(shí)際上，搜狗語音識別準(zhǔn)確率的提升，主要依靠算力、深度學(xué)習(xí)技術(shù)和語料數(shù)據(jù)訓(xùn)練。在算力方面，搜狗從2017年起開始采用英偉達(dá)TeslaP4來加速和優(yōu)化語音識別模型。

早在2017年，搜狗通過P4的并行計(jì)算推理速度，將語音識別請求效率提升50%。在之后的兩年時(shí)間里，隨著Cuda升級至9.1以及算力的持續(xù)優(yōu)化，搜狗的語音識別請求效率不斷提升。2019年11月，搜狗將P4升級至T4后效率再度實(shí)現(xiàn)突破，提升20%。

伴隨著引進(jìn)T4GPU，其語音識別峰值日均調(diào)用量也從2017年的3.2億次，迅速增長到了2019年第三季度的8.3億次，有效實(shí)現(xiàn)了對海量識別請求的處理，進(jìn)一步強(qiáng)化了自身語音識別技術(shù)的潛力，為行業(yè)創(chuàng)新和變革提供了新的發(fā)展方向。

四、T4優(yōu)化WaveRNN聲碼器，推動(dòng)源技術(shù)從學(xué)界落地產(chǎn)業(yè)

除了語音識別之外，語音合成亦是檢驗(yàn)語音技術(shù)公司實(shí)力的標(biāo)準(zhǔn)之一。

搜狗語音合成支持男女多風(fēng)格和中英俄多語種共數(shù)十種音色，同時(shí)系統(tǒng)只需用戶上傳5分鐘的音頻，即可生成該說話人的音色，甚至能實(shí)現(xiàn)說話人的風(fēng)格遷移。

技術(shù)方面，搜狗的語音合成技術(shù)基于WaveNet和WaveRNN聲碼器研發(fā)，但由于WaveNet運(yùn)算復(fù)雜度較高，因此它最初很難實(shí)現(xiàn)搜狗線上實(shí)時(shí)生成語音的服務(wù)。

為了優(yōu)化WaveRNN聲碼器，搜狗一方面在WaveRNN源技術(shù)論文的基礎(chǔ)上進(jìn)行了大量的研究工作，并為了實(shí)用化修改大量代碼結(jié)構(gòu)；另一方面則基于T4對WaveRNN進(jìn)行優(yōu)化，并定制開發(fā)實(shí)現(xiàn)的gemm算子，進(jìn)一步降低了語音合成的實(shí)時(shí)解碼率。

搜狗通過T4的優(yōu)化性能，也進(jìn)一步打破學(xué)界與產(chǎn)業(yè)之間的遷移壁壘，真正實(shí)現(xiàn)國內(nèi)語音行業(yè)首創(chuàng)，讓W(xué)aveRNN聲碼器技術(shù)更好地服務(wù)AI語音行業(yè)的創(chuàng)新和發(fā)展。

不僅如此，隨著搜狗AI交互技術(shù)開始涉及更多圖像相關(guān)的應(yīng)用，如虛擬人、OCR、手寫識別、唇語識別、圖像以及視頻生成等，其深度學(xué)習(xí)平臺(tái)對高可用、并行訓(xùn)練服務(wù)能力的需求亦進(jìn)一步提升。

例如，在搜狗AI平臺(tái)對外開放的過程中，會(huì)有大量的用戶涌入，基于平臺(tái)進(jìn)行訓(xùn)練并定制自己的模型，而在這一過程中，搜狗AI平臺(tái)需要在任務(wù)之間做好排隊(duì)調(diào)度，并充分考慮GPU的負(fù)載均衡等問題。

“因此從平臺(tái)層面看，我們的服務(wù)會(huì)通過AI開放平臺(tái)借助深度學(xué)習(xí)的能力，去幫助更多的用戶實(shí)現(xiàn)定制化AI的可能性?！标悅フf到。

值得一提的是，隨著英偉達(dá)TensorRT7的推出，目前搜狗也開始在部分任務(wù)上嘗試使用該平臺(tái)。未來，隨著搜狗AI技術(shù)和業(yè)務(wù)的迭代和創(chuàng)新，也會(huì)將TensorRT7逐步引入到更多任務(wù)中。

五、高算力GPU助推語音交互和AI計(jì)算平臺(tái)未來發(fā)展

如今，搜狗在AI語音聽寫方面，已與愛國者、紐曼、索尼、萬城四家錄音筆行業(yè)頭部企業(yè)成立AI創(chuàng)新聯(lián)盟，聯(lián)合搜狗輸入法為市場超90%的錄音筆提供接入服務(wù)。

除此之外，搜狗通過語音+唇語的多模態(tài)識別技術(shù)研發(fā)唇語識別系統(tǒng)，嘈雜環(huán)境下識別準(zhǔn)確率提升40%以上，同時(shí)搜狗還通過搜狗翻譯、合成和識別等技術(shù)，在跨語言交流、機(jī)器同傳等多個(gè)應(yīng)用領(lǐng)域拿下行業(yè)領(lǐng)先的成績。

未來，隨著AI交互技術(shù)應(yīng)用范圍的不斷擴(kuò)展，搜狗也將針對搜狗AI開放平臺(tái)、多模態(tài)技術(shù)融合等方面進(jìn)行升級。

搜狗將借助AI開放平臺(tái)加速推動(dòng)AI核心能力對外開放；語音識別和語音合成兩方面，包括個(gè)性化語音合成、語音變聲、多模態(tài)交互、手寫識別、多模態(tài)同傳等技術(shù)也將帶來更多的體驗(yàn)創(chuàng)新和升級。

從內(nèi)部看，搜狗也將真正打通各個(gè)研究團(tuán)隊(duì)在GPU資源上的共享能力，并基于平臺(tái)為公司提供一個(gè)相對通用的、統(tǒng)一的一套深度學(xué)習(xí)的并行訓(xùn)練能力。

而這些由內(nèi)而外的技術(shù)升級，也將對GPU性能產(chǎn)生更大的需求。

“不僅僅是對GPU算力需求的增強(qiáng)，同時(shí)也需要GPU能夠?yàn)槲覀兲峁└S富的配套服務(wù)?！痹陉悅タ磥恚ミ_(dá)已逐漸打造了一個(gè)良好的AI生態(tài)，而搜狗作為生態(tài)的一份子，同樣也希望它能夠在生態(tài)上進(jìn)一步支持搜狗的自身業(yè)務(wù)，繼續(xù)助力搜狗AI技術(shù)的創(chuàng)新發(fā)展。

結(jié)語：AI交互技術(shù)應(yīng)用全面爆發(fā)，GPU助力催化行業(yè)創(chuàng)新

語言的多模態(tài)應(yīng)用，不知不覺間已成為人們生活中習(xí)以為常的技術(shù)，一句簡單的語音識別轉(zhuǎn)寫、一次跨語種的同傳翻譯……這些都是AI交互技術(shù)應(yīng)用在全面爆發(fā)的過程中，為人們生活帶來的便利。

而在這些便利技術(shù)背后所催生的巨大算力需求，也為包括搜狗在內(nèi)的許多企業(yè)提出了新的技術(shù)挑戰(zhàn)。而搜狗通過借助強(qiáng)大的GPU計(jì)算平臺(tái)，不僅突破了龐大AI計(jì)算負(fù)載給AI語音帶來的算力瓶頸，亦為搜狗在AI語音領(lǐng)域的創(chuàng)新發(fā)展提供了重要的算力支持。

面對海量的數(shù)據(jù)分析請教，以及比以往更復(fù)雜的模型訓(xùn)練。在這一背景下，AI技術(shù)公司如何開拓并尋找更優(yōu)質(zhì)的技術(shù)支撐，對自身的基礎(chǔ)設(shè)施進(jìn)行更好的優(yōu)化和提升，亦是每一家公司在AI落地和應(yīng)用過程中需要考量的。

轉(zhuǎn)載請保留原文鏈接:http://eatcooks.com/a/keji/2020/0411/44053.html上一篇：上一篇：華為P40系列哪款顏色人氣更高？來看看首批用戶的評價(jià)
下一篇：下一篇：沒有了

廣州熱線

搜狗AI交互技術(shù)顛覆語音背后，超強(qiáng)T4助力AI+語音猛沖行業(yè)領(lǐng)先

隨機(jī)推薦

相關(guān)文章

精彩推薦

熱門看點(diǎn) / 隨機(jī)推薦