現(xiàn)在位置:主頁 > 科技 > 文本提取一秒搞定 華為OCR技術(shù)到底厲害在哪?

文本提取一秒搞定 華為OCR技術(shù)到底厲害在哪?

作者:編輯 ? 時間:2020-03-24 ? 瀏覽:人次

在生活和工作中,你是不是經(jīng)常會遇到這樣的情況:培訓時,手機里拍了一堆PPT資料,回去一個字一個字手動錄入。瀏覽網(wǎng)頁時,找到了想要的資料,但是發(fā)現(xiàn)“Ctrl+C、Ctrl+V”不起作用,只能截圖先保存著。

而想要把圖片或紙質(zhì)文件上的內(nèi)容變成電子文檔,其實不需那么繁瑣。華為手機上的文本提取功能可以快速提取屏幕上的文字,且支持電話號碼、郵件、網(wǎng)站一步跳轉(zhuǎn),助力高效辦公。

智慧視覺神操作,分分鐘搞定文本提取

那么,這么好用的文本提取功能到底怎么用?其實這就要從我們的手機攝像頭說起,可別小瞧了這個攝像頭,它可是隱藏在手機里的智慧眼??防?、翻譯、識物……一掃便知。文字提取功能只是屬于智慧視覺的一小部分,想要文本提取,就要先打開智慧視覺。

那么如何進入智慧視覺呢?

一是通過手機桌面空白處下拉進入全局搜索,點擊右上角“智慧視覺”圖標;二是打開手機相機,點擊左上角“智慧視覺”圖標,三是直接喚醒華為智慧助手小藝說“打開智慧視覺”即可。

配圖為EMUI10版本界面圖,不同機型、版本請以實物為準

進入智慧視覺后,在“識物”模式下,對著需要提取文字的圖片掃一掃,點擊文字區(qū)域,出現(xiàn)藍色光標后,根據(jù)自己的需要拖選文字,點擊“復制文字”即可提取相關文字。

配圖為EMUI10版本界面圖,不同機型、版本請以實物為準

文本提取變簡單的神器是TA

文本提取功能不僅操作方法簡單,而且能夠快速且準確地錄入一些紙質(zhì)文檔,也能夠提取圖片中需要的文字信息,方便大家的工作和生活。對于能把圖片上的文字一字不漏地提取下來,究竟依賴的是什么秘密武器?其實秘密就在OCR技術(shù)。

OCR的秘密都在這里

很多小伙伴會問OCR是什么?其實OCR即光學字符識別(Optical Character Recognition),是一種對圖片中存在文字的區(qū)域進行定位,再將定位的區(qū)域進行識別,并將其轉(zhuǎn)換成計算機文字的過程。在這里的應用,就是在智能鏡頭的AR場景里,對鏡頭所拍攝到畫面中的文本進行定位(檢測)和識別,最后借助NLP(Natural Language Processing)輸出文本識別結(jié)果。那么,技術(shù)實現(xiàn)要經(jīng)過哪些流程呢?

Step1:檢測+識別,O?CR檢測模型作用凸顯

當我們的鏡頭對準需要提取文本的材料時,當前的畫面會以圖片形式送入OCR檢測模型。在檢測模型中,圖片首先會經(jīng)過負責檢測的卷積神經(jīng)網(wǎng),像人眼睛一樣的卷積神經(jīng)網(wǎng)會把圖片中的文字信息提取出來變成特征圖。檢測模型根據(jù)這些特征圖,預測圖片中的哪些區(qū)域是文本區(qū)域,并輸出相應坐標,以便從原圖中截取出來作為識別模型輸入。

接下來,負責識別的卷積神經(jīng)網(wǎng)會對這些識別模型進行特征提取,提取到的特征信息被送入循環(huán)神經(jīng)網(wǎng),循環(huán)神經(jīng)網(wǎng)就像我們的大腦,會處理、加工、判斷、推理所獲得的信息,最終得到圖片中的文字信息。

當我們的鏡頭對準需要提取文本的材料時,當前的畫面會以圖片形式送入OCR檢測模型。在檢測模型中,圖片會經(jīng)過檢測和識別兩個環(huán)節(jié),最終得到圖片中的文字信息

Step2:校正+優(yōu)化,OCR是個完美主義

通常情況下,檢測和識別出的文本通常需要再次核對以保證其正確性。這是由于在AR場景中,通過OCR技術(shù)檢測到鏡頭畫面的文字,將文本區(qū)域高亮后展示給用戶,得到的文檔往往都不是很完美,很可能帶有傾斜或重影;而文字追蹤功能保證當鏡頭移動導致拍攝畫面抖動時,檢測到的文本區(qū)域保持在原來的位置不變。

在這基礎上,需先進行圖像預處理,做角度矯正和去噪,接著對文檔版面進行分析,將各個字符送入訓練好的OCR識別模型進行字符識別,得到結(jié)果,最后還需要對其進行識別結(jié)果的校正和優(yōu)化。

Step3:定幀后,拖一拖,復制文字輕松搞定

當用戶希望屏幕畫面固定不動,可以點擊檢測到的文本行,這時屏幕會定幀,用戶可手動選擇對檢測和識別到的文字內(nèi)容進行拖選,其效果類似于在文本文檔里,用鼠標對文本內(nèi)容進行拖選。

要實現(xiàn)文本區(qū)域內(nèi)拖選的功能,就需要用到整行拖選技術(shù)。文字整行拖選技術(shù)主要是根據(jù)OCR檢測模型輸出文本區(qū)域的坐標,通過識別用戶的點擊事件,實時記錄用戶點擊的位置,并通過上層UX對用戶拖選到的區(qū)域進行高亮。經(jīng)歷一系列的操作,最后把可復制的文字呈現(xiàn)在用戶面前。

文本提取有哪些難點與挑戰(zhàn)?

看似簡單操作的文本提取,實際要克服的困難可不少。文字的字體、字號、顏色等不統(tǒng)一,容易被誤識別;語言種類繁多,中文、英文、數(shù)字等多種語言混合出現(xiàn),識別難度大;識別時,不可預測光線變化、圖片不清、背景復雜干擾等等,這些都給文本提取帶來了不小的困難。

對于上述的困難,基于華為OCR技術(shù)于業(yè)內(nèi)領先的深度學習文字定位功能和文字識別技術(shù),無論是生活中復雜多變場景,還是不同光照條件,華為OCR技術(shù)能支持多場景、任意版面的文字識別提取,具備英文和數(shù)字、多語種(包括中文、日文、韓語、阿拉伯語、英語和歐洲五國語言等)、以及超過7000個常用漢字的簡繁體識別能力,同時還具有多種垂直場景的識別能力,支持識別如身份證、銀行卡、名片、駕駛證等,滿足生活中大部分場景的文本提取需求。

OCR技術(shù)作為AI技術(shù)的支撐,是一種強有力的識別方式。文字提取、識別物品、掃描習題、翻譯外文時大多都需要依靠OCR技術(shù),使用方法簡單方便。如果你正好有華為手機,不妨體驗一下。

轉(zhuǎn)載請保留原文鏈接:http://eatcooks.com/a/keji/2020/0324/42875.html上一篇:上一篇:云從科技姚志強:把握人口結(jié)構(gòu)變化帶來的數(shù)字化機遇
下一篇:下一篇:沒有了