眾所周知,人工智能目前的快速發(fā)展得益于深度學(xué)習(xí)的興起,但在具體應(yīng)用上,深度學(xué)習(xí)主要在模式識(shí)別(感知智能)中獲得成功,同時(shí)從智能機(jī)理研究上, 腦科學(xué)也逐漸跟人工智能深度融合。人工智能領(lǐng)域,正在由感知智能的初步成功,慢慢走向百花齊放。
近期,由人力資源社會(huì)保障部、中國(guó)科學(xué)院共同主辦,中科院自動(dòng)化所承辦的“人工智能:技術(shù)創(chuàng)新與社會(huì)影響”百千萬(wàn)人才工程創(chuàng)新大講堂成功舉辦,以技術(shù)前沿到產(chǎn)業(yè)熱點(diǎn)、人類倫理到社會(huì)變革為主線探討了人工智能。
億歐也借此采訪了中科院自動(dòng)化研究所副所長(zhǎng)劉成林,作為將模式識(shí)別、深度學(xué)習(xí)等研究方法應(yīng)用于文字識(shí)別等領(lǐng)域的大家,劉成林重新闡釋了人工智能方興未艾之時(shí),識(shí)別、文字識(shí)別等典型模式識(shí)別問(wèn)題的研究難點(diǎn)和重點(diǎn)。
模式識(shí)別是什么?作為人工智能的一個(gè)重要方向,模式識(shí)別的主要任務(wù)是模擬人的感知能力,如通過(guò)視覺(jué)和聽(tīng)覺(jué)信息去識(shí)別理解環(huán)境,又被稱為“機(jī)器感知”或“智能感知”。
人們?cè)谟^察事物或現(xiàn)象的時(shí)候,常常要尋找它與其他事物或現(xiàn)象的不同之處,并根據(jù)一定目的把相似、但又細(xì)節(jié)不同的事物或現(xiàn)象組成一類。字符識(shí)別就是一個(gè)典型的例子,如數(shù)字“4”可以有各種寫法,但都屬于同一類別。人腦具有很強(qiáng)的模式識(shí)別和推廣能力,即使對(duì)于某種不同寫法的“4”,以前雖未見(jiàn)過(guò),也能把它分到“4”所屬的這一類別。人腦的這種對(duì)模式(事物、現(xiàn)象等)進(jìn)行歸類和分類的能力,就是模式識(shí)別,也就是感知能力。
隨著20世紀(jì)40年代電子計(jì)算機(jī)出現(xiàn),50年代人工智能興起,模式識(shí)別在20世紀(jì)60年代初迅速發(fā)展成為一門新學(xué)科。21世紀(jì)以來(lái),模式識(shí)別又逐漸與深度學(xué)習(xí)融合。近年來(lái),深度學(xué)習(xí)和大數(shù)據(jù)的出現(xiàn)推動(dòng)了模式識(shí)別的快速發(fā)展。
對(duì)此,劉成林解釋道,“模式識(shí)別是一個(gè)智能任務(wù),是人工智能的一種形式。機(jī)器學(xué)習(xí),包括深度學(xué)習(xí)是模式識(shí)別背后的基本方法,通過(guò)學(xué)習(xí)(訓(xùn)練)使機(jī)器具備識(shí)別模式的能力。當(dāng)前,用深度學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)模式識(shí)別,能更好的解決問(wèn)題?!?/span>
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一種,是對(duì)生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和信息處理機(jī)制的簡(jiǎn)單模擬。人工神經(jīng)網(wǎng)絡(luò)早在上世紀(jì)40年代就有人研究,50年代和80年代都曾產(chǎn)生較大的影響。近年來(lái),隨著計(jì)算能力的提升,可以訓(xùn)練層數(shù)較多的神經(jīng)網(wǎng)絡(luò)(稱為深度神經(jīng)網(wǎng)絡(luò))來(lái)提升數(shù)據(jù)擬合和識(shí)別能力,有的甚至達(dá)到了1000多層。深度學(xué)習(xí)一般就是指利用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行學(xué)習(xí)。
得益于深度學(xué)習(xí),目前人臉識(shí)別和文字識(shí)別都是人工智能領(lǐng)域應(yīng)用比較成功的方向,可以算是模式識(shí)別借助深度學(xué)習(xí)形成的研究成果。
但劉成林認(rèn)為,目前人臉識(shí)別、文字識(shí)別雖然已應(yīng)用得較為廣泛,但還不能算“應(yīng)用得很好”。
人臉識(shí)別目前應(yīng)用得比較成熟的是門禁、通關(guān)等領(lǐng)域,原因在于被識(shí)別的對(duì)象能主動(dòng)配合,距離攝像頭較近,能拍攝到比較清楚的圖像。很多廠商在用戶配合、光照可控的場(chǎng)景下人臉識(shí)別正確率能達(dá)到99%以上。但在更加復(fù)雜的情況下,如在室外光照不均、距離遠(yuǎn)、人臉視角多變情況下,用監(jiān)控?cái)z像頭進(jìn)行人臉識(shí)別,識(shí)別正確率就會(huì)明顯降低。
目前在計(jì)算機(jī)前端加入AI模塊,只能起輔助作用,復(fù)雜條件下的人臉識(shí)別依舊難以達(dá)到成熟應(yīng)用的程度。劉成林表示,室外自然光照條件下,“人臉識(shí)別正確率還達(dá)不到50%”。
文字識(shí)別領(lǐng)域也是如此。文字識(shí)別目前主要應(yīng)用在書籍和報(bào)紙等的數(shù)字化上。報(bào)紙、金融機(jī)構(gòu)、保險(xiǎn)機(jī)構(gòu)以及快遞行業(yè)的的大量單據(jù),都需要電子化后才能方便檢索、管理和進(jìn)行大數(shù)據(jù)分析。司法界推行智能法務(wù),辦案的文書(有印刷體,也有手寫體)需要電子化。醫(yī)院的病例、教育領(lǐng)域的作業(yè)題、考試答卷等,也都有很大的電子化需求。
同人臉識(shí)別一樣,圖像清晰度和光照等問(wèn)題也是文字識(shí)別的一大難點(diǎn)。平板掃描儀由于光照均勻,對(duì)紙質(zhì)材料掃描得到的圖像清晰度高,文字識(shí)別率較高。而拍照?qǐng)D片的識(shí)別率則會(huì)降低,室外自然場(chǎng)景圖片中的文字檢測(cè)和識(shí)別更是當(dāng)今研究的熱點(diǎn)和難點(diǎn)問(wèn)題。
要克服人臉識(shí)別中低分辨率和光照的問(wèn)題,深度學(xué)習(xí)也存在局限,而運(yùn)用對(duì)抗學(xué)習(xí)的方法來(lái)處理圖像則能提高其清晰度或生成更多樣本。
什么是對(duì)抗學(xué)習(xí)?對(duì)抗學(xué)習(xí)是一種很新的機(jī)器學(xué)習(xí)方法,由加拿大學(xué)者Ian Goodfellow首先提出。對(duì)抗學(xué)習(xí)實(shí)現(xiàn)的方法,是讓兩個(gè)網(wǎng)絡(luò)相互競(jìng)爭(zhēng)對(duì)抗,“玩一個(gè)游戲”。其中一個(gè)是生成器網(wǎng)絡(luò),它不斷捕捉訓(xùn)練庫(kù)里真實(shí)圖片的概率分布,將輸入的隨機(jī)噪聲轉(zhuǎn)變成新的樣本(也就是假數(shù)據(jù))。另一個(gè)是判別器網(wǎng)絡(luò),它可以同時(shí)觀察真實(shí)和假造的數(shù)據(jù),判斷這個(gè)數(shù)據(jù)到底是不是真的。通過(guò)反復(fù)對(duì)抗,生成器和判別器的能力都會(huì)不斷增強(qiáng),直到達(dá)成一個(gè)平衡,最后生成器可生成高質(zhì)量的、以假亂真的圖片。
文字識(shí)別領(lǐng)域要解決的問(wèn)題,除了上文提到的拍照?qǐng)D片、以及手寫筆跡的識(shí)別,小樣本條件下的文字識(shí)別,如古籍的識(shí)別也是一大挑戰(zhàn),因?yàn)橛糜谟?xùn)練的標(biāo)記樣本不足,深度學(xué)習(xí)難以取得較高的識(shí)別率。
小樣本泛化性、自適應(yīng)性、可解釋性、魯棒性是當(dāng)前以深度學(xué)習(xí)為主的模式識(shí)別技術(shù)的主要局限所在,而這些恰恰是人腦的長(zhǎng)處。因此,模式識(shí)別可以從腦科學(xué)和神經(jīng)科學(xué)上尋找新的借鑒,發(fā)展新的類人感知和認(rèn)知機(jī)理的模式識(shí)別學(xué)習(xí)理論與方法。
以泛化能力為例,在訓(xùn)練樣本較少時(shí),可以設(shè)計(jì)與人的記憶方式類似的模型進(jìn)行訓(xùn)練,使機(jī)器記住文字的結(jié)構(gòu)和關(guān)鍵特征,如構(gòu)成文字的筆畫、組合和關(guān)系。這種模型叫“生成模型”,可以記住每一類模式的關(guān)鍵特征及分布,并能生成數(shù)據(jù),如生成滿足一類文字基本結(jié)構(gòu)、細(xì)節(jié)不同的手寫字。生成模型也具有很好的解釋性,在識(shí)別模式的同時(shí)能解釋這個(gè)模式是由哪幾部分構(gòu)成的,幾部分之間是什么關(guān)系。
模式識(shí)別、深度學(xué)習(xí)、對(duì)抗學(xué)習(xí)、腦科學(xué)……越來(lái)越多的人工智能研究路徑進(jìn)入了我們的視野。而對(duì)于人工智能發(fā)展的未來(lái),劉成林也認(rèn)為,深度學(xué)習(xí)依然會(huì)是人工智能研究的主流,但對(duì)抗學(xué)習(xí)、腦科學(xué)、認(rèn)知科學(xué)等的理論方法,都會(huì)與其進(jìn)行融合,共同推進(jìn)人工智能的發(fā)展。
作為信息社會(huì)通用基礎(chǔ)設(shè)施,時(shí)下5G產(chǎn)業(yè)建設(shè)以及發(fā)展如火如荼,并將最終帶動(dòng)數(shù)十萬(wàn)億規(guī)模的社會(huì)經(jīng)濟(jì)發(fā)展。但5G在正式進(jìn)行商用化普及應(yīng)用前的態(tài)勢(shì)如何發(fā)展?5G將為哪些領(lǐng)域的變革帶來(lái)有益賦能?5G將在各行各業(yè)掀起什么樣的市場(chǎng)風(fēng)暴?系列問(wèn)題依然困擾著各界人士。
為進(jìn)一步深入了解產(chǎn)業(yè)發(fā)展脈絡(luò),理解5G產(chǎn)業(yè)現(xiàn)狀以及未來(lái)趨勢(shì),讓各界人士更清晰的洞察5G產(chǎn)業(yè)發(fā)展過(guò)程中的機(jī)遇點(diǎn)。6月14日,經(jīng)上海市經(jīng)濟(jì)和信息化委員會(huì)、上海市商務(wù)委員會(huì)、上海市長(zhǎng)寧區(qū)人民政府指導(dǎo),由億歐公司聯(lián)合承辦的“5G物聯(lián)峰會(huì)”將于上海虹橋世貿(mào)展館舉辦。
億歐“5G物聯(lián)峰會(huì)”將特邀政府、學(xué)界、商業(yè)、投資機(jī)構(gòu)等領(lǐng)域的專業(yè)人士,以多領(lǐng)域視角切入,深究5G產(chǎn)業(yè)發(fā)展脈絡(luò),探索5G賦能各行各業(yè)的新思路、新方法,供行業(yè)內(nèi)外各界人士參考?;顒?dòng)詳情請(qǐng)戳:https://www.iyiou.com/post/ad/id/824