隨著人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)作為其中的核心分支,已經(jīng)取得了令人矚目的成果。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)主要依賴于單一模態(tài)的數(shù)據(jù),如文本、圖像或音頻等,忽略了不同模態(tài)數(shù)據(jù)之間的豐富信息和互補(bǔ)性。為了充分利用多模態(tài)數(shù)據(jù)中的信息,多模態(tài)機(jī)器學(xué)習(xí)應(yīng)運(yùn)而生,成為了人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。
什么是多模態(tài)
首先我們要了解什么是“模態(tài)”?模態(tài)是指一些表達(dá)或感知事物的方式,每一種信息的來(lái)源或者形式都可以成為一種模態(tài)。如人體有觸覺(jué)、聽(tīng)覺(jué)、嗅覺(jué);信息的媒介有語(yǔ)音、視頻、文字;多種多樣的傳感器,如雷達(dá)、紅外、加速計(jì)等。多模態(tài),亦即從多個(gè)模態(tài)表達(dá)或感知事物。通常主要的研究模態(tài)為文本、語(yǔ)音和視覺(jué)。
相較于單模態(tài),多模態(tài)有什么優(yōu)勢(shì)呢?首先,在相同條件下收集的多模態(tài)數(shù)據(jù)使得后續(xù)的分析預(yù)測(cè)更加魯棒。其次,多模態(tài)數(shù)據(jù)相較于單模態(tài)數(shù)據(jù)提供了更加完備互補(bǔ)的信息。最后,多模態(tài)系統(tǒng)能夠處理部分模態(tài)數(shù)據(jù)缺失的狀況。單模態(tài)系統(tǒng)在模態(tài)數(shù)據(jù)缺失時(shí)會(huì)失去功能,例如在人物不說(shuō)話的時(shí)候,單模態(tài)的語(yǔ)音情感識(shí)別模型無(wú)法分析人的情感;在面部被遮擋的時(shí)候,單模態(tài)的表情情感識(shí)別模型無(wú)法分析人的情感,而融合語(yǔ)音和面部表情的多模態(tài)分類器可以解決以上兩種狀況。
多模態(tài)涉及多模態(tài)學(xué)習(xí)、多模態(tài)交互、多模態(tài)搜索等多個(gè)方面,本文中主要探討多模態(tài)學(xué)習(xí)。
多模態(tài)學(xué)習(xí)是指利用來(lái)自不同模態(tài)的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),這些數(shù)據(jù)可以包括文本、圖像、音頻、視頻等。多模態(tài)學(xué)習(xí)的目標(biāo)是結(jié)合不同模態(tài)的數(shù)據(jù),挖掘出它們之間的內(nèi)在聯(lián)系和互補(bǔ)信息,以提高機(jī)器學(xué)習(xí)模型的性能和泛化能力。
多模態(tài)學(xué)習(xí)原理
多模態(tài)學(xué)習(xí)主要分為模型無(wú)關(guān)和模型相關(guān)。模型無(wú)關(guān)的劃分不依賴于特定的機(jī)器學(xué)習(xí)算法,主要關(guān)注模態(tài)的融合階段;模型相關(guān)的劃分則關(guān)注特定類型的機(jī)器學(xué)習(xí)算法。
模型無(wú)關(guān)多模態(tài)學(xué)習(xí)是最早的研究?jī)?nèi)容,優(yōu)點(diǎn)在于可以使用任意單模態(tài)分類器或者回歸器實(shí)現(xiàn)。模型無(wú)關(guān)的多模態(tài)學(xué)習(xí)分為早期融合、后期融合以及混合融合三類。早期融合通過(guò)利用模態(tài)之間的相關(guān)性和交互性從特征層出發(fā)進(jìn)行表示學(xué)習(xí),常見(jiàn)方法有串接和主成分分析。早期融合在訓(xùn)練階段只需要一個(gè)模型,相較于后期融合和混合融合更簡(jiǎn)單。然而當(dāng)模態(tài)存在缺失或者模態(tài)不配對(duì)時(shí),早期融合無(wú)法很好利用該模態(tài)信息。后期融合在模型決策階段進(jìn)行融合,為每一個(gè)模態(tài)訓(xùn)練一個(gè)模型,可以輕松處理模態(tài)缺失的問(wèn)題。然而后期融合忽略了模態(tài)之間低層語(yǔ)義的相關(guān)關(guān)系?;旌先诤辖Y(jié)合早期融合和后期融合,可以解決模態(tài)缺失和利用模態(tài)低層語(yǔ)義的相關(guān)關(guān)系,在多媒體事件檢測(cè)等領(lǐng)域取得的成功應(yīng)用。
由于模型無(wú)關(guān)的多模態(tài)學(xué)習(xí)很容易使用單模態(tài)方法實(shí)現(xiàn),沒(méi)有針對(duì)多模態(tài)數(shù)據(jù)進(jìn)行方法研究,因此并不能很好的捕捉多模態(tài)的聯(lián)合表示方式。模型相關(guān)的多模態(tài)學(xué)習(xí)從模型角度入手對(duì)多模態(tài)數(shù)據(jù)進(jìn)行研究,主要有三類方法:基于核方法的、基于概率圖模型的和基于神經(jīng)網(wǎng)絡(luò)的方法。這三類方法的原理不在此細(xì)究。
多模態(tài)學(xué)習(xí)優(yōu)點(diǎn)
Jeff Dean在2019年年底NeurIPS大會(huì)上提到機(jī)器學(xué)習(xí)趨勢(shì):多任務(wù)和多模態(tài)將成為突破口。多模態(tài)是未來(lái)機(jī)器學(xué)習(xí)的趨勢(shì),因?yàn)樗哂幸韵聝?yōu)點(diǎn):
信息豐富性:不同模態(tài)的數(shù)據(jù)提供了豐富的信息,如文本描述了事物的概念和屬性,圖像展示了事物的外觀和結(jié)構(gòu),音頻則反映了事物的聲音和節(jié)奏。結(jié)合這些信息,可以更全面地了解事物的本質(zhì)和特征。
互補(bǔ)性:不同模態(tài)的數(shù)據(jù)在某些情況下可能存在噪聲或缺失,而多模態(tài)學(xué)習(xí)可以利用其他模態(tài)的數(shù)據(jù)進(jìn)行補(bǔ)充和糾正,從而提高模型的魯棒性和準(zhǔn)確性。
泛化能力:多模態(tài)學(xué)習(xí)可以幫助模型學(xué)習(xí)到不同模態(tài)數(shù)據(jù)之間的共同規(guī)律和模式,從而增強(qiáng)模型的泛化能力,使其能夠處理更多樣化和復(fù)雜的數(shù)據(jù)。
多模態(tài)的挑戰(zhàn)與方法
雖然多模態(tài)學(xué)習(xí)具有巨大的潛力,但在表征和特征融合等方面仍存在一些問(wèn)題,我將其分為了五大挑戰(zhàn):
特征表達(dá):通過(guò)多模態(tài)特征的互補(bǔ)性,有針對(duì)性選擇和設(shè)計(jì)相應(yīng)的模型和算法來(lái)表達(dá)多模態(tài)數(shù)據(jù)。但多模態(tài)數(shù)據(jù)的異構(gòu)型使得構(gòu)造這種語(yǔ)義統(tǒng)一的表達(dá)具有較大的挑戰(zhàn)性。例如,純文本大多形式是助記符,但音頻和視覺(jué)數(shù)據(jù)表達(dá)形式卻是信號(hào)。
映射:它實(shí)現(xiàn)將數(shù)據(jù)從一種模態(tài)關(guān)聯(lián)到另一種模態(tài)。不僅數(shù)據(jù)異構(gòu),在大多情況下不同模態(tài)之間的關(guān)聯(lián)是通過(guò)人的主觀從語(yǔ)義角度認(rèn)定的關(guān)聯(lián)。因此這種人為認(rèn)定的關(guān)聯(lián),常被按照人為理解的方式關(guān)聯(lián)在一起,而這種關(guān)聯(lián)方式未必是最優(yōu)的。
同步:將來(lái)自兩個(gè)不同模態(tài)數(shù)據(jù)中的相應(yīng)部分的同步,難以對(duì)齊。例如,希望將視頻與需要同步的字幕文本對(duì)齊。為了解決這個(gè)對(duì)齊問(wèn)題,需要考察不同模態(tài)之間的相似性,而選擇合適的相似性度量標(biāo)準(zhǔn)也是一個(gè)挑戰(zhàn)。
融合:將多個(gè)模態(tài)的信息融合起來(lái)完成預(yù)測(cè)。因不同模態(tài)的數(shù)據(jù)可能具有不同的信息量和噪聲,帶有不同信息量的數(shù)據(jù)之間的融合可能導(dǎo)致預(yù)測(cè)能力下降。
協(xié)同學(xué)習(xí):這個(gè)挑戰(zhàn)主要在于模式、表達(dá)和預(yù)測(cè)模型之間傳遞知識(shí)。協(xié)同學(xué)習(xí)有助于在一個(gè)不同的的模態(tài)上計(jì)算另一個(gè)模型。
為了解決這些挑戰(zhàn),我們需要不斷優(yōu)化數(shù)據(jù)獲取與處理流程、涉及高效的融合策略、充分利用深度學(xué)習(xí)技術(shù),以解決多模態(tài)學(xué)習(xí)在表征、對(duì)齊、融合等方面的難題。
多模態(tài)的應(yīng)用前景
多模態(tài)能夠應(yīng)用在具有同源不同視角數(shù)據(jù)的應(yīng)用場(chǎng)合:視聽(tīng)語(yǔ)音識(shí)別、圖像標(biāo)注、行為檢測(cè)、跨模態(tài)檢索、跨模態(tài)哈希、視頻跟蹤等。
視聽(tīng)語(yǔ)音識(shí)別:最早的多模態(tài)學(xué)習(xí)應(yīng)用是視聽(tīng)語(yǔ)音識(shí)別,現(xiàn)在最新的應(yīng)用是視頻標(biāo)注,它可以根據(jù)視頻,生成視頻對(duì)應(yīng)的文本描述。
跨模態(tài)檢索:隨著文本、圖像、視頻、音頻和三維模型等多媒體數(shù)據(jù)的快速增長(zhǎng),跨媒體檢索越來(lái)越具有吸引力,用戶可以通過(guò)這些數(shù)據(jù)獲得不同的結(jié)果。通過(guò)輸入眾多媒體類型的任一種類型輸入作為查詢條件,檢索得到同一類型或者不同類型語(yǔ)義匹配的異構(gòu)的媒體數(shù)據(jù)。
多模態(tài)機(jī)器學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支,具有廣闊的應(yīng)用前景和巨大的發(fā)展?jié)摿ΑkS著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,多模態(tài)學(xué)習(xí)將在未來(lái)發(fā)揮更加重要的作用,推動(dòng)人工智能技術(shù)的不斷創(chuàng)新和發(fā)展。
多模態(tài)交互技術(shù)一直是北京中煙創(chuàng)新科技有限公司(簡(jiǎn)稱:中煙創(chuàng)新)研究重要方向之一,多模態(tài)交互在中煙創(chuàng)新多產(chǎn)品和項(xiàng)目中都有應(yīng)用,多模態(tài)交互技術(shù)和中煙創(chuàng)新智慧審核平臺(tái)有機(jī)結(jié)合,實(shí)現(xiàn)了更為高效的人機(jī)協(xié)同。
在多模態(tài)交互技術(shù)的推動(dòng)下,人機(jī)協(xié)同的方式將越來(lái)越多樣化、智能化。未來(lái),中煙創(chuàng)新將多模態(tài)交互技術(shù)和人機(jī)協(xié)同應(yīng)用到各個(gè)領(lǐng)域,提升人類的交互品質(zhì)和辦公效率。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。