中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實(shí)現(xiàn)更為高效的人機(jī)協(xié)同

投稿用戶 ? 2024年6月14日下午12:46 ? 科研百科 ? 閱讀 36

隨著人工智能技術(shù)的不斷發(fā)展，機(jī)器學(xué)習(xí)作為其中的核心分支，已經(jīng)取得了令人矚目的成果。然而，傳統(tǒng)的機(jī)器學(xué)習(xí)主要依賴于單一模態(tài)的數(shù)據(jù)，如文本、圖像或音頻等，忽略了不同模態(tài)數(shù)據(jù)之間的豐富信息和互補(bǔ)性。為了充分利用多模態(tài)數(shù)據(jù)中的信息，多模態(tài)機(jī)器學(xué)習(xí)應(yīng)運(yùn)而生，成為了人工智能領(lǐng)域的一個研究熱點(diǎn)。

什么是多模態(tài)

首先我們要了解什么是“模態(tài)”？模態(tài)是指一些表達(dá)或感知事物的方式，每一種信息的來源或者形式都可以成為一種模態(tài)。如人體有觸覺、聽覺、嗅覺；信息的媒介有語音、視頻、文字；多種多樣的傳感器，如雷達(dá)、紅外、加速計(jì)等。多模態(tài)，亦即從多個模態(tài)表達(dá)或感知事物。通常主要的研究模態(tài)為文本、語音和視覺。

相較于單模態(tài)，多模態(tài)有什么優(yōu)勢呢？首先，在相同條件下收集的多模態(tài)數(shù)據(jù)使得后續(xù)的分析預(yù)測更加魯棒。其次，多模態(tài)數(shù)據(jù)相較于單模態(tài)數(shù)據(jù)提供了更加完備互補(bǔ)的信息。最后，多模態(tài)系統(tǒng)能夠處理部分模態(tài)數(shù)據(jù)缺失的狀況。單模態(tài)系統(tǒng)在模態(tài)數(shù)據(jù)缺失時會失去功能，例如在人物不說話的時候，單模態(tài)的語音情感識別模型無法分析人的情感；在面部被遮擋的時候，單模態(tài)的表情情感識別模型無法分析人的情感，而融合語音和面部表情的多模態(tài)分類器可以解決以上兩種狀況。

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實(shí)現(xiàn)更為高效的人機(jī)協(xié)同

多模態(tài)涉及多模態(tài)學(xué)習(xí)、多模態(tài)交互、多模態(tài)搜索等多個方面，本文中主要探討多模態(tài)學(xué)習(xí)。

多模態(tài)學(xué)習(xí)是指利用來自不同模態(tài)的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)，這些數(shù)據(jù)可以包括文本、圖像、音頻、視頻等。多模態(tài)學(xué)習(xí)的目標(biāo)是結(jié)合不同模態(tài)的數(shù)據(jù)，挖掘出它們之間的內(nèi)在聯(lián)系和互補(bǔ)信息，以提高機(jī)器學(xué)習(xí)模型的性能和泛化能力。

多模態(tài)學(xué)習(xí)原理

多模態(tài)學(xué)習(xí)主要分為模型無關(guān)和模型相關(guān)。模型無關(guān)的劃分不依賴于特定的機(jī)器學(xué)習(xí)算法，主要關(guān)注模態(tài)的融合階段；模型相關(guān)的劃分則關(guān)注特定類型的機(jī)器學(xué)習(xí)算法。

模型無關(guān)多模態(tài)學(xué)習(xí)是最早的研究內(nèi)容，優(yōu)點(diǎn)在于可以使用任意單模態(tài)分類器或者回歸器實(shí)現(xiàn)。模型無關(guān)的多模態(tài)學(xué)習(xí)分為早期融合、后期融合以及混合融合三類。早期融合通過利用模態(tài)之間的相關(guān)性和交互性從特征層出發(fā)進(jìn)行表示學(xué)習(xí)，常見方法有串接和主成分分析。早期融合在訓(xùn)練階段只需要一個模型，相較于后期融合和混合融合更簡單。然而當(dāng)模態(tài)存在缺失或者模態(tài)不配對時，早期融合無法很好利用該模態(tài)信息。后期融合在模型決策階段進(jìn)行融合，為每一個模態(tài)訓(xùn)練一個模型，可以輕松處理模態(tài)缺失的問題。然而后期融合忽略了模態(tài)之間低層語義的相關(guān)關(guān)系。混合融合結(jié)合早期融合和后期融合，可以解決模態(tài)缺失和利用模態(tài)低層語義的相關(guān)關(guān)系，在多媒體事件檢測等領(lǐng)域取得的成功應(yīng)用。

由于模型無關(guān)的多模態(tài)學(xué)習(xí)很容易使用單模態(tài)方法實(shí)現(xiàn)，沒有針對多模態(tài)數(shù)據(jù)進(jìn)行方法研究，因此并不能很好的捕捉多模態(tài)的聯(lián)合表示方式。模型相關(guān)的多模態(tài)學(xué)習(xí)從模型角度入手對多模態(tài)數(shù)據(jù)進(jìn)行研究，主要有三類方法：基于核方法的、基于概率圖模型的和基于神經(jīng)網(wǎng)絡(luò)的方法。這三類方法的原理不在此細(xì)究。

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實(shí)現(xiàn)更為高效的人機(jī)協(xié)同

多模態(tài)學(xué)習(xí)優(yōu)點(diǎn)

Jeff Dean在2019年年底NeurIPS大會上提到機(jī)器學(xué)習(xí)趨勢：多任務(wù)和多模態(tài)將成為突破口。多模態(tài)是未來機(jī)器學(xué)習(xí)的趨勢，因?yàn)樗哂幸韵聝?yōu)點(diǎn)：

信息豐富性：不同模態(tài)的數(shù)據(jù)提供了豐富的信息，如文本描述了事物的概念和屬性，圖像展示了事物的外觀和結(jié)構(gòu)，音頻則反映了事物的聲音和節(jié)奏。結(jié)合這些信息，可以更全面地了解事物的本質(zhì)和特征。

互補(bǔ)性：不同模態(tài)的數(shù)據(jù)在某些情況下可能存在噪聲或缺失，而多模態(tài)學(xué)習(xí)可以利用其他模態(tài)的數(shù)據(jù)進(jìn)行補(bǔ)充和糾正，從而提高模型的魯棒性和準(zhǔn)確性。

泛化能力：多模態(tài)學(xué)習(xí)可以幫助模型學(xué)習(xí)到不同模態(tài)數(shù)據(jù)之間的共同規(guī)律和模式，從而增強(qiáng)模型的泛化能力，使其能夠處理更多樣化和復(fù)雜的數(shù)據(jù)。

多模態(tài)的挑戰(zhàn)與方法

雖然多模態(tài)學(xué)習(xí)具有巨大的潛力，但在表征和特征融合等方面仍存在一些問題，我將其分為了五大挑戰(zhàn)：

特征表達(dá)：通過多模態(tài)特征的互補(bǔ)性，有針對性選擇和設(shè)計(jì)相應(yīng)的模型和算法來表達(dá)多模態(tài)數(shù)據(jù)。但多模態(tài)數(shù)據(jù)的異構(gòu)型使得構(gòu)造這種語義統(tǒng)一的表達(dá)具有較大的挑戰(zhàn)性。例如，純文本大多形式是助記符，但音頻和視覺數(shù)據(jù)表達(dá)形式卻是信號。

映射：它實(shí)現(xiàn)將數(shù)據(jù)從一種模態(tài)關(guān)聯(lián)到另一種模態(tài)。不僅數(shù)據(jù)異構(gòu)，在大多情況下不同模態(tài)之間的關(guān)聯(lián)是通過人的主觀從語義角度認(rèn)定的關(guān)聯(lián)。因此這種人為認(rèn)定的關(guān)聯(lián)，常被按照人為理解的方式關(guān)聯(lián)在一起，而這種關(guān)聯(lián)方式未必是最優(yōu)的。

同步：將來自兩個不同模態(tài)數(shù)據(jù)中的相應(yīng)部分的同步，難以對齊。例如，希望將視頻與需要同步的字幕文本對齊。為了解決這個對齊問題，需要考察不同模態(tài)之間的相似性，而選擇合適的相似性度量標(biāo)準(zhǔn)也是一個挑戰(zhàn)。

融合：將多個模態(tài)的信息融合起來完成預(yù)測。因不同模態(tài)的數(shù)據(jù)可能具有不同的信息量和噪聲，帶有不同信息量的數(shù)據(jù)之間的融合可能導(dǎo)致預(yù)測能力下降。

協(xié)同學(xué)習(xí)：這個挑戰(zhàn)主要在于模式、表達(dá)和預(yù)測模型之間傳遞知識。協(xié)同學(xué)習(xí)有助于在一個不同的的模態(tài)上計(jì)算另一個模型。

為了解決這些挑戰(zhàn)，我們需要不斷優(yōu)化數(shù)據(jù)獲取與處理流程、涉及高效的融合策略、充分利用深度學(xué)習(xí)技術(shù)，以解決多模態(tài)學(xué)習(xí)在表征、對齊、融合等方面的難題。

多模態(tài)的應(yīng)用前景

多模態(tài)能夠應(yīng)用在具有同源不同視角數(shù)據(jù)的應(yīng)用場合：視聽語音識別、圖像標(biāo)注、行為檢測、跨模態(tài)檢索、跨模態(tài)哈希、視頻跟蹤等。

視聽語音識別：最早的多模態(tài)學(xué)習(xí)應(yīng)用是視聽語音識別，現(xiàn)在最新的應(yīng)用是視頻標(biāo)注，它可以根據(jù)視頻，生成視頻對應(yīng)的文本描述。

跨模態(tài)檢索：隨著文本、圖像、視頻、音頻和三維模型等多媒體數(shù)據(jù)的快速增長，跨媒體檢索越來越具有吸引力，用戶可以通過這些數(shù)據(jù)獲得不同的結(jié)果。通過輸入眾多媒體類型的任一種類型輸入作為查詢條件，檢索得到同一類型或者不同類型語義匹配的異構(gòu)的媒體數(shù)據(jù)。

多模態(tài)機(jī)器學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支，具有廣闊的應(yīng)用前景和巨大的發(fā)展?jié)摿?。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展，多模態(tài)學(xué)習(xí)將在未來發(fā)揮更加重要的作用，推動人工智能技術(shù)的不斷創(chuàng)新和發(fā)展。

多模態(tài)交互技術(shù)一直是北京中煙創(chuàng)新科技有限公司（簡稱：中煙創(chuàng)新）研究重要方向之一，多模態(tài)交互在中煙創(chuàng)新多產(chǎn)品和項(xiàng)目中都有應(yīng)用，多模態(tài)交互技術(shù)和中煙創(chuàng)新智慧審核平臺有機(jī)結(jié)合，實(shí)現(xiàn)了更為高效的人機(jī)協(xié)同。

在多模態(tài)交互技術(shù)的推動下，人機(jī)協(xié)同的方式將越來越多樣化、智能化。未來，中煙創(chuàng)新將多模態(tài)交互技術(shù)和人機(jī)協(xié)同應(yīng)用到各個領(lǐng)域，提升人類的交互品質(zhì)和辦公效率。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

個人科研項(xiàng)目管理工具有哪些個人科研項(xiàng)目管理工具有哪些

上一篇 2024年6月14日下午12:40

科研項(xiàng)目簡單可行性報(bào)告怎么寫科研項(xiàng)目簡單可行性報(bào)告怎么寫

下一篇 2024年6月14日下午12:51

云圖控股申報(bào)的科研項(xiàng)目

云圖控股申報(bào)的科研項(xiàng)目——基于人工智能的可視化智能分析系統(tǒng) 隨著人工智能的不斷發(fā)展，可視化智能分析系統(tǒng)已經(jīng)成為當(dāng)前人工智能技術(shù)的一個重要應(yīng)用領(lǐng)域。云圖控股作為一家專注于大數(shù)據(jù)和人工…

投稿用戶
科研百科 2025年3月31日
50
精益化項(xiàng)目申報(bào)

精益化項(xiàng)目申報(bào)：推動企業(yè)創(chuàng)新和改進(jìn) 隨著市場競爭的加劇和企業(yè)客戶需求的不斷變化，企業(yè)需要不斷地進(jìn)行創(chuàng)新和改進(jìn)，以保持競爭優(yōu)勢。而精益化項(xiàng)目申報(bào)則是實(shí)現(xiàn)這一目標(biāo)的有效途徑之一。精益…

投稿用戶
科研百科 2024年11月27日
60
華融化學(xué)：已建立健全組織機(jī)構(gòu)和內(nèi)控制度，對實(shí)控人不當(dāng)控制風(fēng)險進(jìn)行制約

金融界3月26日消息，有投資者在互動平臺向華融化學(xué)提問：請問貴公司是不是聯(lián)綱所說的家族控股企業(yè)，這件事情是否影響到公司！謝謝。公司回答表示：公司已根據(jù)相關(guān)法律法規(guī)及規(guī)范性文件的規(guī)…

投稿用戶
科研百科 2024年5月11日
510
科研百科

江蘇省徐州這些建設(shè)工程項(xiàng)目要開展招標(biāo)啦（徐州工程項(xiàng)目招標(biāo)公告）

1、徐州市G311交通安全設(shè)施精細(xì)化提升工程.施工招標(biāo)公告　　2、徐州市S254、S253等交通安全設(shè)施精細(xì)化提升工程.施工招標(biāo)公告　　3、2022年度上半年徐州市普通國省道標(biāo)…

投稿用戶
2022年6月18日
5230
黃山科研項(xiàng)目申報(bào)辦理

黃山科研項(xiàng)目申報(bào)辦理黃山是中國著名的旅游勝地，被譽(yù)為“天下第一奇山”。這里有許多令人驚嘆的自然景觀，如奇松、怪石、云海和溫泉等。隨著旅游業(yè)的不斷發(fā)展，黃山已經(jīng)成為了一個備受爭議的…

投稿用戶
科研百科 2025年3月7日
00
科研項(xiàng)目管理制度模板(科研項(xiàng)目管理制度)

科研項(xiàng)目管理制度科研項(xiàng)目管理制度實(shí)施我國高校的辦學(xué)實(shí)力,一直是由全國重點(diǎn)大學(xué)、全國高校和教育組織的組織,各個省份都是在我國的“211工程”,就是在師范類、“航空航天”、“航天”、…

投稿用戶
科研百科 2024年7月30日
30
施工進(jìn)度計(jì)劃及工期保證措施1

施工進(jìn)度計(jì)劃及工期保證措施1 在 construction project 中，制定合理的施工進(jìn)度計(jì)劃是非常重要的。合理的施工進(jìn)度計(jì)劃可以幫助 project 團(tuán)隊(duì)更好地組織施工工…

投稿用戶
科研百科 2025年1月10日
70
科研項(xiàng)目通告

科研項(xiàng)目通告尊敬的各位科學(xué)家們：我們的科研項(xiàng)目“XXX”正在進(jìn)行中。該項(xiàng)目旨在研究XXX，以解決當(dāng)前世界面臨的XXX問題。目前，我們已經(jīng)取得了以下成果： – 確定…

投稿用戶
科研百科 2025年2月19日
30
六安市科技中心孵化資金無償資助項(xiàng)目公示（六安市科技中心孵化資金無償資助項(xiàng)目公示名單）

安徽網(wǎng) 大皖客戶端訊記者從六安市科技局獲悉，2019年度市科技中心孵化資金無償資助項(xiàng)目公示。

投稿用戶
科研百科 2024年4月18日
740
科研項(xiàng)目脫密

科研項(xiàng)目脫密隨著科技的不斷發(fā)展，科研項(xiàng)目已經(jīng)成為現(xiàn)代社會的重要組成部分。然而，隨著科研項(xiàng)目的不斷推進(jìn)，如何保護(hù)科研項(xiàng)目的安全和保密性也成為一個日益重要的問題。在科研項(xiàng)目中，保密…

投稿用戶
科研百科 2025年2月17日
30

中煙創(chuàng)新應(yīng)用多模態(tài)技術(shù)，實(shí)現(xiàn)更為高效的人機(jī)協(xié)同

相關(guān)推薦