機器視覺應用中的圖像數(shù)據(jù)增廣綜述

發(fā)布時間：所屬分類：計算機職稱論文瀏覽：1次

摘要：摘要：深度學習是目前機器視覺的前沿解決方案，而海量高質量的訓練數(shù)據(jù)集是深度學習解決機器視覺問題的基本保障。收集和準確標注圖像數(shù)據(jù)集是一個極其費時且代價昂貴的過程。隨著機器視覺的廣泛應用，這個問題將會越來越突出。圖像增廣技術是一種有效解決深度學習在少

　　摘要：深度學習是目前機器視覺的前沿解決方案，而海量高質量的訓練數(shù)據(jù)集是深度學習解決機器視覺問題的基本保障。收集和準確標注圖像數(shù)據(jù)集是一個極其費時且代價昂貴的過程。隨著機器視覺的廣泛應用，這個問題將會越來越突出。圖像增廣技術是一種有效解決深度學習在少量或者低質量訓練數(shù)據(jù)中進行訓練的一種技術手段，該技術不斷地伴隨著深度學習與機器視覺的發(fā)展。系統(tǒng)性梳理當前圖像增廣技術研究，從增廣對象、增廣空間、標簽處理和增廣策略生成的角度，分析現(xiàn)有圖像增廣技術的研究范式。依據(jù)研究范式提出現(xiàn)有圖像增廣技術的分類系統(tǒng)，重點介紹每類圖像增廣研究的代表性研究成果。最后，對現(xiàn)有圖像增廣研究進行總結，指出當前圖像增廣研究中存在的問題及未來的發(fā)展趨勢。

　　關鍵詞：深度學習;計算機視覺;圖像增廣;數(shù)據(jù)增廣;圖像增強

　　機器視覺中的圖像處理是人工智能的一個重要的研究領域，包括圖像分類、語義分割、對象分割和目標檢測等應用[1-3] 。現(xiàn)階段，隨著硬件設施的不斷完善和深度學習[4] 技術的提出以及不斷發(fā)展，基于深度學習的圖像分類方法也日新月異。自 Alex等學者將深度卷積網(wǎng)絡 AlexNet[5] 應用在圖像分類中并取得遠比其他傳統(tǒng)圖像分類方法更低的錯誤率后，基于深度學習的圖像處理解決方案成為主流。隨后，新的深度學習網(wǎng)絡結構，如 NiN[6] 、VGG[7] 、ReNet[8] 、GoogLeNet[9] 、 ResNet[10] 、InceptionNet[11- 12] 、MobileNet[13- 15] 、DenseNet[16] 、 EfficientNet[17] 、ResNeXt[18] 和 ResNeSt[19] 等網(wǎng)絡結構被不斷地提出并在不同的圖像應用場景大放異彩。

　　深度學習在計算機視覺領域取得的巨大成功，主要歸功于三大因素[1,20-21] ：(1)強大的深度學習模型的表達容量;(2)不斷增大的可獲得算力;(3)大規(guī)模可獲得的標注數(shù)據(jù)集。為了促進深度學習在不同的圖像處理領域的發(fā)展，數(shù)以萬計的不同類型的圖像數(shù)據(jù)被收集、標注和公開應用，其中最著名的是 ImageNet[22] 。按照圖像應用場景和圖像類型進行劃分，現(xiàn)有數(shù)據(jù)集可以從圖像的類型上分成 2D 數(shù)據(jù)集、2.5D 數(shù)據(jù)集和 3D數(shù)據(jù)集[22-40] ，覆蓋了圖像分類、語義切割、對象分割和自動駕駛等各個應用，極大地促進了深度學習圖像技術的發(fā)展。盡管如此，對于各種專業(yè)領域的深度學習圖像應用，缺少合格的領域圖像數(shù)據(jù)仍然是一個不爭的事實，尤其是在醫(yī)療圖像處理[41-42] 、AI 農業(yè)[43-44] 等領域。

　　He等學者[45] 指出自 2012年 AlexNet[5] 首次使用深度神經(jīng)網(wǎng)絡進行圖像分類并獲得比其他傳統(tǒng)圖像處理方法更好的效果以來到NASNet-A[46] 的提出，ImageNet的 Top-1 分類準確率已經(jīng)從 62.5%提升到 82.7%。同時作者也指出這些成就的取得，不僅僅歸功于網(wǎng)絡模型的設計和優(yōu)化，包括圖像增廣在內的多種優(yōu)化方案和訓練技巧也同樣非常重要。

　　圖像增廣是在有效訓練數(shù)據(jù)受限的情況下解決深度學習模型訓練問題的一種有效方法。大量的增廣技術和方法被提出來豐富和增廣訓練數(shù)據(jù)集，提升神經(jīng)網(wǎng)絡的泛化能力。常見的圖像增廣方法主要基于圖像變換，例如光度變化、翻轉、旋轉、抖動和模糊等[1,41,47-48] 。隨著深度學習中神經(jīng)網(wǎng)絡的層數(shù)不斷擴大，表達能力的不斷提升，為了能夠更好防止模型過擬合，出現(xiàn)了以 mixup[49] 為代表的合成樣本圖像增廣方法[50-57] 和使用生成對抗網(wǎng)絡(generative adversarial nets，GANs)[58] 為代表的虛擬圖像樣本生成的圖像增廣方法[59-63] 等。在不同應用數(shù)據(jù)集和應用場景下，圖像增廣的策略和方法也不盡相同。因此，為了在特定的圖像數(shù)據(jù)集和應用場景中找到最佳的圖像增廣策略，出現(xiàn)了基于算法或模型進行增廣策略搜索的智能圖像增廣相關研究。例如，F(xiàn)awzi 等學者[64] 提出了自適應圖像增廣，Cubuk 等學者[47] 提出了基于循環(huán)神經(jīng)網(wǎng)絡的自動增廣框架。除此以外，還有更多的研究[65-71] 在探索智能或者自動化的圖像增廣技術。

　　當前，圖像增廣的研究層出不窮，各種新方法和新思路不斷地被提出來用于增廣訓練圖像數(shù)據(jù)集。在層出不窮的圖像增廣研究中把握住圖像增廣的范式，對現(xiàn)有圖像增廣研究進行分門別類，對于引導研究人員針對不同的視覺應用找到合適的圖像增廣方法以及啟發(fā)新的圖像增廣研究是非常重要的。

　　本文從圖像增廣的對象、操作的空間、圖像標簽的處理方式和圖像增廣策略的調優(yōu)方式四個維度出發(fā)，歸納出現(xiàn)有圖像增廣研究的主要內容，如圖 1 所示。

　　首先，本文根據(jù)圖像增廣的對象不同分成引入外部圖像的半監(jiān)督增廣，從噪聲生成虛擬圖像樣本的虛擬圖像生成增廣，以及面向圖像訓練數(shù)據(jù)集操作的圖像增廣。其次，本文從增廣操作的空間上，區(qū)別直接在圖像空間(raw image)進行增廣以及在圖像通過模型轉換到隱空間(latent space)增廣。根據(jù)圖像增廣過程中是否需要考慮圖像標注信息以及增廣后產生的新樣本或者新樣本特征的標簽是否出現(xiàn)擾動，本文進一步將圖像增廣分成標簽保留增廣和標簽擾動增廣。最后，本文對使用算法或者模型確定圖像增廣的參數(shù)或者方法的研究歸為智能圖像增廣，用于區(qū)別研究人員制定圖像數(shù)據(jù)增廣方法和具體策略的傳統(tǒng)圖像增廣研究。

　　本文的主要研究內容和貢獻可以總結為：

　　(1)系統(tǒng)性梳理圖像增廣領域的相關研究，提出圖像增廣的研究范式和分類體系，并對現(xiàn)有相關研究工作進行分類。

　　(2)依據(jù)本文提出的圖像增廣分類體系對每個類別中的代表性研究工作及其衍生研究進行客觀的分析對比，并指出這些研究的創(chuàng)新點、適用場景和局限性。

　　(3)討論并總結目前圖像增廣研究領域的發(fā)展現(xiàn)狀、研究挑戰(zhàn)及其未來的發(fā)展方向。

　　本文的內容將按照圖 2所示的內容進行展開。

　　1 基本圖像增廣

　　本文首先對基本圖像變換增廣進行回顧。基本圖像變換增廣的主要特征是面向訓練數(shù)據(jù)集的圖像樣本執(zhí)行特定的圖像變換操作(例如幾何變換、光照變換等)，產生新的圖像樣本的標簽信息與原始圖像樣本的標簽信息保持一致。可以通過以下形式化描述來定義基本圖像變換增廣的范式。

　　1.1 幾何與紋理變換圖像增廣

　　幾何圖像變換和紋理變換是在圖像的幾何空間所進行的增廣操作。主要的增廣方法如表 1所列，包括圖像翻轉、噪聲、模糊、縮放、隨機裁剪、仿射變換等。

　　1.1.1 翻轉增廣

　　圖像的翻轉是指沿著 X 軸或者 Y 軸進行旋轉，使用 I′ 表示翻轉后的圖像。當沿著 y 軸進行翻轉時，I′ 表示左右翻轉(也有文獻稱為水平鏡像)后的圖像樣本。當 X 軸進行翻轉時，I′ 表示上下翻轉(垂直鏡像)后的圖像樣本。翻轉圖像增廣示例如圖 3所示。其中，左邊子圖是原始圖像，中間子圖是在原始圖像上通過水平翻轉后的圖像，右邊子圖是在原始圖像上通過垂直翻轉獲得的圖像。

　　1.1.2 噪聲增廣

　　圖像的噪聲增廣是通過往原始圖像中每個像素加入額外的隨機信息，從而獲得有別于原始圖像的增廣圖像。為了方便起見，使用 M 表示噪聲矩陣，其中 M 與原圖像樣本 I 具有相同的尺寸。當 M 中的每個元素由高斯分布 N(μ,σ2 ) 產生時，稱為高斯圖像噪聲增廣。

　　圖 4 為噪聲增廣的示例。左邊子圖為原始圖 I ，中間子圖為高斯分布產生的隨機數(shù)所填充的噪聲矩陣 M ，最右邊子圖為原始圖像 I 與噪聲矩陣 M 相加后生成的噪聲增廣圖像 I′ 。 1.1.3 模糊增廣圖像模糊的原理是將圖像中的每一個像素的取值重置為與周邊像素相關的取值，例如周邊像素的均值、中位值等。決定該像素取值與周邊像素的范圍稱為模糊半徑，常用 γ 表示。

　　給定圖像模糊半徑 γ ，計算區(qū)域內每個像素的取值方法不同決定了圖像模糊方法的不同。例如，使用高斯分布計算區(qū)域內的每個像素的取值，稱為高斯圖像模糊，使用直方圖均值方法計算區(qū)域的每個像素的圖像模糊方法，稱為直方圖模糊[75] 。如圖 5 所示，左側是原始圖像 I ，右側是經(jīng)過模糊半徑為 2 (γ = 2) 的高斯模糊 (σ = 1.5) 增廣后形成的圖像樣本 I′ 。

　　1.1.4 縮放增廣

　　圖像縮放包括圖像的放大和圖像的縮小。數(shù)據(jù)集的每張圖像的長寬往往不一致，但是深度學習的輸入往往需要一致的圖像尺寸。例如 224 × 224 ，因此圖像縮放增廣在深度學習中經(jīng)常作為預處理操作。給定圖像樣本 I，其任意圖像像素 xi,j ∈ I,0 ≤ i,j < N，N 稱為最大的像素坐標。則圖像的縮放可以理解為任意的圖像像素點 xi,j 沿著坐標軸 X 和 Y 軸上進行縮放，如式(2)所示。其中 (i,j) 為像素的原始坐標， (u,v) 為經(jīng)過縮放后的新坐標，kx 和 ky 為 X 軸和 Y 軸方向的縮放比例。

　　1.1.7 圖像擦除增廣

　　圖像擦除是對圖像樣本 I 的部分信息進行消除，使得消除后的圖像樣本 I′ 僅僅包含 I 的部分信息。圖像擦除增廣的思想是模擬圖像應用場景中的圖像遮擋現(xiàn)象，通過人為地以一定概率對訓練圖像進行“損壞”，并將“損壞”的圖像樣本數(shù)據(jù)輸入給神經(jīng)網(wǎng)絡圖像分類模型，引導模型學習圖像的殘余信息，防止模型過擬合從而最終提升模型在測試樣本的泛化性能。

　　1.2 光學空間變換增廣

　　光學空間變換增廣是通過調整圖像的光學空間進行的增廣操作。主要的光學空間變換增廣包括光照變化和顏色空間轉換。其中，光學變換包括圖像亮度變換、對比度和圖像銳化，顏色空間變換主要包括 RGB 顏色空間與 CMY 顏色空間、XYZ 顏色空間、 HSV 顏色空間、YIQ 顏色空間、YU 顏色空間和 LAB 顏色空間之間的轉化[77] 。常見的光學變換增廣方法如表 2所示。

　　1.2.1 光照變換增廣

　　光照變化增廣包括亮度變化、對比度和圖像銳化增廣等。圖像的亮度變化是直接對圖像樣本 I 的每個像素點進行線性變換操作[78] 。使用 λ 表示圖像亮度變換系數(shù)，則經(jīng)過亮度變化增廣的圖像樣本 I′ 可以通過等式(6)表示，其中 0 < λ < 1 圖像變暗，λ > 1 時圖像樣本變亮。

　　1.2.2 顏色空間變換增廣

　　彩色圖像中，常用的顏色空間主要有RGB顏色空間、CMY 顏色空間、XYZ 顏色空間、HSV 顏色空間、 YIQ 顏色空間、YU 顏色空間和 Lab 顏色空間等[77] 。 RGB 顏色空間是彩色圖像樣本中最常使用的顏色空間。在圖像樣本中使用三個通道表示，每個通道分別表示一種顏色。RGB 顏色模型的紅綠藍三種基色的波長分別是 λR = 700.0 nm ，λG = 700.0 nm 和 λB = 700.0 nm [77] 。RGB 顏色空間的特點在視覺上非常均勻，任意一種顏色可以通過三種顏色混合而成。

　　1.3 基于統(tǒng)計的圖像增廣

　　基于統(tǒng)計的圖像增廣方法通過引入統(tǒng)計學原理對圖像進行建模，通過對統(tǒng)計變量進行變換，達到增廣圖像中關鍵信息的目標。基于統(tǒng)計的圖像增廣算法包括直方圖均衡化增廣、小波變換增廣、偏微分方程增廣和 Retinex 圖像增廣等方法。其中，直方圖均衡化增廣和小波變換增廣兩種方法最為常見[79] 。

　　1.3.1 直方圖均衡化增廣

　　直方圖均衡化增廣是對圖像樣本 I 的輸入灰度映射為增廣后圖像樣本 I′ 的灰度級，使得 I′ 的灰度級具有近似均勻分布的概率密度函數(shù)并最終使得 I′ 比 I 具有更高的對比度和更寬的動態(tài)范圍的過程[79] 。

　　2.4 圖像混合增廣總結

　　圖像混合增廣的最大創(chuàng)新之處就是改變圖像樣本標簽的獨熱標注信息。訓練樣本數(shù)據(jù)集的標簽信息更加平滑，在一定程度上能夠提升網(wǎng)絡的泛化容量。盡管目前有很多不同類型的圖像混合的方式，但是圖像混合研究目前還主要處于實驗科學階段，缺乏完備的科學理論對其進行解釋。

　　3 特征空間增廣

　　特征空間增廣是面向訓練樣本的特征進行增廣，達到提升模型泛化性能的目標。特征空間增廣區(qū)別于傳統(tǒng)圖像空間增廣，增廣操作在樣本經(jīng)過若干個神經(jīng)網(wǎng)絡層所產生的隱向量上進行。使用 Zi = F(Ii ) 表示圖像樣本 Ii 經(jīng)過特征編碼函數(shù) F(∙) 獲得其隱空間的特征 Zi 的過程。與圖像空間增廣類似，特征空間增廣可以依據(jù)特征增廣后的特征標簽是否出現(xiàn)擾動進一步分類成特征變換和特征增廣。

　　特征空間增廣研究匯總如表 4 所示。Devries 和 Taylor 兩位學者在 2017 年 ICLR(The International Conference on Learning Representations)中提出了在數(shù)據(jù)集特征空間實現(xiàn)數(shù)據(jù)增廣的方案 [102] 。該方案由三個步驟構成：首先，使用一個序列自動編碼器從無標簽的數(shù)據(jù) X 中學習該樣本不同序列的表達，并形成該樣本的特征向量集合 C 。然后，將樣本通過編碼器生成樣本的特征，再對特征進行增廣。例如增加噪聲、插值等。最后，經(jīng)過增廣后的特征將可以用于訓練靜態(tài)的特征分類器或者用于訓練序列分類器。該方法用于阿拉伯數(shù)字識別中進行評估，可在基線測試中將錯誤率從 1.53%降至 1.28%。該方法的創(chuàng)新之處是將在樣本空間中的增廣方法遷移到特征空間中，能夠在少量訓練樣本中學習到更強的表達邏輯，從而降低模型的誤差。

　　Liu 等學者認為諸如翻轉、變形、噪聲、裁剪等圖像空間的數(shù)據(jù)增廣方法產生的合理數(shù)據(jù)非常有限，因此 Liu 等學者提出了在特征空間進行線性插值的對抗自動編碼(adversarial autoencoder，AAE)[100] 圖像增廣方法。AAE 是自動變分編碼器(variational autoencoder，VAE)和生成對抗網(wǎng) 絡 GANs 的結合體。 AAE 將自動變分編碼器中的 KL 散度損失替換成生成對抗網(wǎng)絡的判別器損失。

　　AAE 與標準的 VAE 一樣，從圖像樣本 I 經(jīng)過編碼器轉換成隱空間中的特征變量 Z ，在隱空間中對 Z 進行線性插值后再通過解碼器生成增廣樣本 I′ 。不同的是引入對抗網(wǎng)絡從 Z 中進行采樣 P(Z) 作為其中的一個輸入，同時將隱空間中插值后的 Z 作為另外一個輸入，計算兩路輸入之間的對抗損失。AAE 在 CIFAR數(shù)據(jù)集中進行評估后獲得了最優(yōu)的結果。

　　特征空間增廣將在圖像層(raw image layer)的增廣操作泛化到特征隱藏層(latent layer)，使得圖像增廣的范疇更加廣泛和圖像增廣研究的思路更加開闊。同時，研究[96] 表明在特征空間增廣相對于在圖像空間增廣效果更加顯著。未來，更多在圖像空間增廣的研究成果可以在特征空間上進行應用、檢驗和改善。

　　4 半監(jiān)督增廣

　　半監(jiān)督圖像增廣的思路是將訓練數(shù)據(jù)集外的其他未標注數(shù)據(jù)通過半監(jiān)督技術使其加入到訓練數(shù)據(jù)集中，以此達到擴充訓練數(shù)據(jù)集的效果。使用 U = {uk } K k = 0 表示具有 K 個樣本的無標簽數(shù)據(jù)集，使用 Φ(∙) 表示通過使用已有訓練數(shù)據(jù)集 X 進行預訓練的模型。使用 yk ′ = Φ(uk) 表示無標簽樣本 uk 的偽標簽，并將 (uk,yk ′) 加入到訓練數(shù)據(jù)集 X 中，以此達到擴充訓練數(shù)據(jù)集的目標。

　　Han 等[103] 學者提出了基于 Web 的數(shù)據(jù)增廣的方法用于提升圖像分類的效果。增廣的思路總結如下：(1)將相同類別的訓練樣本放入同一個有序列表中，排在越前的樣本代表該類的可信度越大。然后從每個類別的列表中隨機選擇圖像樣本作為種子上傳到 Google 進行以圖搜圖。(2)下載所有的搜索結果，計算所下載圖像樣本與列表中圖像樣本的相似度。滿足相似度閾值的圖像樣本將加入到候選集中，其樣本標簽與種子標簽一致。(3)每個圖像列表中選擇 Top-K 個最高相似度的下載圖像樣本，加入到訓練數(shù)據(jù)集中。該方法的有效性易受到諸如網(wǎng)絡和圖像提供方等外在因素的影響。該方法適合在缺乏額外圖像樣本的情景下作為一種可選的訓練集增廣方法。

　　相關知識推薦：計算機視覺圖像處理論文怎么發(fā)表ei期刊

　　Berthelot 等學者[51] 提出 MixMatch 的半監(jiān)督數(shù)據(jù)增廣方法。首先，MixMatch 使用半監(jiān)督的技術預測 K 個經(jīng)過隨機數(shù)據(jù)增廣后的無標簽樣本的標簽。然后，將 K 個標簽經(jīng)過算法最終確定給出該無標簽樣本的預測標簽。最后使用 mixup 技術隨機從半監(jiān)督增廣獲得數(shù)據(jù)集和已有標簽數(shù)據(jù)集中選擇圖像樣本進行混合形成最終增廣后的訓練數(shù)據(jù)集。

　　作者在 CIFAR-10數(shù)據(jù)集上，使用 MixMatch對沒有標簽的數(shù)據(jù)進行半監(jiān)督學習，使得模型的分類錯誤率降低 4倍。然而，由于 CIFAR數(shù)據(jù)集的分辨率太低以及 MixMatch 方法僅在 CIFAR 數(shù)據(jù)集上進行評估，因此該方法在高分辨率的數(shù)據(jù)集上的效果有待評估。

　　獲取大量的標簽數(shù)據(jù)集是一個昂貴且費時的過程，然而獲取無標簽的原始數(shù)據(jù)集是一個相對容易的事情。而半監(jiān)督數(shù)據(jù)增廣方法能夠將無標簽的數(shù)據(jù)集利用起來提升模型的性能。因此，半監(jiān)督數(shù)據(jù)增廣是圖像增廣的一個重要研究方向。

　　5 虛擬圖像增廣

　　虛擬圖像生成增廣是通過生成模型(主要以生成對抗網(wǎng)絡為主)直接生成圖像樣本，并將生成的樣本加入到訓練集中，從而達到數(shù)據(jù)集增廣的目標。使用 I′= G(Z,y) 表示以噪聲信號 Z 為種子，通過模型 G(∙) 生成標簽為 y 的虛擬樣本。虛擬圖像生成增廣通常使用生成對抗網(wǎng)絡及其衍生網(wǎng)絡作為圖像樣本的生成模型。

　　Goodfellow 等學者[58] 提出生成對抗網(wǎng)絡的模式，讓網(wǎng)絡模型之間通過對抗學習的方式不斷地提升生成網(wǎng)絡的生成質量和判別網(wǎng)絡的判別能力，隨即掀起了一股對抗學習的熱潮。后續(xù) GANs 模型的改善主要是為了解決對抗學習過程中存在的模式坍塌和訓練困難的問題。

　　5.1 GANs的虛擬圖像增廣

　　方法研究[62,104] 表明 GANs 是一種有效的無監(jiān)督的圖像數(shù)據(jù)增廣方法。基于 GANs 的圖像增廣是使用 GANs 及其衍生模型作為工具在已有數(shù)據(jù)集上產生更豐富的圖像樣本，以此達到豐富訓練數(shù)據(jù)樣本提升應用模型在測試集性能的目標。

　　5.1.1 樸素生成對抗網(wǎng)絡

　　將 Goodfellow 等學者[58] 提出的生成對抗模型稱為樸素生成對抗網(wǎng)絡。該模型首次將兩個相互對抗的圖像樣本生成網(wǎng)絡和真假鑒別網(wǎng)絡融合在同一個模型，使用異步訓練的方式相互提高兩個模型的性能。使用圖 17(a)來描述樸素生成對抗網(wǎng)絡的模型。

　　5.1.2 條件生成對抗網(wǎng)絡

　　由于樸素生成對抗網(wǎng)絡[58] 缺少外部類別信息作為指導，訓練過程非常困難，為了給生成器和判別器添加額外信息加快收斂速度，條件生成對抗網(wǎng)絡技術(conditional generative adversarial networks，CGANs)[105] 在生成器的輸入端將待生成樣本的類別信息作為監(jiān)督信號傳入到生成模型中作為約束，如圖 17(b)所示。可以根據(jù)輸入的條件信息生成符合條件的圖像樣本，尤其適合在圖像增廣方面應用[106] 。

　　5.1.3 輔助分類條件對抗網(wǎng)絡

　　為了能夠提供更多的輔助信息進行半監(jiān)督訓練，Odena等學者提出在條件生成對抗網(wǎng)絡的判別器中加入一個額外分類任務，便于在訓練過程中利用原始任務以及分類任務的優(yōu)化對模型進行調優(yōu)，這個方法稱為分類輔助生成對抗網(wǎng)絡(auxiliary classifier generative adversarial networks，ACGAN)[107] 。

　　在 ACGAN 中，除了隨機噪聲圖像 Z 外，每個生成的樣本具有對應的標簽。生成器 G 同時接受噪聲圖像 Z 和待生成的樣本的標簽 C ，產生虛擬圖像 Xfake = G(C,Z) 。判別器接收真實圖像樣本 Xreal 和虛擬圖像樣本 Xfake 的數(shù)據(jù)分布，判斷出樣本是否為真,如果為真則預測出該樣本的類別。ACGAN 的模式可以簡化描述為圖 17(c)，額外的分類任務的加入可以生成更加清晰的圖像并且加入輔助分類器有效緩解了模型崩塌問題。實驗結果表明 ACGAN 在 CIFAR10數(shù)據(jù)集上分類準確性達到同期研究的最好效果。

　　由于 ACGAN 圖像增廣的研究框架的適用性， ACGAN被應用到多個領域的視覺處理任務相關研究中。例如：Mariani 等學者為了解決圖像分類中數(shù)據(jù)集標簽不平衡的問題提出了數(shù)據(jù)平衡生成對抗網(wǎng)絡(balancing generative adversarial networks，BAGAN)[108] 。作者以 ACGAN 為基礎，將 ACGAN 中的“真假”輸出和“類別”輸出合成為一個輸出，解決了在訓練過程中遇到少數(shù)類時兩個損失函數(shù)相互沖突的問題。實驗結果表明BAGAN在MNIST、CIFAR-10、Flowers和 GTSRB 四個數(shù)據(jù)集中，分類準確性表現(xiàn)比 ACGAN 更優(yōu)秀。

　　Huang等學者[109] 基于 ACGAN 模型提出了 ActorCritic GAN 解決圖像分類應用在中類內數(shù)據(jù)不平衡的問題。使用 ACGAN 模型對類內不平衡的樣本進行有差別的增廣，擴大類內圖像的差異性。實驗結果表明相比原始圖像,作者的方案能提高大約 2 個百分點的準確率。

　　Singh等學者提出基于 ACGAN 模型的惡意軟件圖像增廣框架(malware image synthesis using GANs， MIGAN)[110] 。作者使用MIGAN解決了在惡意軟件分析過程中帶標簽的惡意軟件圖像數(shù)據(jù)缺乏的問題。——論文作者：林成創(chuàng) 1,4,5 ，單純 2 ，趙淦森 1,4,5+ ，楊志榮 3 ，彭璟 1,4,5 ，陳少潔 1,4,5 ，黃潤樺 1,4,5 ，李壯偉 1,4,5 ，易序晟 1,4,5 ，杜嘉華2 ，李雙印1,4,5 ，羅浩宇1,4,5 ，樊小毛1,4,5 ，陳冰川6+

上一篇：機器視覺技術研究進展及展望
下一篇：區(qū)域公鐵軸輻式交通網(wǎng)絡優(yōu)化研究：以川藏鐵路為例

機器視覺應用中的圖像數(shù)據(jù)增廣綜述

熱門核心期刊

SCI|SSCI指導

EI|SCOPUS指導

翻譯潤色解答

論文發(fā)表指導

學術成果常識