pos機(jī)顯示未知錯誤怎么辦,ImageNet 存在十萬標(biāo)簽錯誤

 新聞資訊  |   2023-05-02 07:06  |  投稿人:pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)顯示未知錯誤怎么辦,ImageNet 存在十萬標(biāo)簽錯誤的知識,也有很多人為大家解答關(guān)于pos機(jī)顯示未知錯誤怎么辦的問題,今天pos機(jī)之家(www.afbey.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機(jī)顯示未知錯誤怎么辦

pos機(jī)顯示未知錯誤怎么辦

作者 | L7

編譯 | JocelynWang

使用ImageNet、CIFAR、MNIST 或 IMDB 這些數(shù)據(jù)集時,你是不是會潛意識中假設(shè),這些數(shù)據(jù)集中的類標(biāo)簽都是正確的?

然而,你可能不知道:ImageNet數(shù)據(jù)集中至少有十萬個標(biāo)簽是存在問題的。

盡管大量的研究都在使用ImageNet,但卻沒有發(fā)現(xiàn)數(shù)據(jù)集存在如此多的標(biāo)簽錯誤。原因在于,想從海量數(shù)據(jù)中尋找并描述標(biāo)簽錯誤很難;即使有相關(guān)的方法,應(yīng)用范圍也極其有限。

如何去識別標(biāo)簽錯誤,并表征標(biāo)簽噪聲,是一項重要的、但卻鮮少研究的工作。

在這篇文章中,我將討論一種新興的基本框架,它可用于識別標(biāo)簽錯誤、表征標(biāo)簽噪聲,并使用稱作置信學(xué)習(xí)(Confident Learning ,CL)的噪聲標(biāo)簽進(jìn)行學(xué)習(xí)。

這個框架可以識別 ImageNet 和 CIFAR 中的許多標(biāo)簽問題,并通過在干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練來提高標(biāo)準(zhǔn) ResNet 的性能。

該框架作為 cleanlab Python 包進(jìn)行了開源,相關(guān)鏈接為(Github 地址為):

https://github.com/cgnorthcutt/cleanlab

與深度學(xué)習(xí)框架 PyTorch相類似,CLEANLAB 是一種帶有誤差標(biāo)簽的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的框架。更多關(guān)于CLEANLAB的信息可在如下CLEANLAB的文檔鏈接中查看:

https://l7.curtisnorthcutt.com/cleanlab-python-package

使用 cleanlab 加上 confidentlearning-reproduce repo 就可以重現(xiàn) CL 論文中的結(jié)果。

https://github.com/cgnorthcutt/confidentlearning-reproduce

圖為2012 ILSVRC ImageNet訓(xùn)練集中使用信心學(xué)習(xí)確定的前32個標(biāo)簽問題。其中紅色方框表示標(biāo)簽誤差,綠色方框表示本體問題,藍(lán)色方框表示多標(biāo)簽圖像。

上圖顯示了在2012 ILSVRC ImageNet訓(xùn)練集中使用置信學(xué)習(xí)發(fā)現(xiàn)的前32個標(biāo)簽問題。為便于解釋,我們將把使用 CL 在 ImageNet 中發(fā)現(xiàn)的標(biāo)簽問題分為以下三類:

多標(biāo)簽圖像(藍(lán)色):圖像中有多個標(biāo)簽;

本體論問題(綠色):包括“是”(比如:將浴缸標(biāo)記為桶)或 “有”(比如:示波器標(biāo)記為CRT屏幕)兩種關(guān)系,在這些情況下,數(shù)據(jù)集應(yīng)該包含其中一類;

標(biāo)簽錯誤(紅色):當(dāng)數(shù)據(jù)集別的類的標(biāo)簽比給定的類標(biāo)簽更適合于某個示例時,就會顯示標(biāo)簽錯誤

使用置信學(xué)習(xí),我們可以在任何適當(dāng)模型的任何數(shù)據(jù)集中發(fā)現(xiàn)標(biāo)簽錯誤。以下是常見的數(shù)據(jù)集中另外三個真實存在的示例:

Amazon Reviews、MNIST和QuickDraw數(shù)據(jù)集中當(dāng)前存在的標(biāo)簽錯誤示例,由面向不同數(shù)據(jù)形式和模型的置信學(xué)習(xí)確定。

一、什么是置信學(xué)習(xí)?

置信學(xué)習(xí)(CL)已經(jīng)成為監(jiān)督學(xué)習(xí)和弱監(jiān)督的一個子領(lǐng)域,可應(yīng)用于以下幾點:

描述噪聲標(biāo)簽

尋找標(biāo)簽誤差

采用噪聲標(biāo)簽學(xué)習(xí)

尋找本體論問題

CL 基于噪聲數(shù)據(jù)剪枝的原理(與修復(fù)標(biāo)簽錯誤或修改損失函數(shù)相反),以計數(shù)的方式對噪聲進(jìn)行評估,并對示例進(jìn)行排序以進(jìn)行置信訓(xùn)練(而不是通過精確的概率加權(quán))。

在這里,我們在 Angluin 和 Laird 分類噪聲的假設(shè)基礎(chǔ)上,將 CL 泛化到直接估計噪聲標(biāo)簽(給定的)和無損標(biāo)簽(未知的)之間的聯(lián)合分布。

有噪聲的(給定的)標(biāo)簽和未損壞的(未知的)標(biāo)簽之間的置信聯(lián)合分布和估計聯(lián)合分布的置信學(xué)習(xí)過程和樣本。y~表示觀察到的有噪聲標(biāo)簽,y*表示潛在的無損標(biāo)簽。

從上圖可以看出,CL 需要兩個輸入:

樣本外預(yù)測概率(矩陣大小:#類的#樣本數(shù))。

噪聲標(biāo)簽(矢量長度:樣本數(shù)量)。

出于弱監(jiān)督目的,CL包括三個步驟:

1、估計有噪聲的(給定的)標(biāo)簽和潛在的(未知)無損標(biāo)簽的聯(lián)合分布,以充分描述類別條件下的標(biāo)簽噪聲。

2、查找并修剪帶有標(biāo)簽錯誤的噪聲樣本。

3、在去除標(biāo)簽錯誤的樣本后進(jìn)行訓(xùn)練,根據(jù)估計的潛在先驗對樣本重新加權(quán)。

二、置信學(xué)習(xí)的好處

與大多數(shù)機(jī)器學(xué)習(xí)方法不同,置信學(xué)習(xí)不需要超參數(shù)。我們使用交叉驗證來獲得樣本外的預(yù)測概率。置信學(xué)習(xí)還有很多其他的好處,它有以下幾點優(yōu)勢:

可直接估計噪聲與真實標(biāo)簽的聯(lián)合分布

適用于多類別的數(shù)據(jù)集

查找標(biāo)簽錯誤(錯誤按最有可能到最不可能的順序排列)

無需迭代(在ImageNet中查找訓(xùn)練集的標(biāo)簽錯誤需要3分鐘)

具有理論合理性(在真實條件下可以準(zhǔn)確地找到標(biāo)簽錯誤和一致的聯(lián)合分布估算)

不需要做隨機(jī)均勻的標(biāo)簽噪聲的假設(shè)(在實踐中通常不現(xiàn)實)

只需要預(yù)測概率和噪聲標(biāo)簽(可以使用任何模型)

無需任何真實(保證無損)的標(biāo)簽

可以自然擴(kuò)展到多標(biāo)簽數(shù)據(jù)集

可用于描述、查找和學(xué)習(xí)標(biāo)簽錯誤,CLEANLAB Python包是免費且開源的。

三、置信學(xué)習(xí)的原則

CL建立在處理噪聲標(biāo)簽文獻(xiàn)制定的原則之上:

1、通過修剪來搜索錯誤的標(biāo)簽,例如:遵循Natarajan等(2013);van Rooyen等(2015);帕特里尼等(2017)的工作示例,通過損失重加權(quán)來進(jìn)行軟剪枝,以避免迭代重標(biāo)記的收斂陷阱。相關(guān)工作鏈接依次如下:

https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf

https://arxiv.org/abs/1505.07634

https://arxiv.org/abs/1609.03683

2、對干凈的數(shù)據(jù)進(jìn)行訓(xùn)練統(tǒng)計,避免由于不完全預(yù)測概率的情況下重新加權(quán)損失(Natarajan et al.,2017)而導(dǎo)致的學(xué)習(xí)模型權(quán)重的錯誤傳播,并泛化到一些開創(chuàng)性的工作上,如Forman (2005, 2008); Lipton et al. (2018)),相關(guān)工作鏈接依次如下:

http://www.jmlr.org/papers/volume18/15-226/15-226.pdf

https://dl.acm.org/citation.cfm?id=1403849

https://arxiv.org/abs/1802.03916

3、根據(jù)PageRank(Page et al.,1997)著名的魯棒性研究成果(http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf)和MentorNet (Jiang et al.,2018)的課程學(xué)習(xí)理念(https://arxiv.org/abs/1712.05055),對訓(xùn)練期間使用的樣本進(jìn)行排序,以允許使用不規(guī)范概率或SVM決策邊界距離進(jìn)行學(xué)習(xí)。

四、置信學(xué)習(xí)中的理論發(fā)現(xiàn)

更多關(guān)于CL算法、理論和證明的內(nèi)容,請參閱我們的原論文。在本文中,我主要總結(jié)一下論文中的主要觀點。

原論文鏈接:https://arxiv.org/abs/1911.00068

從理論上看,我們給出了CL(定理2:一般的逐例魯棒性)準(zhǔn)確發(fā)現(xiàn)標(biāo)簽誤差并一致地估計出噪聲與真實標(biāo)簽聯(lián)合分布的現(xiàn)實條件。在我們設(shè)定的條件中,允許每個樣本和每個類的預(yù)測概率存在誤差。

五、置信學(xué)習(xí)是如何實現(xiàn)的?

為了解CL是如何工作的,讓我們假設(shè)現(xiàn)在有一個包含狗、狐貍和牛的圖像的數(shù)據(jù)集。CL通過估計噪聲標(biāo)簽和真實標(biāo)簽的聯(lián)合分布(下圖右側(cè)的Q矩陣)來進(jìn)行工作。

左圖:置信計數(shù)示例。這是一個不正常的聯(lián)合估計。右圖:擁有三類數(shù)據(jù)集的噪聲標(biāo)簽和真實標(biāo)簽的聯(lián)合分布示例。

我們來繼續(xù)看這個示例,CL統(tǒng)計了 100 個標(biāo)記為狗的圖像,這些圖像很可能屬于類別狗,如上圖左側(cè)的C矩陣所示;同樣的,CL還統(tǒng)計了 56 個很可能屬于類別狗但標(biāo)記為狐貍的圖像和 32 幅很可能屬于類別狗但標(biāo)記為牛的圖像。

對上述數(shù)學(xué)原理的過程好奇的人來說,該計數(shù)過程可以采取以下形式進(jìn)行理解:

我們也鼓勵通過閱讀我們的原論文來理解符號的含義,這里面的中心思想可以理解成:當(dāng)一個樣本的預(yù)測概率大于每個類的閾值時,我們有信心將該樣本記為實際上屬于該閾值的類別。每個類別的閾值是該類中所有樣本的平均預(yù)測概率。這種閾值形式將PU學(xué)習(xí)( Elkan & amp; Noto,2008,http://cseweb.ucsd.edu/~elkan/posonly.pdf)中眾所周知的魯棒性結(jié)果,泛化到多類別的弱監(jiān)督。

使用標(biāo)簽噪聲的聯(lián)合分布查找標(biāo)簽問題:

從上圖右側(cè)的矩陣中,估計標(biāo)簽問題:

1、將聯(lián)合分布矩陣乘以樣本數(shù)。假設(shè)我們的數(shù)據(jù)集中有100個樣本。所以,在上圖中(右邊的Q矩陣)有10個標(biāo)記為狗但實際上是狐貍的圖像。

2、將上述10張實際上很可能屬于類別狐貍但標(biāo)記為狗的圖片標(biāo)記為存在標(biāo)簽錯誤。

3、對矩陣中所有非對角項重復(fù)此操作。

注:這里簡化了原論文中使用的方法,但抓住了本質(zhì)。

六、置信學(xué)習(xí)的實踐應(yīng)用

在高噪聲標(biāo)簽的情況下,CL相對于其他方法提高了超出10%的學(xué)習(xí)水平;在高噪聲以及高稀疏的情況下,CL相對于其他方法提高了超出30%的學(xué)習(xí)水平。

上表顯示了 CL 與最新的通過噪聲標(biāo)簽的多類別學(xué)習(xí)方法 CIFAR-10 的比較。在高稀疏(見下一段)和 40% 和 70% 的標(biāo)簽噪聲下,CL 的表現(xiàn)比谷歌開發(fā)的表現(xiàn)最好的 MentorNet,Co-Teaching 和 Facebook 研究團(tuán)隊開發(fā)的 Mix-up 方法提高了超過 30% 的學(xué)習(xí)水平。在信心學(xué)習(xí)之前,相關(guān)的方法對這一基準(zhǔn)的改進(jìn)要小得多(大約只提高了幾個百分點)。

稀疏性(矩陣 Q 中零的分?jǐn)?shù))概括了這樣一個概念,即現(xiàn)實世界中如 ImageNet 的數(shù)據(jù)集中有一些類別不太可能被錯誤地標(biāo)記為其他類別,例如 p(老虎,示波器)可以看作矩陣 Q 中的 0。

如上表中突出顯示的單元格所示,與 Mixup、MentorNet、SCE-loss 以及 Co-teaching 等最新方法相比,CL 較為顯著地增強(qiáng)了對稀疏性的魯棒性。這種魯棒性來源于對模型 Q 直接建模,即噪聲與真實標(biāo)簽的聯(lián)合分布。

在使用 CL 清洗過的 ImageNet 上訓(xùn)練數(shù)據(jù)提高了 ResNet 測試準(zhǔn)確度。

上圖中,直線上的每個點(從左到右)分別描繪了每種方法在去除20%,40%…,100%估計標(biāo)簽錯誤后訓(xùn)練的準(zhǔn)確性。圖中黑色虛線部分描述了使用所有樣本訓(xùn)練時的準(zhǔn)確性。

使用CL在清洗后的 ImageNet 訓(xùn)練集上訓(xùn)練(不添加合成噪聲),當(dāng)移除小于十萬個訓(xùn)練樣本時,觀察到使用ResNet時驗證精度得到提高;當(dāng)大于十萬個訓(xùn)練樣本被移除時,觀察使用CL清洗后的數(shù)據(jù)與隨機(jī)移除樣本的結(jié)果相比相對有所改善(如圖紅色虛線所示)。

添加標(biāo)簽噪聲的CIFAR數(shù)據(jù)集中標(biāo)簽噪聲的良好表征

上圖顯示了CIFAR中使用CL估計標(biāo)簽噪聲的聯(lián)合分布,標(biāo)簽噪聲增加了40%。觀察圖(b)中CL估計與圖(a)中的真實分布有多接近以及(c)矩陣中每一項絕對差的低誤差。這里概率被放大了100倍。

在ImageNet中自動發(fā)現(xiàn)本體(類命名)問題

CL 通過直接估計標(biāo)簽噪聲的聯(lián)合分布,自動發(fā)現(xiàn)數(shù)據(jù)集中類的本體問題。在上表中,我們展示了在 ImageNet 單類數(shù)據(jù)集的估計標(biāo)簽噪聲聯(lián)合分布時的最大偏離對角線。每行列出了噪聲標(biāo)簽、真實標(biāo)簽、圖像 id、統(tǒng)計數(shù)量和聯(lián)合概率。因為這些是偏離了對角,所以噪聲的類別和真實類別應(yīng)該會是不同的,但實際上是在第 7 行中,我們看到 ImageNet 有兩個不同的類,它們都被標(biāo)記為“maillot”。

我們也觀察到誤用詞語的情況:在第 一行中的標(biāo)記拋射物和導(dǎo)彈為“是”的關(guān)系,即拋射物其實就是導(dǎo)彈,同樣的還有第二排中的標(biāo)記的浴缸即為桶;還觀察到由一個詞的多個定義引起的問題,比如第九行中的玉米和耳朵。

七、最后的想法

我們的理論和實驗結(jié)果強(qiáng)調(diào)了置信學(xué)習(xí)的實用性,例如識別ImageNet和CIFAR中的許多標(biāo)簽問題,并通過在干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練來提高標(biāo)準(zhǔn) ResNet 的性能。

置信學(xué)習(xí)促使人們認(rèn)識到需要對數(shù)據(jù)集標(biāo)簽中的不確定性估計、清理訓(xùn)練集和測試集的方法以及數(shù)據(jù)集中本體和標(biāo)簽問題的識別方法做進(jìn)一步的了解。

via https://l7.curtisnorthcutt.com/confident-learning

以上就是關(guān)于pos機(jī)顯示未知錯誤怎么辦,ImageNet 存在十萬標(biāo)簽錯誤的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)顯示未知錯誤怎么辦的知識,希望能夠幫助到大家!

轉(zhuǎn)發(fā)請帶上網(wǎng)址:http://www.afbey.com/news/35904.html

你可能會喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實,本站將立刻刪除。