pos機相關(guān)術(shù)語,與人相關(guān)的考研單詞快速記憶

新聞資訊 | 2023-05-17 09:28 | 投稿人：pos機之家

網(wǎng)上有很多關(guān)于pos機相關(guān)術(shù)語,與人相關(guān)的考研單詞快速記憶的知識，也有很多人為大家解答關(guān)于pos機相關(guān)術(shù)語的問題，今天pos機之家(www.afbey.com)為大家整理了關(guān)于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、pos機相關(guān)術(shù)語

pos機相關(guān)術(shù)語

文章回顧了近幾年NLP的發(fā)展歷程，從項目實施的兩個階段中帶我們梳理了NLP技術(shù)的應(yīng)用演變。

第一個與大家分享的Case，基于NLP展開。分為3個部分，分別是NLP的發(fā)展、項目敘述、以及Lesson Learned。

講述NLP的發(fā)展，是為了更好地理解這門技術(shù)，為項目的展開做鋪墊。Lesson Learned是筆者總結(jié)整個項目下來自己的收獲。

筆者本身并非計算機課班，對理論知識的理解難免不深刻，以及可能會有偏差，請大家不吝指教。

NLP的發(fā)展項目闡述Lesson Learned一、NLP的發(fā)展1.1 NLP的定義

The field of study that focuses on the interactions between human language and computers is called Natural Language Processing, or NLP for short. It sits at the intersection of computer science, artificial intelligence, and computational linguistics ( Wikipedia)

總結(jié)一下維基百科對NLP的定義， NLP關(guān)注人類語言與電腦的交互。

使用語言，我們可以精確地描繪出大腦中的想法與事實，我們可以傾訴我們的情緒，與朋友溝通。

電腦底層的狀態(tài)，只有兩個，分別為0和1。

那么，機器能不能懂人類語言呢？

1.2 NLP的發(fā)展歷史

NLP的發(fā)展史，走過兩個階段。第一個階段，由”鳥飛派“主導(dǎo)，第二個階段，由”統(tǒng)計派“主導(dǎo)。

我們詳細了解一下，這兩個階段區(qū)別，

階段一，學(xué)術(shù)屆對自然語言處理的理解為：要讓機器完成翻譯或者語音識別等只有人類才能做的事情，就必須先讓計算機理解自然語言，而做到這一點就必須讓計算機擁有類似我們?nèi)祟愡@樣的職能。這樣的方法論被稱為“鳥飛派”，也就是看鳥怎樣飛，就能模仿鳥造出飛機。

階段二，今天，機器翻譯已經(jīng)做得不錯，而且有上億人使用過，NLP領(lǐng)域取得如此成就的背后靠的都是數(shù)學(xué)，更準確地說，是靠統(tǒng)計。

階段一到階段二的轉(zhuǎn)折時間點在1970年，推動技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物叫做弗里德里克. 賈里尼克和他領(lǐng)導(dǎo)的IBM華生實驗室。（對IBM華生實驗室感興趣的朋友可以閱讀吳軍老師的《浪潮之巔》，書中有詳細講述。）

我們今天看到的與NLP有關(guān)的應(yīng)用，其背后都是基于統(tǒng)計學(xué)。那么，當(dāng)前NLP都有哪些應(yīng)用呢？

1.3 目前NLP的主要應(yīng)用

當(dāng)前NLP在知識圖譜、智能問答、機器翻譯等領(lǐng)域，都得到了廣泛的使用。

二、項目闡述2.1 業(yè)務(wù)背景

說明：在項目闡述中，具體細節(jié)已經(jīng)隱去。

客戶是一家提供金融投融資數(shù)據(jù)庫的科技公司。在其的產(chǎn)品線中，有一款產(chǎn)品叫做人物庫，其中包括投資人庫和創(chuàng)始人庫。

創(chuàng)始人庫供投資人查看，使用場景，當(dāng)投資人考察是否要投資創(chuàng)業(yè)者，因此會關(guān)注創(chuàng)業(yè)者的學(xué)校（是否名校）、工作（大廠）、以及是否是連續(xù)創(chuàng)業(yè)者、是否獲得榮譽，如“30 under 30”。投資人庫供創(chuàng)業(yè)者查看，使用場景：當(dāng)創(chuàng)業(yè)者需要投資人，會考察投資人的投資情況。因此會關(guān)注投資者的學(xué)校（是否名校）、工作（大廠）、投資案例、投資風(fēng)格等

我提供的服務(wù)，便是為這兩條產(chǎn)品線服務(wù)。因為本項目主要關(guān)注，相關(guān)人物的履歷信息，因此該項目代號為「人物履歷信息抽取」。

需要抽取的人物履歷信息，由5個部分組成：學(xué)校、工作、投資（案例）、創(chuàng)業(yè)經(jīng)歷、獲取榮譽。

2.2 項目指標

項目指標包括算法指標與工程指標。

2.2.1 算法指標

算法層面，指標使用的是Recall和Precision。為了避免大家對這兩個指標不太熟悉，我?guī)Т蠹乙黄鸹仡櫼幌隆?/p>

我們先來認識一下混淆矩陣（confusion matrix）?；煜仃嚲褪欠謩e統(tǒng)計分類模型歸錯類，歸對類的觀測值個數(shù)，然后把結(jié)果放在一個表里展示出來。矩陣中的每一行，代表的是預(yù)測的類別，每一列，代表的是真實的類別。

通過混淆矩陣，我們可以直觀地看到系統(tǒng)是否混淆了兩個類別。

我們可以舉一個混淆矩陣的例子：

0代表Negative，1代表 Positve。

TN：當(dāng)真實值為0，且預(yù)測值為0，即為TN（True Negative）FN：當(dāng)真實值為1，而預(yù)測值為0，即為FN（False Negative）TP：當(dāng)真實值為1，且預(yù)測值為1，即為TP（True Positive）TN：當(dāng)真實值為0，而預(yù)測值為1，即為FP（False Positive）

除了上面，我們還需要了解下面三個指標，分別為Recall、Precision、和f1。

Recall（召回率）是說我們的Predicted Class中，被預(yù)測為1的這個item的數(shù)量，占比Actual Class中類別為1的item的數(shù)量。如果，我們完全不考慮其他的因素，我們可以將所有的item都預(yù)測為1，那么我們的Recall就會很高，為1。但是在實際生產(chǎn)環(huán)境中，是不可以這樣操作的。Precision（精準率）是說，我們預(yù)測的Class中，正確預(yù)測為1的item的數(shù)量，占比我們預(yù)測的所有為1item的數(shù)量。F1是兩者的調(diào)和平均。

Ok～了解了上面這些衡量算法模型用到的基礎(chǔ)概念之后，我們來看看本項目的指標。

模型算法指標為：recall 90；precision 60。

一個思考題？為什么recall 90，precision 60？以及，為什么沒有f1，或者說為什么不將f設(shè)置為72，因為如果recall 90，precision60，那么這種情況下，f1就是72嘛。

要回答上述問題，我們要從業(yè)務(wù)出發(fā)。需要記住，甚至背誦3遍。

為什么，制定指標的時候，一定要從業(yè)務(wù)出發(fā)呢？

我們來舉一個很極端的例子，如果一個模型能做到recall90 precision90，是不是能說這個指標就很好了？

我相信絕大多數(shù)場景下，這個模型表現(xiàn)都是十分優(yōu)秀。請注意，我說的是絕大多數(shù)，那么哪些場景下不是呢？

比如說，癌癥檢測。

假設(shè)，你目前在緊密籌備一個“癌癥檢測”項目。對于每一個被檢測的對象，都有如下兩個結(jié)果中的任意一個結(jié)果：

1 = 實在抱歉，你不幸患上了癌癥。0 = 恭喜你，你并沒有換上癌癥。

你同事告訴你了一個好消息，你們模型的在測試集上的準確率是99%。聽起來很棒，但是你是一個嚴謹認真的AI PM，所以你決定親自review一下測試集。

你的測試集都被專業(yè)的醫(yī)學(xué)人士打上了標簽。下面你測試集的實際情況

一共有1,000,000（一百萬張醫(yī)學(xué)影像圖）999,000醫(yī)學(xué)影像圖是良性（Actual Negative）1,000醫(yī)學(xué)影像圖是惡性（Actual Positive）

有了上述的數(shù)據(jù)，即我們模型驗證的GroundTruth，接著，我們來看看這個模型的Predicted Result。既然，我們上面學(xué)了confusion matrix，那么我們回顧一下Confusion Matrix的兩個特征，行代表Predicted class，列代表Actual class。讓我們看一下：

根據(jù)所學(xué)，實際應(yīng)用一下：

TP（實際是Malignant，預(yù)測是Malignant）FP（實際是Benign，預(yù)測是Malignant）TN（實際是Benign，預(yù)測是Benign）FN（實際是Malignant，預(yù)測是Benign）

看到這里可能有點頭暈，沒關(guān)系，我馬上為大家總結(jié)一下：模型正確的判斷是1和3，不正確的判斷是2和4.

我們希望這個模型將醫(yī)學(xué)影像圖片是否為惡性腫瘤做好的區(qū)分，好的區(qū)分就是指的1和3。除此之外，其余的都是錯誤的區(qū)分。

到這里，我們再看看看模型的表現(xiàn)。

當(dāng)同事告訴我們模型的正確率是99%的時候，她到底說的是什么呢？我們來仔細分析一下哦～

她說的是Precision嗎？

Precision回答的問題是，我們模型預(yù)測為1的樣本數(shù)量在實際為1樣本數(shù)量中的占比。用公式表示

應(yīng)用真實場景中，我們的準確率 Precision = 990 / (990 + 9,990) = 0.09 = 9%

她說的是Recall嗎？

上述場景中，我們的召回率Recall = 990 / (990 + 10) = 990 / 1,000 = 0.99 = 99%

她說的是Accuracy嗎？

上述場景中，我們的Accuracy是 Accuracy = (990 + 989,010) / 1,000,000 = 0.99 = 99%

從上面的指標，我們可以了解到我們的這個算法模型有一個高的recall和高的accuracy，但是低的precision。

我們的算法模型的precision只有9%。這就意味著被預(yù)測為maglignant的醫(yī)學(xué)圖像大多數(shù)都是良性。我們是不是可以這樣就說我們的算法模型很垃圾呢？

并不是。實際上，在我們這個算法模型里面，recall的重要性是比precision高的。所以，盡管我們的precision只有9%，但是我們的召回有99%，這其實是一個很理想的模型表現(xiàn)。因為，患者有癌癥，但是在檢查時候被漏掉，這種情況，是任何人都不希望發(fā)生的。

可能這個時候，你會有一個疑問，這個recall和precision的重要性如何來確定呢？好問題，讓我們來仔細看看。首先，了解一下指標制定的原則：指標的制定取決于我們的商業(yè)目標，以及False Positive和False Negative帶來的損失。

什么時候recall比precision重要

當(dāng)FN會帶來極大損失的時候，Recall會顯得非常重要。比如，如果將惡心腫瘤預(yù)測為良性，這就是非常嚴重的后果。這樣的預(yù)測，會讓病人無法得到應(yīng)該的治療，從而導(dǎo)致這位病人失去生命，并且這個過程是不可逆的！高的recall是我們希望盡量減少False Negative，盡管這樣會帶來更多的False Positive。但是通過一些后續(xù)的檢查，我們是能夠?qū)⑦@個FP排除的。

那什么時候precision比recall重要呢？

當(dāng)FP會帶來很大損失的時候，Precision就顯得非常重要。比如在郵件檢測里面。垃圾郵件是1，正常郵件是0，如果有很多FP的話，那么大量的正常郵件都會被存儲到垃圾郵件。這樣造成的后果是非常嚴重的。

到了這里，讓我們來回過頭去看看我們業(yè)務(wù)的recall 90 precision 60，我們會為什么這樣制定？這還是得從業(yè)務(wù)背景談起。在我和團隊分享，如何評估客戶AI需求時候，一個很重要的步驟是，首先需要了解這個在沒有機器的條件下，他們是如何做這件事的？他們做這件事的判斷標準？以及具體的操作步驟。

只有在了解了這個的前提下，我們才可以根據(jù)這些domain knowledge來進行AI解決方案設(shè)計。提取人物履歷信息這些工作是由客戶的運營同學(xué)負責(zé)的，那么客戶的運營同學(xué)之前是怎么做的呢？他們會閱讀一篇文章，然后找出符合人物履歷標準的信息，做抽取，并進行二次加工。

注意哦，他們的重點是，需要做二次加工，這里的二次加工指的是什么呢？就是將人物的一些履歷信息進行整合。因此，其實對他們來說，召回不會最重要的，因為不斷有新的語料（文章）發(fā)布，他們總可以獲取相關(guān)人物的信息，但是從一篇好幾千字甚至上萬字的文章中，準確定位人物履歷有關(guān)的信息，就顯得非常重要，可以提升效率。

是的，效率，是我們制定我們算法指標的標準，提高召回，可以提高運營同學(xué)的效率。

下一個問題？為什么不將f1設(shè)置為72呢？因為如果我們recall 90，但是precision 60，最后f1也是72，但是這是不符合業(yè)務(wù)場景需求的。

2.2.2 性能指標

以API的形式交付。對長度為1000字的文本，每秒查詢率（QPS）為10，一次調(diào)用在95情況下響應(yīng)時間（RT）為3秒。接口調(diào)用成功率為99%。

讓我們拆解一下這個性能指標，首先說一下交付形式。

當(dāng)前AI項目交付主要有兩種，API和Docker，各自適用于不同的業(yè)務(wù)場景。

QPS(Query Per Second)每秒查詢率是對一個特定的查詢服務(wù)器在規(guī)定時間內(nèi)所處理流量多少的衡量標準，在因特網(wǎng)上，作為域名系統(tǒng)服務(wù)器的機器的性能經(jīng)常用每秒查詢率來衡量。對應(yīng)fetches/sec，即美妙的響應(yīng)請求數(shù)，也是最大吞吐能力。

RT響應(yīng)時間是指系統(tǒng)對請求作出響應(yīng)的時間。直觀上看，這個指標與人對軟件性能的主管感受是非常一致的，因為它完整地記錄了整個計算機系統(tǒng)處理請求的時間

2.3 項目實施

項目實施分為兩個階段，階段一的嘗試主要是使用規(guī)則，階段二的嘗試中，我們將策略從規(guī)則切換到了模型。從規(guī)則到模型的轉(zhuǎn)換，影響因素比較多，有隨著項目進展，項目組對項目難度的認識更加深刻的因素，也有數(shù)據(jù)集的積累更加豐富的原因。

2.3.1 階段一：規(guī)則

在項目中的階段一，我們的嘗試，主要在于規(guī)則。首先，我們來介紹一下，在機器學(xué)習(xí)里面，什么是規(guī)則。

那么我們第一階段，使用規(guī)則具體是怎么做的呢？

在第一個階段，我們整理出了3個文本：白名單、黑名單、打分詞。

先來說說這三個文本在我們規(guī)則中的使用邏輯，接著我會解釋為什么，我們要這么設(shè)計。

白名單：白名單是一個list，里面有很多詞。當(dāng)一句話中出現(xiàn)了屬于白名單詞典中的詞，我們就將這句話提取出來。

黑名單：當(dāng)一句話中出現(xiàn)了這個詞，我們就將這句話扔掉。

打分詞：當(dāng)一句話中出現(xiàn)了打分詞list中的詞，我們就給這句話加1分。（因為詞的權(quán)重不同，因此權(quán)重不一定都是1）

所以，為什么我們要這樣設(shè)計呢？

我們首先來看看白名單，白名單中的典型詞匯有：畢業(yè)于、深造、晉升等。大家可以發(fā)現(xiàn)，這些詞匯，有強烈的屬性表現(xiàn)，表現(xiàn)一個人物的履歷。因此，當(dāng)出現(xiàn)了這些詞匯之后，我們就默認將這句話抽?。╡xtract）出來。

黑名單中的典型詞匯有：死于，逝世、出席等。這些詞，明顯與人物履歷毫無關(guān)系。

最后，我們來看一下這個打分詞。在打分的設(shè)計邏輯上，我們使用了TF-IDF。同時，為了減少因為我們自己樣本量少，而帶來的負面影響，我們爬取了百度百科人物庫，通過TF-IDF，篩選出了幾百個和人物履歷描述相關(guān)的詞，并且人工對這些詞進行了打分。我們通過匹配一句話中出現(xiàn)的打分詞，來為一個句子打分。并且，我們可以通過調(diào)節(jié)句子得分的閾值，來調(diào)節(jié)我們命中人物履歷的句子。

通過規(guī)則，我們發(fā)現(xiàn)，模型的效果，在precision不錯，但是recall不夠好。通過分析bad case，我們發(fā)現(xiàn)模型的泛化性能差。

分析Bad Case的思路：

找出所有bad cases，看看哪些訓(xùn)練樣本預(yù)測錯了？對每一個badcase分析找出原因我們哪部分特征使得模型做了這個判斷這些bad cases是否有共性？將bad cases進行分類，并統(tǒng)計不同類別的頻數(shù)

這里順便提一下，在我們分析bad case的時候，除了分析模型預(yù)測的錯誤之外，我們也會發(fā)現(xiàn)一些標注數(shù)據(jù)存在問題，在訓(xùn)練集中，有人為標記錯的樣本很正常，因為人也不能保證100%正確。我們需要注意的是，這種標記錯誤分為兩類：

隨機標記錯誤，比如因為走神、沒看清給標錯數(shù)據(jù)系統(tǒng)性標記錯誤，標錯數(shù)據(jù)的人，是真的將A以為是B，并且在整個標注流程中，都將A以為是B

對于隨機標注錯誤，只要整體的訓(xùn)練樣本足夠大，放著也沒事。對于系統(tǒng)性標注錯誤，必須進行修正，因為分類器會學(xué)到錯誤的分類。

說明一下，關(guān)于Bad Case分析，吳恩達的課程都有講，如果想對這一塊知識，有進一步了解，可以自行進行學(xué)習(xí)。

階段一遇到的困難通過對bad case的分析，我們發(fā)現(xiàn)通過規(guī)則中最大的問題是，模型無法分清動名詞。因此，導(dǎo)致precision非常地低。

舉2個例子：

A：小紅投資的運動裝公司西藍花。

B：小紅投資了運動裝公司西藍花。

第一句表達的主旨意思是運動裝公司，而第二句話表達的主旨是小紅進行了投資，因此從最開始對需要抽取句子的定義上來說，我們應(yīng)該抽取第二句。但是，因為是打分機制，AB兩句都命中了“投資”，因此，均被抽取。

從這里，就發(fā)現(xiàn)，我們的規(guī)則之路，基本上走到了盡頭，打分的方式是永遠無法將AB區(qū)分出來，于是，我們開始了我們下一段探索之旅。

2.3.2 階段二：模型

在階段一，我們講到了規(guī)則的一個弊端，就是規(guī)則無法區(qū)分詞性。

經(jīng)過評估，我們還是打算使用模型來做，并且根據(jù)上一階段的發(fā)現(xiàn)，做對應(yīng)的優(yōu)化，在這里，讓我們介紹一下“Part-of-Speech Tagging”

Part-of-Speech Tagging，也叫詞性標注。

詞性標注很有用，因為他們揭示了一個單詞以及其相臨近詞的很多信息。

我們看一下具體的用例。

根據(jù)POS，我們發(fā)現(xiàn)，”dog“是名詞，“ran”是動詞。是不是覺得這個方法剛好就能彌補我們上面談到的，模型無法分清動名詞這個困難。

因此，我們對所有數(shù)據(jù)，加了POS，然后放進了Bert，這里還有一個小的tip，因為我們數(shù)據(jù)量其實是很小的，所以Bert只訓(xùn)練了一輪。

既然這里講到了Bert，那么我也和大家一起重新復(fù)習(xí)一下Bert（我不是科班專業(yè)，也不是專門研究NLP方向的，所以我自己的知識積累有限，如果大家有更好的想法，歡迎交流討論90度鞠躬）

首先，我們了解一個概念“預(yù)訓(xùn)練模型”。

預(yù)訓(xùn)練模型就是一些人用某個較大的數(shù)據(jù)集訓(xùn)練好的模型，這個模型里面有一些初始化的參數(shù)，這些參數(shù)不是隨機的，而是通過其他類似數(shù)據(jù)上面學(xué)到的。

Bert呢，是一個Google開源的模型。非常的牛逼，那到底有多牛逼呢？這要從Bert的試用領(lǐng)域和模型表現(xiàn)效果，兩個維度來說說。

適用領(lǐng)域，Bert可以用于各種NLP任務(wù)，只需要在核心模型中添加一個層，例如：

在分類任務(wù)中，例如情感分析，只需要在 Transformer 的輸出之上加一個分類層在問答任務(wù)中，問答系統(tǒng)需要接收有關(guān)文本序列的question，并且需要在序列中標記answer?？梢允褂?BERT學(xué)習(xí)兩個標記 answer 開始和結(jié)尾的向量來訓(xùn)練 Q&A模型在命名實體識別（NER），系統(tǒng)需要接收文本序列，標記文本中的各種類型的實體（人員、組織、日期等）可以用BERT將每個token的輸出向量送到預(yù)測 NER 標簽的分類層。

在part of speech 和Bert的加持下，我們模型的表現(xiàn)，達到了recall 90，precision 90。

暫且講到這里吧～

三、Lesson Learned

其實從項目推進上，數(shù)據(jù)集管理上，策略分析上，感覺還有好多可以講，可以寫的，寫下來又感覺寫的太多了。之后，單開篇幅來寫吧

參考資料：

1. 語言本能

2. 數(shù)學(xué)之美

3. 智能時代

4. 2018年，NLP研究與應(yīng)用進展到什么水平了？

5. https://en.wikipedia.org/wiki/Confusion_matrix#cite_note-Powers2011-2

6. https://lawtomated.com/accuracy-precision-recall-and-f1-scores-for-lawyers/

7. [吞吐量（TPS）、QPS、并發(fā)數(shù)、響應(yīng)時間（RT）概念 – 胡立峰 – 博客園](https://www.cnblogs.com/data2value/p/6220859.html)