如今機器學(xué)習(xí)和人工智能是大家耳熟能詳?shù)膬蓚€詞匯,在我們?nèi)粘I钪幸彩潜桓哳l的提到。其實機器學(xué)習(xí)只是人工智能的一部分,是人工智能的一個子集,它往往是通過示例和經(jīng)驗?zāi)P妥層嬎銠C去執(zhí)行一些操作任務(wù),研究人員和開發(fā)人員比較比較熱衷于它。在生活中,我們應(yīng)用的很多東西其實都使用的是機器學(xué)習(xí)算法,例如我們使用的好多APP,包括AI助手、web搜索、手機翻譯等,現(xiàn)在你手機社交媒體新聞的推薦由機器學(xué)習(xí)算法提供支持,你在視屏網(wǎng)站上推薦的視頻、影視劇也是機器學(xué)習(xí)模型的結(jié)果,你現(xiàn)在聽歌軟件的每日歌曲推薦也是利用機器學(xué)習(xí)算法的強大功能來創(chuàng)建推薦你喜歡的歌曲列表等等,但是機器學(xué)習(xí)有許??多不同的風(fēng)格的應(yīng)用。在這篇文章中,我們將探討有監(jiān)督和無監(jiān)督學(xué)習(xí),這是機器學(xué)習(xí)算法的兩個主要類別。
一、監(jiān)督學(xué)習(xí)
如果你有關(guān)注有關(guān)于人工智能的新聞,你可能已經(jīng)聽說過AI算法需要很多人工標(biāo)記的示例。這些故事指的是監(jiān)督學(xué)習(xí),這是機器學(xué)習(xí)算法中比較流行的類別。
監(jiān)督式機器學(xué)習(xí)適用于你知道輸入數(shù)據(jù)結(jié)果的情況。假設(shè)你要創(chuàng)建一個圖像分類機器學(xué)習(xí)算法,該算法可以檢測貓,狗和馬的圖像。
要訓(xùn)練AI模型,你必須收集貓,狗和馬照片的大型數(shù)據(jù)集。但是在將它們輸入機器學(xué)習(xí)算法之前,你必須使用它們各自類的名稱對其進行注釋。注釋可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或?qū)⒃獢?shù)據(jù)附加到圖像文件中,這是一項費力的手動任務(wù)。
標(biāo)記數(shù)據(jù)后,機器學(xué)習(xí)算法(例如卷積神經(jīng)網(wǎng)絡(luò)或支持向量機)將處理示例,并開發(fā)可將每個圖像映射到其正確類別的數(shù)學(xué)模型。如果對AI模型進行足夠的帶有標(biāo)簽的示例訓(xùn)練,它將能夠準(zhǔn)確地檢測出包含貓,狗,馬的新圖像類別。
監(jiān)督機器學(xué)習(xí)解決了兩種類型的問題:分類和回歸。上面說明的示例是一個分類問題,其中機器學(xué)習(xí)模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。
回歸機器學(xué)習(xí)模型不限于特定類別。它們可以具有連續(xù)的,無限的價值,例如客戶將為產(chǎn)品支付多少費用或明天下雨的可能性。
一些常見的監(jiān)督學(xué)習(xí)算法包括:
二、無監(jiān)督學(xué)習(xí)
假設(shè)你是一個電子商務(wù)零售企業(yè)主,擁有數(shù)千個客戶銷售記錄。你想找出哪些客戶有共同的購買習(xí)慣,以便可以使用該信息向他們提出相關(guān)建議并改善你的追加銷售政策。問題在于你沒有預(yù)定義的類別將客戶劃分為多個類別。因此,你不能訓(xùn)練監(jiān)督式機器學(xué)習(xí)模型來對客戶進行分類。
這是一個集群問題,是無監(jiān)督機器學(xué)習(xí)的主要用途。與監(jiān)督學(xué)習(xí)不同,無監(jiān)督機器學(xué)習(xí)不需要標(biāo)記數(shù)據(jù)。它仔細研究了訓(xùn)練示例,并根據(jù)它們的共同特征將它們分為幾類。
訓(xùn)練有素的無監(jiān)督機器學(xué)習(xí)算法會將你的客戶劃分為相關(guān)的集群。這將幫助你根據(jù)客戶與集群中其他人的共同偏好來預(yù)測客戶將購買的產(chǎn)品。
K-means是眾所周知的無監(jiān)督聚類機器學(xué)習(xí)算法。使用k均值的挑戰(zhàn)之一是知道將數(shù)據(jù)劃分為多少個群集。太少的包會打包不太相似的數(shù)據(jù),而太多的簇只會使你的模型復(fù)雜且不準(zhǔn)確。
除了聚類之外,無監(jiān)督學(xué)習(xí)還可以執(zhí)行降維。當(dāng)數(shù)據(jù)集具有太多特征時,可以使用降維。假設(shè)你有一個有關(guān)客戶的信息表,該表有100列。擁有有關(guān)你的客戶的大量數(shù)據(jù)可能聽起來很有趣。但實際上并非如此。
隨著數(shù)據(jù)中功能數(shù)量的增加,你還需要更大的樣本集來訓(xùn)練準(zhǔn)確的機器學(xué)習(xí)模型。你可能沒有足夠的樣本來訓(xùn)練100列模型。太多的功能也增加了過度擬合的機會,這實際上意味著你的AI模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,而在其他數(shù)據(jù)上表現(xiàn)不佳。
無監(jiān)督的機器學(xué)習(xí)算法可以分析數(shù)據(jù)并找到不相關(guān)的特征,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對于我們的客戶表,通過降維算法運行它后,我們可能發(fā)現(xiàn)與客戶的年齡和家庭住址相關(guān)的功能幾乎沒有關(guān)聯(lián),因此我們可以將其刪除。
主成分分析(PCA)是一種流行的降維機器學(xué)習(xí)算法。
一些安全分析師還使用無監(jiān)督的機器學(xué)習(xí)進行異常檢測,以識別組織網(wǎng)絡(luò)中的惡意活動。
無監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費力的數(shù)據(jù)標(biāo)記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相比之下,通過將監(jiān)督學(xué)習(xí)算法的輸出與測試數(shù)據(jù)的實際標(biāo)簽進行比較,可以很容易地衡量監(jiān)督學(xué)習(xí)算法的準(zhǔn)確性。
現(xiàn)在你了解有監(jiān)督和無監(jiān)督的區(qū)別了嗎?