當前位置:首頁 > IT技術 > 編程語言 > 正文

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)
2022-04-18 10:58:12


在文本挖掘中,我們經常有文檔集合,例如博客文章或新聞文章,我們希望將它們分成自然組,以便我們理解它們。主題建模是一種對此類文檔進行分類的方法。在本視頻中,我們介紹了潛在狄利克雷分配LDA模型,并通過R軟件應用于數(shù)據(jù)集來理解它。


視頻:文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)



文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)


時長12:59


什么是主題建模?

主題建模是一種對文檔進行無監(jiān)督分類的方法,類似于對數(shù)字數(shù)據(jù)進行聚類。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_數(shù)據(jù)


一個文檔可以是多個主題的一部分,有點像模糊聚類(或軟聚類),其中每個數(shù)據(jù)點屬于多個聚類。

簡而言之,主題建模設想了一組固定的主題。每個主題代表一組單詞。主題建模 的目標是以某種方式將所有文檔映射到主題,這樣每個文檔中的單詞大部分都被那些虛構的主題捕獲。

主題建模的工具和技術將文本分類或分類為每個主題的單詞,這些是基于狄利克雷分布建模的。

什么是潛在狄利克雷分配?

潛在狄利克雷分配是一種無監(jiān)督算法,它為每個文檔為每個定義的主題分配一個值。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_機器學習_02


潛在是隱藏的另一個詞(即無法直接測量的特征),而狄利克雷是一種概率分布。

我們要從數(shù)據(jù)中提取的主題也是“隱藏主題”。它還有待被發(fā)現(xiàn)。它的用途包括自然語言處理 (NLP)和主題建模等。

這種方法遵循與我們人類相似的思維方式。這使得 潛在狄利克雷分配 更易于解釋,并且是目前最流行的方法之一。不過,其中最棘手的部分是找出主題和迭代的最佳數(shù)量。

不要將潛在狄利克雷分配與潛在判別分析(也稱為 LDA)相混淆。潛在判別分析是一種有監(jiān)督的降維技術,用于高維數(shù)據(jù)的分類或預處理。

為什么要進行主題建模?

主題建模提供了自動組織、理解、搜索和總結大型電子檔案的方法。

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_數(shù)據(jù)_03

它可以幫助解決以下問題:

發(fā)現(xiàn)收藏中隱藏的主題。新聞提供者可以使用主題建模來快速理解文章或對相似文章進行聚類。另一個有趣的應用是圖像的無監(jiān)督聚類,其中每個圖像都被視為類似于文檔。

將文檔分類為發(fā)現(xiàn)的主題。歷史學家可以使用 LDA通過分析基于年份的文本來識別歸類為歷史上的重要事件相關的主題。

使用分類來組織/總結/搜索文檔。基于 Web 的圖書館可以使用 LDA根據(jù)您過去的閱讀內容推薦書籍。例如,假設一個文檔屬于主題 :食品、寵物狗和健康。因此,如果用戶查詢“狗糧”,他們可能會發(fā)現(xiàn)上述文檔是相關的,因為它涵蓋了這些主題(以及其他主題)。我們甚至無需瀏覽整個文檔就能夠計算出它與查詢的相關性。

因此,通過注釋文檔,基于建模方法預測的主題,我們能夠優(yōu)化我們的搜索過程。

潛在狄利克雷分配及其過程

潛在狄利克雷分配是一種將句子映射到主題的技術。它根據(jù)我們提供給它的主題提取某些主題集。在生成這些主題之前,LDA 執(zhí)行了許多過程。

在應用該過程之前,我們有一定的規(guī)則或假設。

主題建模的 LDA 假設有兩個:

首先,每個文檔都是主題的混合體。我們想象每個文檔可能包含來自多個主題的特定比例的單詞。例如,在雙主題模型中,我們可以說“文檔 1 是20%的主題A和80%的主題B,而文檔2是70% 的主題A和30%的主題B”。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_聚類_04


其次,每個主題都是單詞的混合。例如,我們可以想象一個新聞的兩個主題模型,一個主題是“政治”,一個主題是“娛樂”。政治話題中最常見的詞可能是“主席”和“政府”,而娛樂話題可能由“電影”、“電視”和“演員”等詞組成。重要的是,單詞可以在主題之間共享;像“預算”這樣的詞可能會同時出現(xiàn)在兩者中。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_建模_05


LDA 是一種同時估計這兩者的數(shù)學方法:找到與每個主題相關聯(lián)的詞的混合,同時確定描述每個文檔的主題的混合。

并且,這些主題使用概率分布生成單詞。在統(tǒng)計語言中,文檔被稱為主題的概率密度(或分布),而主題是單詞的概率密度(或分布)。

主題本身就是詞的概率分布。

這些是用戶在應用 LDA 之前必須了解的假設。

LDA 是如何工作的?

LDA 有兩個部分:

屬于文檔的詞,我們已經知道。

這屬于某個主題的詞或屬于某個主題的單詞的概率,我們需要計算。

找到后者的算法。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_建模_06


瀏覽每個文檔并將文檔中的每個單詞隨機分配給k個主題之一(k是預先選擇的)。

現(xiàn)在我們嘗試了解它的完整工作過程:

假設我們有一組來自某個數(shù)據(jù)集或隨機來源的文檔。我們決定要發(fā)現(xiàn)K 個主題,并將使用 LDA 來學習每個文檔的主題表示以及與每個主題相關聯(lián)的單詞。

LDA 算法循環(huán)遍歷每個文檔,并將文檔中的每個單詞隨機分配給 K 個主題中的一個。這種隨機分配已經給出了所有文檔的主題表示和所有文檔的單詞分布以及所有主題的單詞分布。LDA 將遍歷每個文檔中的每個單詞以改進這些主題。但是這些主題的表示并不合適。所以我們必須改進這個限制。為此,對于每個文檔中的每個單詞和每個主題 T,我們計算:

文檔 d 中當前分配給主題 T 的單詞的比例

主題 T 的分配在來自這個詞的所有文檔中的比例

將單詞重新分配給一個新主題,我們以P(主題 T | 文檔 D) 乘以 P(單詞| 主題 T)的概率選擇主題 T,這實質上是,主題T生成的單詞的概率。在多次重復上一步之后,我們最終達到了一個大致穩(wěn)定的狀態(tài),即分配是可以接受的。最后,我們將每個文檔分配給一個主題。我們可以搜索最有可能被分配到某個主題的單詞。

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_r語言_07

我們最終得到了輸出,例如

·分配給每個主題的文檔

·主題的最常用關鍵詞

·由用戶來解釋這些主題。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_機器學習_08


兩個重要說明:

·用戶必須決定文檔中存在的主題數(shù)量

·用戶必須解釋主題是什么

所以通常如果我們有文檔集合,我們想要生成一組主題來表示文檔,我們可以使用 LDA 來執(zhí)行它。因為 LDA 將通過遍歷每個文檔來訓練這些文檔并將單詞分配給主題。但這不是一個循環(huán)過程。這里是一個學習過程。它將遍歷每個文檔中的每個單詞并應用上面討論的公式。

R軟件?LDA?應用

我們將嘗試通過R軟件將 LDA 應用于數(shù)據(jù)來更簡要地理解它。

越來越多的人愿意精神消費。旅游不僅可以提升人們對外地環(huán)境和外地人文的認知,也可以放松身心、愉悅心情,是一種受歡迎的精神消費。

隨著國內近些年來互聯(lián)網(wǎng)的發(fā)展,越來越多的人開始線上消費,消費感受的推薦成為了潮流。在各個旅游平臺上,越來越多的人愿意參與旅游目的地游玩感受的分享。

本文試圖從馬蜂窩旅游官網(wǎng)上就新疆這個旅游目的地游記進行感知分析。

游記表現(xiàn)出多元復雜的情感

通過情感分析(也稱為意見挖掘),用文本挖掘和計算機語言學來識別和提取原始資料中的主觀信息,分析主觀信息(例如觀點,情感,態(tài)度,評估,情感等),以進行提取,分析,處理,歸納和推理。


圖表1

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_機器學習_09


通過數(shù)據(jù)分析可知,旅客對新疆整體上正向情感還是遠高于負向情感,旅游群體對新疆旅游地區(qū)還是呈現(xiàn)出積極的肯定態(tài)度,如舒適、恬靜、賞心悅目、激動、留戀等。從詞頻統(tǒng)計看出,自然風光多,旅游對民族特色的較為關注,如:盆地、白云、沙漠、草原、南疆。當然還有吃食,如“奶酪”等等。從結果也可以看到有少量的“失望”、“惆悵”等情感,通過游記我們發(fā)現(xiàn)風景基本上滿足了旅客的需求,但是深層次的體驗項目較少,新疆旅游景點間空間跨度大、路況條件差、行車時間長、節(jié)假日擁堵排隊等。新疆旅游大部分都是景區(qū)內的風景,對于自然風貌記錄偏少,規(guī)劃、人文旅游也偏少。情感分析可知,游客對風景、美食都很滿意,有著更高的期待。?

哪些游記幫助人數(shù)最多

通過游記的內容特點和幫助人數(shù),我們通過決策樹來判斷哪些游記的幫助人數(shù)最多,同時也發(fā)現(xiàn)大多數(shù)驢友的心里出行需求。


圖表2


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_聚類_10



樣本游記從游記篇幅、作者等級、人均花費、旅行組合、出行天數(shù)等方面反映游記的特點。游記篇幅的大小和作者等級是影響幫助人數(shù)的最重要的因素,內容詳盡的游記能幫助到更多的人,經驗老道的驢友的游記一般更有參考價值。旅行組合中家庭組合較少,赴疆游客以個人或朋友背包客徒步、自由行旅游為主,人均費用在7k以下,出行天數(shù)小于12天。游記的幫助人數(shù)客觀地反映了驢友們旅游行程規(guī)劃的心理預期,同時會對其他旅游者的決策和對旅游目的地的營銷產生重要影響。

游記話題情感認知形象

接下來我們通過主題挖掘尋找游記話題和表達情感之間的關系。


圖表3

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_聚類_11


從中可以看到有兩個主題是景點相關,從關鍵詞中可以用看到驢友們關注比較多的景點是獨庫公路、天山、喀納斯、禾木、布爾津、五彩灘等?!靶陆薄ⅰ蔼殠旃贰?、“喀納斯”、“烏魯木齊”是游記樣本中共現(xiàn)頻率最高的詞,成為兩個重要的中心節(jié)點。通常情況下,距離中心節(jié)點越近,表示與兩個節(jié)點的關聯(lián)越緊密。由此可見,語義網(wǎng)絡圖呈現(xiàn)出兩個較為明顯的趨勢:一是“新疆”一詞輻射出的語義網(wǎng)絡除旅游景區(qū)外,更多地表現(xiàn)了游客對新疆“雪山”、“草原”、“景色”等旅游形象的整體情感感知:如“獨特”、“寧靜”等,這與新疆對外旅游宣傳所采用的詞語相一致; 二是“烏魯木齊”、“風景”一詞輻射出的語義網(wǎng)絡集合了更多與行程和旅游攻略相關的信息,如“酒店”、“機場”、“包車”、“自駕”等,從游客感知視角證實了新疆旅游的旅游攻略行程信息以及烏魯木齊作為重要的旅游集散中心在新疆旅游業(yè)發(fā)展中的地位。


【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)_聚類_12


本文摘自 :https://blog.51cto.com/t

開通會員,享受整站包年服務立即開通 >