<dl id="4u8qm"><tr id="4u8qm"></tr></dl>

<nav id="4u8qm"><tbody id="4u8qm"></tbody></nav>

<noframes id="4u8qm"><dl id="4u8qm"></dl></noframes>

海量資源，盡在掌握

當(dāng)前位置：首頁 > IT技術(shù) > 編程語言 > 正文

從n元文法到神經(jīng)語言模型
2022-05-29 22:46:42

資料來源

https://www.bilibili.com/video/BV11g4y1i7MW

80年代的n元語法
隱馬爾科夫模型
SVM
MRF
CRF
等等

提綱

1.n元文法
2.神經(jīng)語言模型
3.問題思考

歷史

后面詞的出現(xiàn)受前面詞的影響，改進(jìn)為條件概率，數(shù)據(jù)量太大

改進(jìn)，當(dāng)前詞只和前面n個(gè)詞相關(guān)，這樣就出現(xiàn)了n階馬爾科夫鏈

要解決的問題：

1.數(shù)據(jù)稀疏問題-會(huì)出現(xiàn)新的詞-很可能在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過，需要數(shù)據(jù)平滑
2.領(lǐng)域自適應(yīng)
3.以離散符號(hào)為統(tǒng)計(jì)單元，忽略了詞與詞之間的相似性-比如英文的單詞有不同的時(shí)態(tài)，但其實(shí)是一樣的意思

枯燥和乏味是相近詞-n元文法做不到

分析原因

帶來的問題：相似度沒有體現(xiàn)

想辦法解決，用連續(xù)空間去編碼，同時(shí)也要降低維度，one-hot維度太大

還有一個(gè)好處，同時(shí)算概率的時(shí)候，可以共享一些歷史數(shù)據(jù)
歷史數(shù)據(jù)-“很”是一樣的

怎么賦值呢？

神經(jīng)語言模型

FNN怎么實(shí)現(xiàn)語言模型的計(jì)算?

1.查詞向量

2.計(jì)算后驗(yàn)概率
(L_T)是查表
輸入是一個(gè)句子，

舉例說明

非線性變換

注意，這里輸入的是 “這本書很乏味”，這個(gè)完整的句子了，不再是 “這本書很”

需要n-1個(gè)詞的歷史數(shù)據(jù)
僅對(duì)小窗口的歷史信息進(jìn)行建模
能不能把所有的歷史數(shù)據(jù)考慮進(jìn)去

RNN登場(chǎng)

完整的圖

案例的RNN模型

梯度爆炸，彌散問題

能不能選擇性的遺忘一些東西？

LSTM登場(chǎng)

不管是RNN 還是LSTM 都只考慮了歷史，沒有考慮歷史哪個(gè)詞對(duì)當(dāng)前影響性大
不同的影響性要賦予不同的權(quán)重

自注意力機(jī)制

考慮了語境信息

Transformer

Bert模型

問題思考

問題1：樣本的局限性
案例-脫貧困難，資源就那么點(diǎn)

問題2：和自然語言的局限性

問題3：東施效顰，沒有學(xué)到精髓

近年來老師團(tuán)隊(duì)的成果

比如出租車，車很重要，車怎么可以賦予更高的權(quán)重？得到質(zhì)量跟高的向量
論文1 - EMNLP 2017

光在文本上學(xué)也是有問題的，有時(shí)候的圖文結(jié)合的，所以要利用圖片信息
詞也不一樣，有些是抽象詞，有些是具體詞，具象詞，這種不同模態(tài)的詞，賦予不同的權(quán)重
論文2 -

不同此類的詞相互的影響

把上下文語境信息存起來，對(duì)一些頻繁訪問的上下文信息，記錄在緩存中
看起來挺新的，但其實(shí)很早就這么做了，基于緩存的n元文法，有點(diǎn)像外部記憶

上面的東西
基本是在解決問題1
包括把聲音的信息都拿進(jìn)來

驚異度機(jī)制

借助外部?jī)x器的圖像-探索大腦的解析形式
fMRI 核磁共振圖像

怎么從大腦圖像中重構(gòu)語義信息？
三種方式
1.給一張圖片觀察fMRI核磁圖像
2.給一句句子觀察
3.給一張?jiān)~圖觀察圖像

有的時(shí)候會(huì)造一些相同的句子去理解一些說的話

所有論文

本文摘自：https://www.cnblogs.com/

開通會(huì)員，享受整站包年服務(wù)立即開通 >

推薦內(nèi)容

<fieldset id="iemyi"><delect id="iemyi"></delect></fieldset>

<tfoot id="iemyi"></tfoot>