
自然語言處理底層技術實現及應用培訓
課程將以中文為處理對象,
逐步講解關于中文的自然語言處理技術常用的一些底層技術,
即中文分詞、詞性標注、命名實體識別。
這三項底層技術也是目前能夠商用,且相對成熟的技術。
1 中文分詞方法
2 命名實體識別
3 條件隨機場模型
4 中文詞性標注
5 隱馬爾科夫模型
6 長短時記憶網絡
1
自然語言處理簡介
1.自然語言處理發展歷史
2.自然語言處理底層技術
3.自然語言處理應用技術
2
基于字典的中文分詞方法
1.分詞常用方法
2.正向大匹配法
3.逆向大匹配法
4.雙向大匹配法
1
實現逆向大匹配法
1.中文分詞概念
2.逆向大匹配法
3
基于隱馬爾可夫的中文分詞方法
1.序列標注
2.隱馬爾可夫模型
3.維特比算法
2
實現維特比算法
1.維特比算法
4
基于條件隨機場的詞性標注方法
1.詞性標注
2.基于規則的方法
3.基于統計的方法
4.條件隨機場
3
使用條件隨機場工具進行分詞
1.文本預處理
2.sklearncrfsuite使用
5
基于深度學習的命名實體識別方法
1.命名實體識別
2.循環神經網絡
3.長短時記憶網絡
4.BiLSTMCRF
5.TensorFlow
4
實現基于規則的命名實體識別方法
1.命名實體識別概念
2.基于規則的方法
課程將會以中文文本為研究對象,
逐步講解自然語言處理中常用的底層技術,
并動手實現。課程主要講解自然語言處理的底層技術,
具體來說是中文分詞,詞性標注以及命名實體識別。
中文分詞:基于字典的方法 。
中文分詞:基于隱馬爾可夫模型的方法。
詞性標注:基于條件隨機場的方法。
命名實體識別:基于深度學習的方法。
在中文分詞實驗中,主要會詳細介紹以下幾種方法:
正向大匹配法。
逆向大匹配法。
雙向大匹配法。
隱馬爾可夫方法。
