自然語言數據是大數據的主要形態之一,每個企業幾乎都積存有大量的文字,語音數據,互聯網公司有網站上的評論留言論壇帖子,移動運營商有文字短信息,電子商務平臺有客服錄音,證券公司需要處理大量的上市公司年報資料,IT企業積累了大量的技術文檔等等。自然語言處理(NLP)是機器學習當前神秘,紅火,具難度,也讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用。NLP能發揮威力的場景不勝枚舉。過去受限于企業的處理能力,面對寶山空手而歸,現在隨著深度學習技術在NLP中的應用,一大批成熟度高的算法模型應運而生,在NLP幾乎所有的子領域都取得巨大突破,現在從深度學習的角度去學習NLP,可謂正逢其時。
第1部份 深度學習知識要覽,兩小時入門深度學習。
第2部份 自然語言數據是大數據的主要形態,任何企業都需要自然語言處理技術。自然語言處理(NLP)場景概述,兩小時入門NLP。深度學習初試牛刀,在推薦系統中結合自然語言處理的應用,一舉解決新商品上架時的冷啟動問題
第3部份 基于深度學習的語言模型,詞向量與embedding。google神器word2vec詳解與內幕揭秘,部署和訓練word2vec從此一劍走天下,用word2vec輕松實現文本分類,文本相似性判斷,文本自動摘要,新聞自動配圖
第4部份 集外詞怎樣求embedding?多種解決方案,中文集外詞解決方案,段向量與基于深度學習的情感分析,實際分析長篇大論的影評是好評還是差評?
第5部份 更加復雜的情感分析問題:新浪微博情感傾向性分析,集體情感趨勢分析:輿情監控,大企業公關部門和政府管理部門的管控利器
第6部份 LSTM詳解,用LSTM解決集外詞編碼問題,準確率驚人的基于LSTM的命名實體識別解決方案,橫掃一切可轉化為標注問題的場景
第7部份 Encoder-Decoder-Attention機制,橫掃一切“從序列到序列”場景的終極模型,機器翻譯,文本自動摘要,聊天機器人等都可歸結為此類場景下的問題。谷歌機器翻譯技術解讀,BBC新聞結合計算機視覺的語音識別(唇語識別)
第8部份 “春天麗日照晴川,十里桃花映滿山。燕子呢喃尋舊夢,清風拂面柳如煙”,誰敢相信這是機器寫的詩?庖丁解牛剖析“機器濕人”。把生成式對抗網絡的思路遷移到自然語言處理(序列處理)場景:SeqGAN,利用SeqGAN創作詩歌,假冒奧巴馬演講詞,寫貝多芬式的音樂
第9部份 下一個人工智能熱點(自然語言處理,爬蟲技術,圖論算法,圖數據庫等多項技術的綜合應用):知識圖譜簡介,深度學習用于知識圖譜,在文本中用卷積網絡和LSTM析取實體之間的語義關系,怎樣用知識圖譜構建QA系統(聊天機器人)? |