
Python 實現搜索引擎培訓
課程首先會講解爬蟲基礎并利用 Python 的異步特性實現異步的爬蟲系統。
而后,會對索引的構建、索引的壓縮、排名算法等知識點進行講解并實現其編碼。
后利用異步 web 框架 sanic 構建后端,實現一個完整的垂直搜索引擎站點。
1 搜索引擎架構設計
2 爬蟲的基本概念
3 基于 Ruia 構造異步爬蟲系統
4 對文檔數據進行處理
5 實現倒排索引的壓縮
6 異步爬蟲框架 Sanic
7 實現前后端交互
8 搜索引擎的必要組件
9 異步爬蟲框架 Ruia
10 索引結構的使用
11 實現 ElasGamma 算法的編碼與解碼
12 文檔的搜索功能
13 編寫搜索引擎前端
14 搜索結果排名
1
搜索引擎架構
1.介紹課程實現的搜索引擎的架構設計
2.介紹搜索引擎所必要的組件
3.對課程項目進行開發環境的部署和配置
4.創建項目及必要的代碼目錄
2
構建爬蟲系統
1.爬蟲的基本概念
2.異步爬蟲框架ruia的使用介紹
3.基于ruia構造異步爬蟲系統
3
索引結構的實現
1.索引的基本概念
2.構建倒排索引
3.對文檔數據進行處理
4
索引壓縮
1.為什么要進行索引壓縮
2.倒排索引的優化方法
3.實現EliasGamma算法的編碼與解碼
4.實現倒排索引的壓縮
5.實現文檔的搜索功能
5
實現搜索引擎前端以及后端
1.異步Web框架Sanic
2.使用Sanic搭建后端服務
3.編寫搜索引擎前端
4.實現前后端交互
6
搜索結果排名
1.CosineSimiliarity
2.PageRank
7
搜索引擎的功能擴展
1.為搜索關鍵詞結果編寫頁面緩存功能
