• 招生咨詢熱線:4008-569-579 
  • 手機(jī)版
    用手機(jī)掃描二維碼直達(dá)商品手機(jī)版
招生咨詢熱線
4008-569-579
機(jī)構(gòu)主頁 > 培訓(xùn)資料 > 網(wǎng)絡(luò)爬蟲的分類有哪幾種你了解嗎
機(jī)構(gòu)主頁 > 培訓(xùn)資料>網(wǎng)絡(luò)爬蟲的分類有哪幾種你了解嗎

網(wǎng)絡(luò)爬蟲的分類有哪幾種你了解嗎

來源:廣州達(dá)內(nèi)教育        時(shí)間:2023-05-30        熱度:38℃        返回列表

    如果說對(duì)于python有過了解的學(xué)員的話肯定就是對(duì)于python就是有了解的了,爬蟲是python的一部分了,在系統(tǒng)結(jié)構(gòu)中網(wǎng)絡(luò)爬蟲的分類是要分為多少種的呢?大家對(duì)于這些網(wǎng)絡(luò)爬蟲是否真的了解呢?今天達(dá)內(nèi)科技就來和大家一起了解下網(wǎng)絡(luò)爬蟲的分類。

  1.通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)


  爬取目標(biāo)資源在全互聯(lián)網(wǎng)中,爬取目標(biāo)數(shù)據(jù)巨大。對(duì)爬取性能要求非常高。應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價(jià)值。


  通用網(wǎng)絡(luò)爬蟲的基本構(gòu)成:初始URL集合,URL隊(duì)列,頁面爬行模塊,頁面分析模塊,頁面數(shù)據(jù)庫,鏈接過濾模塊等構(gòu)成。


  通用網(wǎng)絡(luò)爬蟲的爬行策略:主要有深度優(yōu)先爬行策略和廣度優(yōu)先爬行策略。


  2.聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler)


  將爬取目標(biāo)定位在與主題相關(guān)的頁面中


  主要應(yīng)用在對(duì)特定信息的爬取中,主要為某一類特定的人群提供服務(wù)


  聚焦網(wǎng)絡(luò)爬蟲的基本構(gòu)成:初始URL,URL隊(duì)列,頁面爬行模塊,頁面分析模塊,頁面數(shù)據(jù)庫,連接過濾模塊,內(nèi)容評(píng)價(jià)模塊,鏈接評(píng)價(jià)模塊等構(gòu)成


  聚焦網(wǎng)絡(luò)爬蟲的爬行策略:


  基于內(nèi)容評(píng)價(jià)的爬行策略


  基于鏈接評(píng)價(jià)的爬行策略


  基于增強(qiáng)學(xué)習(xí)的爬行策略


  基于語境圖的爬行策略


  關(guān)于聚焦網(wǎng)絡(luò)爬蟲具體的爬行策略


  3.增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)


  增量式更新指的是在更新的時(shí)候只更新改變的地方,而未改變的地方則不更新


  只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或者新產(chǎn)生的網(wǎng)頁,


  一定程度上能保證所爬取的網(wǎng)頁,盡可能是新網(wǎng)頁


  4.深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)


  表層網(wǎng)頁:不需要提交表單,使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)網(wǎng)頁


  深層網(wǎng)頁:隱藏在表單后面,不能通過靜態(tài)鏈接直接獲得,是需要提交一定的關(guān)鍵詞之后才能夠獲取得到的網(wǎng)頁。


  深層網(wǎng)絡(luò)爬蟲重要的部分即為表單填寫部分


  深層網(wǎng)絡(luò)爬蟲的基本構(gòu)成:URL列表,LVS列表(LVS指的是標(biāo)簽/數(shù)值集合,即填充表單的數(shù)據(jù)源)爬行控制器,解析器,LVS控制器,表單分析器,表單處理器,響應(yīng)分析器等


  深層網(wǎng)絡(luò)爬蟲表單填寫有兩種類型:


  基于領(lǐng)域知識(shí)的表單填寫(建立一個(gè)填寫表單的關(guān)鍵詞庫,在需要的時(shí)候,根據(jù)語義分析選擇對(duì)應(yīng)的關(guān)鍵詞進(jìn)行填寫)


  基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫(一般是領(lǐng)域只是有限的情況下使用,這種方式會(huì)根據(jù)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,并自動(dòng)的進(jìn)行表單填寫)


  網(wǎng)絡(luò)爬蟲的分類達(dá)內(nèi)科技就和大家講解這么多了,不管是你是對(duì)網(wǎng)絡(luò)爬蟲感興趣還是你對(duì)于python感興趣,達(dá)內(nèi)科技都?xì)g迎大家來我們公司的Python培訓(xùn)班進(jìn)行實(shí)地考察,也可以來免費(fèi)體驗(yàn)我們的python免費(fèi)試聽課程,獲取的方式可以點(diǎn)擊我們文章下面的獲取試聽資格按鈕來獲取。

電話咨詢

電話咨詢

咨詢電話:
4008-569-579
回到頂部

回到頂部