什么是python爬蟲呢?說的簡單一些,爬蟲就是模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求,獲取網(wǎng)絡(luò)響應(yīng),并按照一定的規(guī)則提取數(shù)據(jù)保存數(shù)據(jù)的程序。那么和python爬蟲有相關(guān)的框架有哪些呢?今天達(dá)內(nèi)科技的小編就來給大家整理下。
1.Scrapy框架是一套比較成熟的Python爬蟲框架,是使用Python開發(fā)的快速、高層次的信息爬取框架,可以高效的爬取web頁面并提取出結(jié)構(gòu)化數(shù)據(jù)。
2.Crawley框架也是Python開發(fā)出的爬蟲框架,該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式。
3.Portia框架是一款允許沒有任何編程基礎(chǔ)的用戶可視化地爬取網(wǎng)頁的爬蟲框架。
4.newspaper框架是一個(gè)用來提取新聞、文章以及內(nèi)容分析的Python爬蟲框架。
5.Python-goose框架可提取的信息包括:文章主體內(nèi)容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標(biāo)簽。在Python中,開源爬蟲框架很多,我們自己也可以寫一些。我們并不需要掌握每一種爬蟲框架,只需要深入掌握一種即可。大部分爬蟲框架實(shí)現(xiàn)方式都是大同小異,建議學(xué)習(xí)的Python
爬蟲框架——Scrapy。
Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。其可以應(yīng)用在數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。其初是為了頁面抓取
(更確切來說, 網(wǎng)絡(luò)抓取 ) 所設(shè)計(jì)的, 也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services )
或者通用的網(wǎng)絡(luò)爬蟲。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。
Scrapy主要包括了以下組件:
1.引擎(Scrapy)
2.調(diào)度器(Scheduler)
3.下載器(Downloader)
4.爬蟲(Spiders)
5.項(xiàng)目管道(Pipeline)
6.下載器中間件(Downloader Middlewares)
7.爬蟲中間件(Spider Middlewares)
8.調(diào)度中間件(Scheduler Middewares)
Scrapy運(yùn)行流程大概如下:
1.引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來的抓取
2. 引擎把URL封裝成一個(gè)請求(Request)傳給下載器
3. 下載器把資源下載下來,并封裝成應(yīng)答包(Response)
4. 爬蟲解析Response
5. 解析出實(shí)體(Item),則交給實(shí)體管道進(jìn)行進(jìn)一步的處理
6. 解析出的是鏈接(URL),則把URL交給調(diào)度器等待抓取
以上就是達(dá)內(nèi)科技的小編給大家整理的關(guān)于python爬蟲框架的內(nèi)容了,如果說你對于學(xué)習(xí)python感興趣的話,那么達(dá)內(nèi)科技的小編建議大家來我們公司的python培訓(xùn)班進(jìn)行實(shí)地考察,也可以點(diǎn)擊我們文章下面的獲取試聽資格按鈕來獲取我們的python課程免費(fèi)試聽資格,在試聽中可以更加深入的了解我們達(dá)內(nèi)科技。