自學(xué)爬蟲——老馬惹不起，簡書謝謝你（爬蟲怎么自學(xué)）

投稿用戶 ? 2024年7月7日 am8:07 ? 科研百科 ? 閱讀 77

這個爬蟲是個通用爬蟲,去用心的了解scrapy框架,你就能輕松駕馭

https://github.com/a371057600/python-paChong-

這里是我的不專業(yè)的github,不逼逼直接搬來用吧,不推薦重復(fù)造輪子,對著代碼多讀幾次就好,除非練手,不然不推薦重新敲,當(dāng)然,能優(yōu)化,改到你想要的功能是最好的.

把輪子用到了爬頭條上面

我覺得,在頭條上面教大家爬頭條好像不是太好(雖然,頭條也是爬別人的新聞)

頭條的反爬方法基本跟微博也是一樣,但是不推薦爬微博,因為微博大量的賬號和原創(chuàng)內(nèi)容,估計不登錄也不能爬,登陸了就會廢號.

本來,計劃是爬淘寶的,但是無論怎么爬都會重定向到登錄頁面,用selemui也沒用(實(shí)際有用,你只要在爬取的時候登錄成為操作就好,但是這就類麻煩了.畢竟淘寶賬號很重要的…)所以,最后折中爬了簡書,謝謝簡書爸爸的教導(dǎo).

圖片描述(最多50字)

from scrapy import signals

from selenium import webdriver

import time

from scrapy.http.response.html import HtmlResponse

class SeleniumDownloadMiddleware(object):

def init(self):

self.driver = webdriver.Chrome(executable_path=r\”C:Workpythonchromedriver.exe\”)

def process_request(self,request,spider):

self.driver.get(request.url)

time.sleep(1)

try:

while True:

showMore = self.driver.find_element_by_class_name(\’show-more\’)

showMore.click()

time.sleep(0.3)

if not showMore:

break

except:

pass

source = self.driver.page_source

response = HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding=\’utf-8\’)

return responsege

大的門戶網(wǎng)站你可以爬,爬了之后記得告訴我

獲取ajax數(shù)據(jù)的方式：

直接分析ajax調(diào)用的接口。然后通過代碼請求這個接口。

使用Selenium chromedriver模擬瀏覽器行為獲取數(shù)據(jù)。

方式優(yōu)點(diǎn)缺點(diǎn)分析接口直接可以請求到數(shù)據(jù)。不需要做一些解析工作。代碼量少，性能高。分析接口比較復(fù)雜，特別是一些通過js混淆的接口，要有一定的js功底。容易被發(fā)現(xiàn)是爬蟲。

圖片描述(最多50字)

selenium直接模擬瀏覽器的行為。瀏覽器能請求到的，使用selenium也能請求到。爬蟲更穩(wěn)定。代碼量多。性能低。

PS:本人全部自學(xué),發(fā)送到頭條也只是作為學(xué)習(xí)經(jīng)歷,順便分享經(jīng)驗,沒有炫耀和裝大佬的意向,反而有互相學(xué)習(xí)尋求幫助的想法.

醫(yī)生對病人說,你們有選擇不痛苦的權(quán)利.但是,各位自學(xué)的哥們,我們沒有選擇的權(quán)利,學(xué)習(xí)的過程必然是艱辛痛苦的,程序猿996不是為了誰,真的是因為喜歡,真的是想要進(jìn)步所以才會996.死在自己喜歡的工作上何嘗不是鐘享受呢.

不求認(rèn)同,但是不希望噴子進(jìn)來,這只是個筆記.

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

釘釘發(fā)布全新7.5版本，上線人人可用AI助理，還可在線敲木魚 – 最前線

上一篇 2024年7月7日 am8:00

螺絲學(xué)堂、職工書屋…… 上海國企在基層黨建中不斷探索新模式

下一篇 2024年7月7日 am8:12

如何評價一個低代碼平臺？分析數(shù)十家國內(nèi)外低代碼平臺得出的經(jīng)驗

低代碼格局和來龍去脈低代碼產(chǎn)品來源主要有三個渠道，如果不算廣義的CRM、ERP系產(chǎn)品（Wix、WordPress、Odoo…這些），這些產(chǎn)品構(gòu)成了現(xiàn)在低代碼的主要格局…

科研百科 2024年5月16日
82 0
廣州商學(xué)院開展2024年高級別科研項目申報選題論證會（廣州商學(xué)院高層次人才）

為有效提高廣州商學(xué)院2024年度國家社科基金項目和教育部人文社科項目申報質(zhì)量，廣州商學(xué)院科研處于10月9日下午組織開展2024年高級別科研項目申報選題論證會。論證評委由校外專家云南…

科研百科 2024年4月19日
108 0
這篇6000字的2024黨建工作半年總結(jié) 結(jié)構(gòu)規(guī)整標(biāo)題出彩引人入勝高贊

2024年，在市委市政府的堅強(qiáng)領(lǐng)導(dǎo)下，市人防辦深入學(xué)習(xí)2024年黨紀(jì)主題學(xué)習(xí)教育活動的精神并在《中國共產(chǎn)黨紀(jì)律處分條例》的指引下，不斷深化自我革新，提升黨的建設(shè)質(zhì)量?，F(xiàn)將黨建工作半…

科研百科 2024年6月27日
647 0
開票軟件v3.0金稅盤

開票軟件v3.0金稅盤隨著稅收管理的不斷發(fā)展，開票軟件v3.0金稅盤已經(jīng)成為了稅務(wù)從業(yè)者不可或缺的工具之一。開票軟件v3.0金稅盤是一種用于開具發(fā)票的軟件，它可以幫助稅局工作人員…

科研百科 2024年11月9日
1 0
背靠國網(wǎng)，優(yōu)勢顯著，遠(yuǎn)光軟件：遠(yuǎn)景光明的電力信息化重塑與新增

（報告出品方/分析師：東吳證券王紫敬） 1. 從財務(wù)信息化拓展至能源產(chǎn)業(yè)鏈遠(yuǎn)光軟件股份有限公司成立于1998年，是國內(nèi)主流的企業(yè)管理、能源互聯(lián)和社會服務(wù)的信息新技術(shù)、產(chǎn)品和服務(wù)…

科研百科 2022年8月30日
346 0
GCCP6.0套價是套定額還是清單指引

GCCP6.0套價是套定額還是清單指引 GCCP6.0是一種建筑信息模型(BIM)軟件，用于建筑和工程項目的規(guī)劃和管理。在GCCP6.0中，套價是一個非常重要的概念，指的是在項目中…

科研百科 2024年10月23日
4 0
建強(qiáng)基層組織方面怎么寫

建強(qiáng)基層組織方面怎么寫建強(qiáng)基層組織方面怎么寫建強(qiáng)基層的主要內(nèi)容有:這個單位地位在1-6平方米,質(zhì)子是( )。A.建基層B.功耗C.范圍D.了解14.中國的經(jīng)濟(jì)總部中,17億人口為7…

科研百科 2024年11月22日
0 0
【抓黨建促基層治理能力提升】盂縣牛村鎮(zhèn)：聚焦黨員管理助力鄉(xiāng)村振興

盂縣牛村鎮(zhèn)堅持把加強(qiáng)黨員教育管理作為抓好黨建工作的關(guān)鍵，著力在推動黨員教育管理落實(shí)落細(xì)落小上求創(chuàng)新。抓黨建促基層治理專項行動開展以來，牛村鎮(zhèn)黨委緊緊圍繞工作目標(biāo)，聚焦增強(qiáng)基層黨員隊…

科研百科 2023年7月14日
216 0
100年前的中國鐵路什么樣？（百年前的中國鐵路）

邱麗媛 [編者按] 21世紀(jì)的中國高鐵是“中國制造”最佳的例證，彰顯“中國速度”。這一切輝煌也是歷代中國鐵路人奮斗的成果。回首百年，中國鐵路究竟歷經(jīng)哪些風(fēng)云滄桑？有關(guān)近代中國鐵路…

科研百科 2022年5月27日
349 0
低代碼平臺盈利模式

低代碼平臺是近年來興起的一種軟件開發(fā)工具，它通過簡化開發(fā)流程和降低編碼難度，使非專業(yè)開發(fā)人員也能夠快速構(gòu)建應(yīng)用程序。這種平臺的出現(xiàn)，不僅提高了開發(fā)效率，還改變了傳統(tǒng)軟件開發(fā)的盈利模…

科研百科 2024年3月1日
140 0

自學(xué)爬蟲——老馬惹不起，簡書謝謝你（爬蟲怎么自學(xué)）

相關(guān)推薦