新書推薦:
《
暗網:被窺屏的孩子
》
售價:HK$
133.6
《
選擇性緘默症:不說話的孩子
》
售價:HK$
89.1
《
發現台灣公衛行腳:十大公衛計劃紀實(再版)
》
售價:HK$
103.9
《
跨世紀巨大建築工程:橋梁、隧道、摩天大樓、圓頂建築、水壩,5大創世紀建築工程進化史
》
售價:HK$
133.6
《
圖解籃球
》
售價:HK$
118.5
《
天朝的崩潰:鴉片戰爭再研究
》
售價:HK$
118.8
《
大家都這麼說,所以就得這麼做嗎.:11個自我提問,引導出屬於自己的最佳選項
》
售價:HK$
95.0
《
音樂使人自由(暢銷經典版)
》
售價:HK$
112.8
|
內容簡介: |
本書說明目前最流行的Python爬蟲架構Scrapy,它簡單好用、靈活易擴充、文件豐富、開發社區活躍,使用Scrapy可以高效率地開發網路爬蟲應用。讀者有Python語言基礎即可,本書從零基礎、逐步由淺入深說明。
全書共14章,系統地介紹Python流行框架Scrapy的相關技術及使用技巧。第1~8章說明Scrapy開發的核心基礎部分,重點介紹Scrapy的核心元素,如spider、selector、item、link等。
第9~14章說明實際爬蟲開發中使用頻率最高的一些實用技術,如下載檔案和圖片、模擬登入、執行JavaScript、爬取動態網頁、使用HTTP代理、分散式爬蟲的編寫等內容。
本書特色:
■所有基礎部分的說明都配有程式範例,而不僅是枯燥的文件。
■案例選材方面以說明基礎知識為核心,儘量選擇專門供練習爬蟲技術的網站(不易變動)或接近日常生活的網站(京東、知乎、豆瓣、360)進行示範。
■在說明某些基礎知識時,對Scrapy原始程式進行分析,讓讀者能夠「知其然並知其所以然」。
適用:有Python語言基礎,想學習編寫複雜網路爬蟲的讀者。
|
關於作者: |
作者簡介
劉碩
曾任職知名外企,從事一線開發工作10年,目前主要從事Python開發與教學工作,在慕課網開設多門Python課程,深受學員歡迎。
|
目錄:
|
01 初識Scrapy
1.1網路爬蟲是什麼
1.2Scrapy簡介及安裝
1.3撰寫第一個Scrapy爬蟲
1.4本章小結
02 撰寫Spider
2.1Scrapy架構結構及工作原理
2.2Request和Response物件
2.3Spider開發流程
2.4本章小結
03 使用Selector分析資料
3.1Selector物件
3.2Response內建Selector
3.3XPath
3.4CSS選擇器
3.5本章小結
04 使用Item封裝資料
4.1Item和Field
4.2擴充Item子類別
4.3Field中繼資料
4.4本章小結
05 使用ItemPipeline處理資料
5.1ItemPipeline
5.2更多實例
5.3本章小結
06 使用LinkExtractor分析連結
6.1使用LinkExtractor
6.2描述分析規則
6.3本章小結
07 使用Exporter匯出資料
7.1指定如何匯出資料
7.2增加匯出資料格式
7.3本章小結
08 專案練習
8.1專案需求
8.2頁面分析
8.3程式實現
8.4本章小結
09下載檔案和圖片
9.1FilesPipeline和ImagesPipeline
9.2專案實戰:爬取matplotlib實例原始程式檔案
9.3專案實戰:下載360圖片
9.4本章小結
10 模擬登入
10.1登入實質
10.2Scrapy模擬登入
10.3識別驗證碼
10.4Cookie登入
10.5本章小結
11爬取動態頁面
11.1Splash繪製引擎
11.2在Scrapy中使用Splash
11.3專案實戰:爬取toscrape中的名人名言
11.4專案實戰:爬取京東商場中的書籍資訊
11.5本章小結
12 存入資料庫
12.1SQLite
12.2MySQL
12.3MongoDB
12.4Redis
12.5本章小結
13 使用HTTP代理
13.1HttpProxyMiddleware
13.2使用多個代理
13.3取得免費代理
13.4實現隨機代理
13.5專案實戰:爬取豆瓣電影資訊
13.6本章小結
14 分散式爬取
14.1Redis的使用
14.2scrapy-redis原始程式分析
14.3使用scrapy-redis進行分散式爬取
14.4本章小結
|
|