<style type="text/css"> .reveal p { text-align: left; } .reveal ul { display: block; } .reveal ol { display: block; } </style>

* Go through each category at the sidebar * Extract all the books in the categories * Structurize the data
這是因為 url 是在我們所要爬的資料中一定會有的欄位,所以將他設定為必須有的資料,至於其他則是將它設定為 optional,這樣即使爬到沒有的資料,也不會影響爬蟲對資料的爬取
結果跟之前會是一樣的,這是因為我們還沒有在先前的dataclass再做詳細定義
Web poet implements Page Object pattern for web scraping
Scrapy poet 在看到page: BookPage時,就會知道要去呼叫 BookPage 的 class
這麼做可以增加程式的維護性,因為網頁很有可能在未來會改變結構
This is because json schema does not accept field attribute
<style type="text/css"> .reveal p { text-align: left; } .reveal ul { display: block; } .reveal ol { display: block; } </style>