方法	解釋
GET	我跟對方伺服器拿取資料
POST	我提供資料給對方伺服器進行後續處理
More

Course	Weekday	instructer	TA
人工智慧與數位人文	4	張瑜芸	???

resultLIST = []
for url in url_list:
    response = requests.get(url=url)
    soup = bs(response.text, 'lxml')
    try:
        resultDICT = {
        "Name": soup.select("#content_l > div:nth-child(1) > div.l_box_inner > div > div > div.movie_intro_info_r > h1")[0].text.strip(),
        "release_date": soup.select("#content_l > div:nth-child(1) > div.l_box_inner > div > div > div.movie_intro_info_r > span:nth-child(5)")[0].text,
        "duration": soup.select("#content_l > div:nth-child(1) > div.l_box_inner > div > div > div.movie_intro_info_r > span:nth-child(6)")[0].text.strip(),
        "release_company": soup.select("#content_l > div:nth-child(1) > div.l_box_inner > div > div > div.movie_intro_info_r > span:nth-child(7)")[0].text.strip(),
        "imdb": soup.select("#content_l > div:nth-child(1) > div.l_box_inner > div > div > div.movie_intro_info_r > span:nth-child(8)")[0].text.strip()
    }
    except:
        continue
    resultLIST.append(resultDICT)

網路爬蟲

什麼是網路爬蟲？

為什麼要寫爬蟲？

在那之前...先來個小複習

什麼是 `html`? 什麼是 `CSS`?

一份 `html` 檔分成哪兩個部分？

如果要在網頁中顯示你放的文字、圖片
要修改兩個部分的哪一部分？

什麼是 `class`? 什麼是 `href`?

讓我們多認識網頁一點

靜態網頁 vs 動態網頁

靜態網頁

動態網頁

Request & Response

來認識新的資料型態：`dict`

小試身手

開始寫爬蟲囉！

今日目標

先來看看網頁的樣子

CSS Path

CSS Path

CSS Path

小試身手

如果今天目的是要抓目錄頁上的所有電影資料，用CSS會有什麼問題？

html tag

試跑下面兩個指令，告訴我差別在哪裡

想到`list`，就要想到 `for` 迴圈

Let's start from here.

小試身手

還差什麼？

該如何將資料存起來呢？

如果網站結構不如預期怎麼辦？

`try`...`except`

輪到你了

今日目標

HINT

Reference:

網路爬蟲

什麼是網路爬蟲？

為什麼要寫爬蟲？

在那之前...先來個小複習

什麼是 html? 什麼是 CSS?

一份 html 檔分成哪兩個部分？

如果要在網頁中顯示你放的文字、圖片要修改兩個部分的哪一部分？

什麼是 class? 什麼是 href?

讓我們多認識網頁一點

靜態網頁 vs 動態網頁

靜態網頁

動態網頁

Request & Response

來認識新的資料型態：dict

小試身手

開始寫爬蟲囉！

今日目標

先來看看網頁的樣子

CSS Path

CSS Path

CSS Path

小試身手

如果今天目的是要抓目錄頁上的所有電影資料，用CSS會有什麼問題？

html tag

試跑下面兩個指令，告訴我差別在哪裡

想到list，就要想到 for 迴圈

Let's start from here.

小試身手

還差什麼？

該如何將資料存起來呢？

如果網站結構不如預期怎麼辦？

try...except

輪到你了

今日目標

HINT

Reference:

什麼是 `html`? 什麼是 `CSS`?

一份 `html` 檔分成哪兩個部分？

如果要在網頁中顯示你放的文字、圖片
要修改兩個部分的哪一部分？

什麼是 `class`? 什麼是 `href`?

來認識新的資料型態：`dict`

想到`list`，就要想到 `for` 迴圈

`try`...`except`