如何維護爬蟲專案?用更有效率更方便的方法來寫爬蟲! Hao-Yun Chuang | Nov 4, 2022本文改寫自同名演講投影片,介紹如何使用 Scrapy 建立、優化並維護一個網頁爬蟲專案。 目錄 顯示目錄結構的 tree 指令 使用 Scrapy 建立爬蟲專案 核心詞彙定義 爬蟲流程 (一):基本資料擷取 爬蟲流程 (二):分類導覽與翻頁 優化爬蟲:定義 Item 解耦爬取與解析:Page Object Pattern 監控爬蟲:Spi 2026-04-04 #scrapy, crawler
Vibe Coding 卡關了?教你用 Request API 直接抓網頁資料 Vibe Coding 卡關了?教你用 Request API 直接抓網頁資料引言最近 vibe coding 的風潮席捲開發者社群,不少人開始靠著 AI 輔助,用自然語言描述需求、讓 AI 產生程式碼,整個開發流程行雲流水。但只要碰到「抓網頁資料」這個需求,很多人就會撞牆——你跟 AI 說「幫我爬這個網站的資料」,AI 卻回你: 「這個資料沒有顯示在 HTML 上,無法直接擷取。」 或是好不 2026-04-04 #vibe-coding
【AI】Day 30: 未竟的旅程:自然語言處理的拉乎德爾 「終點,是旅程的一部分。」東尼・史塔克《復仇者聯盟4:終局之戰》 最後一天,我想來談談 「人工智慧」。 在過去的旅程中,我們花了將近一半的篇幅在討論機器學習模型。從一開始的 N-Gram、BoW、樸素貝氏分類模型、羅吉斯迴歸,一直到深度學習的神經網路模型,像是循環神經網路、長短期記憶,還有利用自注意力機制的 Transformer,還有踩在巨人肩膀上,使用預訓練模型完成任何任務的 BERT,是 2023-01-08
【Other】Day 29: 除了自然語言處理,我們還要...?處理資料時,你可能需要會的這些那些 終於快要到鐵人賽的尾聲,在處理 NLP 任務的時候,除了要瞭解不同語言模型的內部架構、功能,還有這些模型適合的不同任務內容,有時候也會需要學習其他技能,來幫助你執行 NLP 的任務。所謂的其他技能,除了最基本的程式語言之外(不一定是 Python),我們昨天以及前天所說的網路爬蟲,就是除了模型以外,處理自然語言處理任務上,可能會需要學習的。那由於時間的關係,再加上這些主題有太多內容可以講,所以今天 2023-01-08 自然語言管理 > 資料庫管理 #自然語言處理 #資料庫管理
【Crawler】Day 28: 其實就是聖誕節大採購嘛!網路爬蟲速成班(下) 聖誕快樂!你這骯髒的小畜生!《小鬼當家2》 昨天我們把所有寫爬蟲時可能會需要的先備知識都學起來了,今天就要直接進入爬蟲主題啦!以往我在教同學寫網路爬蟲的時候,我都會用一個我自己原創的比喻:聖誕節大採購!且聽我娓娓道來吧! 爬蟲出動!過去從來沒有接觸過網路爬蟲的人,可能會覺得爬蟲是一個很難理解的技術,對初學者而言就更不用說了。但其實爬蟲的概念很簡單,就是: 把所有要爬網頁瀏覽一遍,把我們要的資 2023-01-08 網路爬蟲 > 自然語言處理 #自然語言處理 #程式工具
【Crawler】Day 27: 爬爬爬,向前爬!網路爬蟲速成班!(上) 在我們過去一起經歷的旅程中,我們從一開始的正規表達式、詞頻、N-Gram,一直到機器學習,像是貝氏分類器、羅吉斯迴歸等等,接著又講到了深度學習,利用神經網路來進行自然語言處理,比如說像是循環神經網路、長短期記憶等等,後來又發展出了自注意機制,有了 Transformer 以及 BERT 還有他的芝麻街小夥伴,又學到了以語言學基礎的工具 Articut 以及 Loki。 我們一起學習了好多好多的語言 2023-01-08
【NLP】Day 26: 自然語言處理的另外一種想像!Articut、Loki 以及他的好助手們!(下) 你所做的這些浮誇的浪漫舉動—其實你做的、你所說的根本一點都不重要,真正重要的是你的意圖。真正重要的是你願意花時間在那個你在乎的人身上,告訴他:「我願意就這樣看著你,也願意聆聽你的聲音。」我很清楚,你現在需要的是什麼,然後我現在在告訴你,你知道這件事情,對我來說有多麼重要。Jack Pearson《這就是我們》 昨天分享了 Articut ,今天來介紹 Loki。 有了 Articut 的基礎, 2023-01-08
【NLP】Day 25: 自然語言處理的另外一種想像!Articut、Loki 以及他的好助手們!(上) 我們尋找的並不應該是英雄,而是一個好的想法Noam Chomsky 前言還記得碩一下的時候,Lab 的老師找了以前一個現在在擔任軟體工程師的同學來課堂上演講,還有職涯分享。這位工程師說:「自然語言處理在台灣還不算特別盛行,但我覺得有慢慢被重視的感覺。就像每年 台灣PyCon 都會有一位名字叫 PeterWolf 的人,都會在 PyCon 上分享自然語言處理的技術,我覺得他超級猛。」 心想,真巧 2023-01-08
【NLP】Day 24: 欸!BERT!你在幹嘛呀?BERT 模型實作&程式碼解析 別想太多,做就對了!《捍衛戰士:獨行俠》 前兩天我們已經了解 BERT 的內部運作,還有 BERT 在進行語言處理上的一些缺陷。今天不聊理論,我們來簡單一一解析 Tensorflow 的官方教學 沒錯,又是 Tensorflow 了喔,並結合前兩天所學到的知識,來對教學中程式碼進行剖析。由於 BERT 的應用實在太多了,所以今天只會提到最簡單的情緒文本分析,也就是先前所說的多對一文本分類,若各 2023-01-08
【NLP】Day 23: 幫你解決各類NLP任務的BERT,以及其他在芝麻街的好捧油們(下) 真正掌握權力的人,通常都躲在表面上有權力的人後面,操控著一切。法蘭西斯・安德伍德《紙牌屋》 這幾天在研究 BERT 的時候想著,如果要拿流行文化來比喻的話,可以用什麼。嗯…利用別人達到更好的成就、亦正亦邪,表現上看起來風風光光,但其實細思極恐,突然想到,還能有比紙牌屋的主角法蘭克還要更好的比喻了嗎?法蘭克也是為了要達成自己的目標,不斷踩在別人(屍)身前進,表面上看起來很厲害,但站上高位之後,卻 2023-01-08 自然語言處理 #自然語言處理 #NLP