【NLP】Day 12: 豬耳朵餅乾跟機器學習也有關係?機器學習:羅吉斯回歸 麵粉、砂糖、水、植物油為主,其它成份則視做法及口感需求而有不同。餅乾之所以會出現螺旋線,這是由於兩種顏色的麵糰桿成皮狀,再將彼此疊合而捲成柱狀,以刀切割成每一片厚度相當的餅乾,就可以看出每一片餅乾都帶有螺旋線,經過烘烤後成形,即可食用。維基百科《螺仔餅》 我先承認我真的沒梗,引言就找這個了XD 昨天我們講到了貝氏分類器,希望大家都有稍微理解機器學習模型大概會是以什麼方式呈現。我們在進入羅吉斯回 2023-01-08 自然語言處理 #自然語言處理 #NLP
【NLP】Day 11: 什麼?妳男友有乾妹妹?那你很大機率被綠了!機器學習:貝氏分類器 “You know what possibly means?”“Like probably.”“No, probably means there’s a good chance that we’re going. Possibly means we might, we might not.”Chris Gardener《當幸福來敲門》 我們終於進入機器學習啦!就像每個初學程式的人都一定要印個H 2023-01-08
【NLP】Day 10: 進入偉大航道!機器學習基礎知識:你需要知道的這些那些 「孩兒,你看清楚了沒有?」「看清楚了」「都記得了沒有?」「已忘記了一小半。」「現下怎樣了?」「已忘記了一大半。」「好,我再使一遍。」「孩兒,怎樣啦?」「還有三招沒忘記。」「這我可全忘了,忘得乾乾淨淨的了。」張無忌、張三丰《倚天屠龍記》 前面講了這麼多,終於要講模型了嗎?我們這十天一起度過的旅程,目的只有一個,就是將文本資料轉化成數值資料。因為機器學習模型沒有辦法透過文字資料進行學習,唯有將其轉 2023-01-08 自然語言處理 #自然語言處理 #NLP
【NLP】Day 9: 又是國王皇后的例子啦!Word2Vec、N-Gram 「模型有什麼盲點,反映其創造者的判斷,也反映創造這重視哪些東西。雖然模型據說是公正的,他們其實反映某些人的目標和意識形態。」凱西・歐尼爾《大數據的傲慢與偏見》 我們前面提到了語言模型(Language modeling),是以統計機率的角度來看待語言(是否合理?我可能要先打個問號),所以為了要進行統計,過去通常會將語言以數值的方式呈現。昨天提到了幾種方法,首先是詞袋,只是有幾個缺點,第一是維度 2023-01-08
【NLP】Day 8: 你拿定主意的話...葛萊芬多!BOW&TF-IDF 「拿定主意了嗎?你能成大器,你知道,在你一念之間,史萊哲林能幫助你走向輝煌,這毫無疑問——不樂意?那好,既然你已經拿定主意——那就最好去葛來芬多吧!」分類帽《哈利波特:神秘的魔法石》 這幾天下來我們學了正規表達式、斷詞等等,這些都是屬於資料前處理的範疇。是說,剛剛在寫稿前,還被我的隊友罵說,啊我的正規表達式怎麼寫那麼少!欸不是,在這邊跟各位解釋一下,我的規劃就是簡單介紹正規表達式的三個函式,然 2023-01-08 自然語言處理 #自然語言處理 #NLP
【NLP】Day 7: 現出你的原形!tokenization、lemmatization、stemming 「隱藏著黑暗力量的鑰匙啊,在我面前顯示真正的力量! 跟你訂下約定的小櫻命令你,封印解除!」《庫洛魔法使》木之本櫻 昨天我們學到了中文斷詞的方法,還有一些需要釐清的觀念,以及我個人的一些想法。中文學完了,那英文呢?英文的斷詞方法跟中文有什麼不同的地方嗎?我們今天就一起來瞧瞧世界通用的語言之一,英文,在自然語言處理中是怎麼進行的? 昨天我們提到了中文這個語言其中的一個特性是,所有字都是黏在一起的, 2023-01-08 自然語言處理 #自然語言處理 #NLP
【NLP】Day 6: 斷開一切的牽連!一同探訪「斷詞」與他們的產地 如果沒有了這套裝備,你就什麼都不是的話,那你就更不該擁有它。東尼·史塔克《蜘蛛人:返家日》 在處理自然語言的時候,斷詞往往是首要的工作。其實這也很好理解,為什麼?我們可以從自然語言處理的目的開始來思考這個問題,也就是說,進行自然語言處理的目的是什麼?是要知道一篇正面或是負面評價的電影評論會用哪些詞彙嗎?還是要知道在一句話中,哪個是名詞?動詞?形容詞?或者是要知道這篇文章與其他篇文章比起來,有哪 2022-09-19
【NLP】Day 5: 大風吹,吹什麼,吹...正規表達式:萃取(3) 我們確實曾經擁有一切,對吧?我是說,如果你仔細回想的話,就會發現確實是這麼一回事。《華爾街之狼》 轉眼間,我們也來到了正規表達式的最終章,也就是萃取啦!有些反應比較快的朋友可能會想說,萃取不就跟第一週的re.search()一樣嗎?如果一樣要輸出匹配的字串的話,那就直接用re.search()不就好了?幹嘛還要再多學這個? 這是一個很好的問題,我們話不多說,就直接來看實例。這次我從維基百科的獵 2022-09-18 自然語言處理
【NLP】Day 4: 什麼!文本也可以偷天換日?正規表達式 (2) 替換 你低著頭,他們就會知道你在說謊;即便你抬起頭,他們也會知道其實你根本不知道真相。如果只用四個字就能說明清楚,就別用七個字。身體不要搖來搖去,要用堅定的眼神看著對方的眼睛,但別一直盯著看。說話清楚,但別太讓人印象深刻,可以偶爾幽默一下,但是也不要過頭到讓他捧腹大笑。這麼一來,他就只會在當下對你有好感,而你一離開,他也會立刻忘了你這個人。而且看在老天的份上,無論你想做什麼,都別做,因為在任何情況下… 2022-09-18 自然語言處理
【NLP】Day 3: 自然語言處理的內力,一切的基礎!正規表達式 (1) 搜尋 自來修習內功,不論是為了強身治病,還是為了作為上乘武功的根基,必當水火互濟,陰陽相配,練了「足少陰腎經」之後,便當練「足少陽膽經」,少陰少陽融會調合,體力便逐步增強。金庸《俠客行》 在進行自然語言處理的同時,常常會需要將資料變得乾淨,或是也有些特定的資料格式要從大量語料中抽取出來,比如說像是地址、電話等等,才有辦法取出我們想要的理想資料,而在這過程中常常會用到的就是正規表達式(regular 2022-09-14 自然語言處理