Hao-Yun (Milan) Chuang

NLP 工程師 · LLM 開發者 · 計算語言學研究者


我是誰

我是 Hao-Yun,一個從語言出發、走進 AI 工程的人。

大學念的是成功大學工業與資訊管理,同時雙主修外文。這個組合在當時看來有點奇怪,但事後想想,它早就在某種程度上預示了我後來的方向——在技術與語言之間游走,試著讓兩者對話。

研究所進入政治大學語言學研究所,主修計算語言學。這幾年,我一直在追一個問題:機器要如何真正「理解」語言——不只是比對字串,而是理解意義、意圖、語境、甚至說話者背後的立場。


技術以外的事

交換至德國杜賓根大學那年,我沒有把它當作一段「體驗」,而是選了一門可以投稿國際會議的課,和外國同學組隊參加 SemEval,挑戰的是生成模型在數字幻覺上的問題。我們在訓練策略上有分歧,但透過溝通找到共識,最終微調 BART 並設計自訂對比損失函數,在 COPY 準確率拿下全場第一,整體排名第二

那次讓我確認了一件事:我不喜歡只是「參與」,我想留下可以被驗證的東西。


一次讓我改變想法的專案

大學時參加了一場法律法遵科技黑客松,題目跟性侵受害者培力有關——因為許多案件因諸多因素無法立案,我們的目標是幫助受害者評估成案機率。我是隊長,帶著電機、統計與法律背景的隊員。

問題不在技術本身,而是每個人雖然說的都是中文,卻幾乎是不同的語言。法律人在意法律邏輯的可行性,技術人在意數字能不能建模,我自己負責自然語言處理,擔心的是文字的複雜性會讓模型的實用性打折。最困難的時刻,我們對核心方向產生了根本性的分歧,幾乎陷入僵局。

我當時做的決定是:先暫停技術討論,把問題拉回最原始的起點——「一個沒有法律背景的人,需要從這個系統得到什麼?」當焦點回到這裡,共識反而很快出現了。我們進入了全國決賽,但對我而言更重要的,是第一次真正理解什麼叫做跨領域合作。

不是消除差異,而是找到所有人都認同的共同目標,再從那裡往回推設計。


語言,以及人與人之間的距離

高中時我開始自學德文,後來代表桃園市到姊妹市達拉斯進行兩週交流。那是我第一次意識到,真正的跨文化溝通不是語言流不流利,而是能不能快速理解對方的脈絡,並讓對方感覺「被看見」。部分當年認識的朋友,到現在還保持聯絡。

這個體會後來在很多地方持續出現——帶外國志工辦營隊、在杜賓根和不同國籍的同學協作,乃至於在研究中試著把語言學的洞察轉化成可計算的特徵。

我相信語言是人與機器之間最核心的介面,也是人與人之間最難跨越、卻最值得努力的橋樑。


技術能力

NLP & LLM
BERT / BART Fine-tuning、Prompt Engineering、RAG、LangChain、LangGraph、LlamaIndex、NER、POS Tagging、SpaCy、CKIP

框架與工具
Python、PyTorch、TensorFlow、Django、Flask、React、Docker、Git、GCP、AWS

資料處理
Scrapy、BeautifulSoup、Regex、PostgreSQL、SQL


代表專案

📝 政治語篇評價分析(碩士論文)
以 GPT-4o 進行零樣本與少樣本分類,針對 311 則 PTT 評論的 Judgement 子類別,F1 從 0.80 提升至 0.89,並以 Streamlit 建立互動式語篇分析儀表板。

🏆 SemEval 2024:數字感知新聞標題生成
微調 BART 並設計自訂對比損失函數,COPY 準確率 82.17 獲全場第一,整體排名第二。

⚖️ LegalTech Hackathon 2021
帶領跨領域團隊(電機、統計、法律)進入全國決賽,開發以證據條件為基礎的判決勝率預測對話系統。


聯絡方式

📧 milanochuang@gmail.com
🌐 milanochuang.github.io
💼 linkedin.com/in/milanochuang
🐙 github.com/milanochuang