發表文章

目前顯示的是 3月, 2022的文章

(閱讀心得)Analyzing Political Parody in Social Media

圖片
這篇文章收錄於 ACL , 作者是 Antonis Maronikolakis, Danae Sanchez Villegas, Nikolaos Aletras  , 第一作者 Antonis Maronikolakis 於 Center for Information and Language Processing, LMU Munich, Germany 服務, 其餘第二作者, 服務於 Computer Science Department, University of Sheffield, UK  , 第三作者是 Daniel Preotiuc-Pietro, 服務於 Bloomberg , 本文僅為個人閱讀後分享, 並加上個人看法, 若有侵權請告知。 原論文詳見 https://arxiv.org/abs/2004.13878 。 本文發表的比較早, 詳細時間應該是2020年, 對比2021、2022提出的應用, 難免較顯微簡單, 而本文的啟發點, 應該來自於 Bloomberg , 也就是大名鼎鼎的彭博社, 因為我早期對於判斷假新聞、假消息, 有濃厚的興趣, 故針對這類型文章做了些閱讀, 至於在這方面的應用有什麼優缺點, 則容我以下敘述。 Introduction Parody是一個歷史悠久的藝術活動, 人們透過裝扮、模仿知名人物的語氣、外表, 說一些不是知名人物會講的話, 表現在電視節目、卡通、漫畫等, 來嘲諷或是幽默一下, 現今, 很多電視節目上都還有類似的表演, 譬如台灣的全民大悶鍋; 相同的, 在Twitter也有類似的活動, 人們會創一些帳號, 並假裝是知名人物譬如川普、歐巴馬等, 時不時依照新聞或是現況發表些搏君一笑的twit, 本意就是為了幽默而已, 或許很難想像, 基本上這些發文都會屬於非正式、天馬行空的言論。 相較於知名人物如川普、歐巴馬等人的發文, 若是正式帳號, 往往會採用比較正式的敘述和文筆, 來陳述理念或是對於現實的想法。 當然在Twitter上, Parody帳號和正式帳號是會做一些區隔的, 譬如Parody帳號通常會用Parody結尾, 如 ObamaParody_ , 或是像 nicedonaidtrump , 會在帳號介紹時註明自己是Parody帳號, 否則就會被Twitter刪除...

(閱讀心得)MSˆ2: A Dataset for Multi-Document Summarization of Medical Studies

圖片
這篇文章收錄於 EMNLP 2021 , 作者是Jay DeYoung,  Iz Beltagy,  Madeleine van Zuylen,  Bailey Kuehl,  Lucy Lu Wang , 第一Jay DeYoung於 Northeastern University 服務, 其餘都是第二作者, 服務於 Allen Institute for AI  , 本文僅為個人閱讀後分享, 並加上個人看法, 若有侵權請告知。 原論文詳見 https://arxiv.org/abs/2104.06486 。 Introduction 本文屬自然語言處理(NLP)類應用, 基於醫學領域撰寫, 並以文獻探討中的Systematic review發想, 嘗試將 多文本摘要(Multi-Documents Summarization) 應用到Systematic review之上, 透過訓練, 讓模型可以做多文本摘要, 而後用模型(Model)來取代原本的Systematic review工作。 何謂Systematic review?在醫學領域, 系統綜述(Systematic review)是文獻探討的一種,針對特定研究主題的所有報告、文件蒐集整理起來,並將之識別、評論, 主要是了解和主題相關的概念、理論、研究方法、實證資料,讓研究人員可以進行引用、思考、批判和評估; 然而, 做系統綜述需要花費大量時間研讀,每篇review約莫需花費1-2年時間, 甚至最長到8年; 也就所以, 作者嘗試減少在這類工作上所需花費的時間成本。 簡單說, 系統綜述(Systematic review)本質就是把相同研究主題的文章, 透過人工去整理, 歸納後, 產出一篇文章, 內容記錄和此主題有關的回顧和探討, 也就所以文章上會引用、引用多篇不同來源文章。 Dataset 在本文中, 首先需整理資料集, 而作者使用的手法是採用前人已經做好的Systematic review, 來反推出每篇綜述引用、摘要的文章, 每篇Systematic review都引用一篇到多篇文章(Documents), 透過整理, 完成了擁有來源文章(Documents)、摘要結果(Syste...