發表文章

目前顯示的是 2月, 2022的文章

自然語言處理 (NLP) -2 文本摘要Text Summarization

圖片
原本打算只寫一篇就把自然語言處理和文本摘要紀錄完 ,結果一不留神就寫了一堆,只好再起一篇主要敘述文本摘要 (Text Summarization),現今業界也有很多人在做這一塊,但是大家各有不同的做法和看法,所謂文本摘要 (Text Summarization) ,主要是讓機器可以在讀取很多文章、很多串文字後,幫人類彙整出這些文章、文字串的重點,而這些彙整出的重點,可能是比較具象的,譬如文章中很頻繁地提到哪些人事物,或是比較抽象化的,用機器自己的手法產生一段摘要敘述;在 經過一些整理後,我條列出 目前在文本摘要 (Text Summarization) 這個領域,主要有幾種常見研究議題如下; 文本摘要 Text Summarization,主要是讓機器可以在讀入一大篇文章後,輸出這篇文章主要想表達的內容, 這類作法有點像是幫文章做一份摘要 ,讓閱讀的人可以快速且簡單地了解接下來要發生什麼事,而一篇文章通常有起承轉合等,不同類型的文章也會有不同表現手法,譬如新聞類文章的重點多在第一段,但是評論類則會多在中後段,所以實際使用模型學習時,不容易令模型掌握到究竟哪段才是重點! 文件摘要 Document Summarization,主要是訴求讓機器讀入一份文件,裡面會有多篇文章,接著再把讀入多篇文章後的重點萃取出來,讓使用者知道這份文件裡面有哪些重點,這裡和文本摘要比較不同的是,一份文件不會只有一個重點,且也難以用一段摘要就能表現清楚,不過在一些研究中,Document Summarization通常會和Text Summarization混合在一起,若是有人發現我講錯了,再請跟我說一下,感恩! 多文件摘要Multi-Documents Summarization,主要是讓機器讀入多份文件,這樣講好像是廢話?但是在多文件摘要時,會先進行分類和歸納,同一類型文章會被歸納成一個叢集(Cluster),而透過機器對於這些文章的理解,進而取出這批文章想要表達的重點,或是找出文章內相異、相同論點等,譬如說,今天有一批研究茶葉種植的文章好了,在多文章摘要時,我們可以看出這一批文章裡面存在著哪些觀點,例如某些文章主張高緯度有著茶葉生長,而某些文章可能主張高緯度對茶葉生長無幫助等。 觀點摘要 Opinion Summarization,我如果硬要把觀點萃取看成一種摘要,可能有點牽強,但也並...

自然語言處理 (NLP) -1 簡述

自然語言處理(Natural Language Processing) ,一般縮寫成NLP,是人工智慧和語言學的一個分支學科,前面提到的自然語言,指的是人類口說、書寫和理解用的文字;在這領域中,主要探討怎麼讓電腦可以理解自然語言(NLU),讀懂文字後,往下進行相對應流程處理;又有一方面是探討怎麼讓電腦可以做自然語言生成(NLG),可以透過電腦擷取,甚至產生新的文章。 而這門學科也可以和語音、圖像辨識,做為銜接,完成比較全面的應用,譬如執行日常對話,甚至描述所見場景等,對大眾來說,NLP的相關應用還蠻容易引起人們廣泛興趣,比較常見的就是聊天機器人(Chat Bot),聊天機器人本身可以涵蓋幾種技術面向如下; 自然語言理解,理解使用者輸入的語句和問題。 文字檢索,理解語句和問題後,在資料庫中進行尋找,找出相應的回應或是解決方式。 自然語言生成,承上找出的回應或解決方式,因為可能多是片段和連結,必須重新產生成合理的回應方式。 當然在日常我們看到的自然語言理解,多半不會把上述三個面向都做得很完整,我也是偷吃步居多,主要是因為除了文字檢索外,語言理解和處理(生成),都需要面對比較多的學術研究,以我先前使用 微信API 做的智能機器人來說,我選擇的方式就是擷取輸入關鍵字,接著用關鍵字去檢索可能的資訊,並和用戶再次確認,最後丟出檢索結果。 雖 然臉皮很厚 , 但也算是 ChatBot ,只是差別在腳踏車和豪華客機的差別就是了, 只是那時我也就意識到自然語言理解和生成的難度,才興起想研究的好奇心。 View post on imgur.com I will be back. 寫到一個段落才發現自己好像有點偏題,花了比較多的篇幅在講NLP,不過想想既然都寫了,還是要說的完整一點才行,前面大致描述了NLP的內容,還有常見應用,以及目前的發展狀況,雖然市面上有很多相關產品出現,但是他們多少存在一些問題,就NLP的相關研究來說,目前最常遇到的痛點如下; 單詞邊界 面對口語時,我們經常需要去界定什麼是獨立的單詞,這樣的情況在漢文中相當常見,譬如這段文字「台南市長今天參加台南市長榮中學畢業典禮」,在文章中,詞與詞之間通常是連貫的,但我們如何找出台南市長、今天、參加、台南市、長榮中學、畢業典禮,就是一個很有趣的研究,目前則大多仰賴字典檔來解決這個問題。 詞義消歧 在文章中,單一個詞通常有多個不同...