發表文章

從AI看繁體中文的美麗與哀愁

開始之前,先了解一下ChatGPT是如何做出來的, ChatGPT 是基於 GPT(Generative Pretrained Transformer) 架構所開發的語言模型。這個模型通過大量的資料訓練,來學習語言的結構和上下文,並在推理階段能夠生成連貫且自然的文本。 因此在成就一個好的ChatBot模型,除了基礎的模型架構,像是經典的 Transformer 之外,再來就是大量的 資料集(Dataset) 了, 資料集 是一組結構化或非結構化的資料集合,用於訓練、測試或驗證各類機器學習和AI模型。 資料集的品質、大小和多樣性,都會直接影響到模型的表現,因此在訓練模型過程中,怎麼去選擇和準備合適的資料集就顯得非常重要,在模型推理階段,越多樣化的資料權重,可以讓模型做出更精細的推理和判斷。 當今人工智慧技術快速發展,語言模型(如 ChatGPT)在自然語言處理(NLP)領域中扮演重要角色。然而,這些模型的訓練品質高度依賴於語料的數量與多樣性。對繁體中文而言,語料的缺乏已成為一個嚴重問題,對 AI 訓練產生深遠影響。 首先,與英文或簡體中文相比,繁體中文的網路資源與公開資料集相對稀少。許多語料庫偏重簡體中文,因為中國大陸擁有龐大的網路使用者與內容生產者,資料量自然遠超台灣、香港等地區。由於繁體中文使用者基數較小,導致語言模型在訓練時無法取得足夠的高品質繁體文本,無法深入學習繁體用語、文法結構、地區性用詞與文化脈絡。 其次,語料缺乏會直接影響模型的準確性與表現。當語言模型無法接觸足夠的繁體資料,它在生成文字時容易出現語意不通、簡繁混用或用詞不地道的情況。例如,台灣常用的「機車」、「發票」、「健保」等詞彙,在模型訓練中若出現頻率不足,就難以理解其真實意涵與使用場景,造成回應不自然,甚至誤解使用者意圖。 再者,這也衍生出公平性與語言平權的議題。語言模型若長期忽略某些語言或書寫系統,等於在技術層面上加深語言邊緣化,使得以繁體中文為母語的使用者無法享受與英文或簡體使用者同等水準的 AI 服務;因此,提升繁體中文語料的豐富性與多樣性,對於打造更公平、精準且具在地文化理解的 AI 系統至關重要。 隨著生成式人工智慧(Generative AI,簡稱 Gen AI)的迅速發展,全球語言科技的應用也日益普及。然而,在這波技術革新的背後,卻也逐漸浮現出文化排擠的現象。由於生成式 AI...

開個六給他,讓他贏莊家一百塊

圖片
賭神2裡的情節 用攝影機偷看玩家的牌 用現在AI來解問題 下個Prompt給他 Google Gemini  Grok ChatGPT 電影裡的AI (?) 先解析圖像後  分析各種可能  然後從控制中心下指令 雖然這結果讓人猜不透 結論 科普一下,這裡用到的是多模態人工智慧,多模態人工智慧(Multimodal AI),是指同時利用各種類型(包括文字、圖像、影片、語音…)或模態的資料形成洞察、做出預測和產生內容的人工智慧系統。   回到本文,乍看之下,海珊的電腦似乎比現在AI都強,不過平反一下,實際上電影情節裡,是參考桌上有多少牌才算出來的,再對比各家AI的結果,令人訝異的是ChatGPT竟然最接近電影裡面的推算,莫非當初訓練語料也有這些內容?Gemini和Grok則是有體認到資訊量不足的問題,哪個比較好,就看使用人的抉擇了。   希望透過本文的介紹, 可以讓大家對多模態人工智慧有更近一步的了解。

擁抱NotebookLM?聊聊用Gemini建立更可靠的知識庫

圖片
前言 開始之前,我們不妨先了解一下 知識庫 是什麼? 知識庫 (Knowledge Base)是一個集中管理和儲存各種資訊、知識、解決方案或專業知識的系統或資料庫,最終目的是為了幫助人們或是快速找到所需的資訊,解決問題,甚至獲得相關的專業知識。 在日常應用中,知識庫可以應用在很多領域裡: 技術支援 ,像是使用指南、常見問題或解決方案等等,這樣可以讓客戶或使用者自行得到答案,減少聯繫支援人員的書信往返。 知識管理 ,在企業或組織內部,知識庫可以儲存公司政策、技術文檔等,目的是讓員工可以更快速找到需要的資料,做到知識傳承,進而提高工作效率和生產力。 學術研究 ,學術上的突破,通常要仰賴很多大大小小不同的研究資料、學術文章和期刊等等,才能得出一個具有公信力的結論,透過知識庫整合,可以有效提升找出結論的效率。 而作為一個知識庫,需要具備幾項特徵,才能滿足讓使用者快速找到需要的知識和解決方案: 結構化內容 ,資料需要有條理的、可分類的,容易被檢索。 可搜索性 ,使用者的問題可能很零散,所以需用片段文字或關鍵字能快速找到資訊。 持續更新 :在知識爆炸的年代,怎麼跟上現況,更新資訊或解決方案就顯得特別重要。 自助服務 :用戶可以不需要依賴支援,就能獲得所需的資訊。 綜合以上,要完成一個真正強而有力的知識庫,著實不是一件容易的事情,不僅僅是一個聊天機器人、搜尋引擎 或是計程車司機、軍訓課教官、補習班老師 就能滿足所有人的需求.再加上封閉領域(Closed-Domain)和開放領域(Open-Domain)的知識裡亦有許多歧義問題要面對,因此在深度學習和巨量資料研究蓬勃發展的今日,這仍是一個迷人且具備高挑戰性的課題。 在ChatGPT橫空出世後,大語言模型 ( Larger Language Model ) 捲起了一波新浪潮,面對人類的提問,ChatGPT幾乎有問必答,我們甚至會覺得他在開放知識領域的問答(Question-Answering)任務表現上幾乎無敵了,但是Chat畢竟是Chat,基於 Autoregressive 的GPT Model在 NLG(Natural Language Generation )表現非常好,但LLM還是存在幾個與生俱來的缺陷如: 知識更新延遲 :LLM的資料來源常基於訓練時的資料,可能無法反映最新的資訊或事件。 偏見與不當內容生成 :除了幻覺(...

Line Notify的替代方案?給你一個完整的分析。

圖片
Line Notify 自推出以來,雖然其存在一些侷限,譬如無法自定義訊息格式,也無法對單一用戶傳遞訊息,但仍依靠著簡單易用和高穩定性,搭配著IFTTT服務,成為許多系統通知的愛用方案之一,走過幾年來的風風雨雨,正當大家都習慣Line Notify帶來的便利之際,Line官方突然宣布Line Notify即將停止服務,詳見 LINE Notify結束服務公告 。 那當LINE Notify結束服務後,原本這些用戶該何去何從呢?官方也推薦了使用Line Message API作為替代方案,詳見從 LINE Notify 轉移到 LINE Messaging API 發送更多樣訊息與輕鬆查找用戶 ID、群組 ID,文中也提到了一些基本串接;的確,LINE Messaging API依靠著每月有200則免費訊息的優惠,可以滿足許多極輕量用戶的需求,但這個方案,卻還是存在很多先天限制的,因為各個國家也有不同的市場使用狀況,即便LINE Notify用戶遍及東亞,卻還是需依不同狀況做出不同方案選擇。 以下我們針對在東亞普及的訊息服務,挑選了幾個常見的產品做介紹; Telegram 是一款免費、快速、安全的即時通訊應用程式,支持文字、語音和視訊通話,並提供多種豐富的功能。它的特點包括端對端加密,確保用戶的隱私和資料安全;群組和頻道功能,讓用戶可以輕鬆與朋友、同事或追隨者分享資訊。Telegram也支持大型群組(最多可容納20萬人),還能進行文件傳輸、雲端儲存及自訂機器人等。無論是日常聊天、工作協作還是公共資訊分享,Telegram都是一個強大且靈活的工具。無論在手機、平板或桌面端,都可以輕鬆同步,提供跨平台使用的無縫體驗。由於其簡潔的介面和穩定的運行,Telegram迅速成為全球用戶喜愛的通訊工具之一。 WeChat (微信)是一款由中國科技公司騰訊推出的綜合性即時通訊應用程式,擁有超過十億用戶。它不僅支援基本的文字、語音和視頻通話功能,還集成了豐富的社交、支付和生活服務。用戶可以透過“朋友圈”分享照片和動態,與朋友保持聯繫;同時,微信支付功能讓用戶可輕鬆進行線上支付、轉帳及購物。微信的“公眾號”讓企業和媒體能夠直接與用戶互動,提供資訊和服務。此外,微信還支持小程序,讓用戶在不離開應用的情況下使用各種工具和服務,無需下載額外的應用。微信的跨平台使用方式(支持iOS、Androi...

Prompt, Fine-tune và Training, ai mới là công trình lớn?

圖片
Vì tôi yêu văn hóa Việt Nam, nên tôi đã dịch bài viết này sang tiếng Việt . Nếu có bất kỳ chỗ nào sai sót hoặc cần chỉnh sửa, xin vui lòng liên hệ với tôi. Cảm ơn bạn.   Trong thế giới học máy, đặc biệt là Xử lý Ngôn ngữ Tự nhiên (NLP), "Prompt", "Fine-tune" và "Training" là ba khái niệm thường xuyên xuất hiện. Mặc dù chúng đều liên quan đến việc học và điều chỉnh mô hình, nhưng mục đích, phương pháp và tình huống sử dụng của mỗi khái niệm lại có sự khác biệt rõ ràng. Hãy cùng tìm hiểu kỹ hơn về sự khác biệt giữa chúng. Trước tiên, Prompt là một lời nhắc hay câu hỏi mà bạn đưa vào mô hình học máy. Lời nhắc này không thay đổi mô hình mà phụ thuộc vào kiến thức mà mô hình đã học được để tạo ra câu trả lời hoặc thực hiện một nhiệm vụ nào đó. Bạn có thể tưởng tượng nó như một từ khóa hướng dẫn, và mô hình sẽ trả lời dựa trên lời nhắc này. Ví dụ, với một mô hình ngôn ngữ, nếu bạn đưa vào một câu như "Viết một bài về khám phá không gian", mô hình sẽ t...

我怎麼說你就怎麼做!聊聊LLM的Prompt

圖片
延續上一次的文章 Prompt, Fine-tune 和 Training ,誰才是大工程? ,受惠於大語言模型 (Large Language Model , LLM ) 的發展,以往我們必須對模型去做 Fine-tuning 甚至 Training 的工作,只要基於 LLM ,再加上一些適當的 Prompt ,就可以達到不錯的效果,在筆者的論文 基於 Fusion-in-Decoder 之中文開放領域問答研究 中,就曾用 LLM 加上 Prompt ,對比自己訓練出來的問答模型,發現效果不分軒輊。 也許我們可以做更多? 那麼,如果我們想讓 LLM 達到更好的效果,有哪幾種手法呢? 根據使用目的和方式的不同, Prompt 可以區分為幾種類型: 1. 問題導向的 Prompt (Question-Based Prompts) 用途 :提出具體問題,讓模型進行回答,也是最典型的 QA(Quesiton-Answering) 例子 : " 台灣的首都是哪裡? " " 量子物理是什麼? " 這類 Prompt 通常是直接的問題,模型會根據已有的知識提供簡潔且已知的答案。 2. 指令式 Prompt (Instruction-Based Prompts) 用途 :用來給模型提供具體的指令,要求模型進行某種形式的處理。 例子 : " 寫一篇關於人工智慧的短文。 " " 將這句話翻譯成英文: ' 我今天感覺很開心。 '" 這類 Prompt 常用於生成具體內容,例如創作、翻譯等。   3. 填空式 Prompt (Fill-in-the-Blank Prompts) 用途 :要求模型在指定的句子中填入缺失的部分。 例子 : " 台灣的首都是 ___ 。 " " 愛因斯坦的相對論公式是 E = mc² ,這裡的 c 代表 ___ 。 " 這類 Prompt 通常用於測試模型對語言結構的理解,或者要求模型補充缺失的訊息,他也是一個典型的克漏字 (Cloze) 任務。 4. 對話式 Prompt (Conversational Prompts) 用途 :...