擁抱NotebookLM?聊聊用Gemini建立更可靠的知識庫

前言 開始之前,我們不妨先了解一下 知識庫 是什麼? 知識庫 (Knowledge Base)是一個集中管理和儲存各種資訊、知識、解決方案或專業知識的系統或資料庫,最終目的是為了幫助人們或是快速找到所需的資訊,解決問題,甚至獲得相關的專業知識。 在日常應用中,知識庫可以應用在很多領域裡: 技術支援 ,像是使用指南、常見問題或解決方案等等,這樣可以讓客戶或使用者自行得到答案,減少聯繫支援人員的書信往返。 知識管理 ,在企業或組織內部,知識庫可以儲存公司政策、技術文檔等,目的是讓員工可以更快速找到需要的資料,做到知識傳承,進而提高工作效率和生產力。 學術研究 ,學術上的突破,通常要仰賴很多大大小小不同的研究資料、學術文章和期刊等等,才能得出一個具有公信力的結論,透過知識庫整合,可以有效提升找出結論的效率。 而作為一個知識庫,需要具備幾項特徵,才能滿足讓使用者快速找到需要的知識和解決方案: 結構化內容 ,資料需要有條理的、可分類的,容易被檢索。 可搜索性 ,使用者的問題可能很零散,所以需用片段文字或關鍵字能快速找到資訊。 持續更新 :在知識爆炸的年代,怎麼跟上現況,更新資訊或解決方案就顯得特別重要。 自助服務 :用戶可以不需要依賴支援,就能獲得所需的資訊。 綜合以上,要完成一個真正強而有力的知識庫,著實不是一件容易的事情,不僅僅是一個聊天機器人、搜尋引擎 或是計程車司機、軍訓課教官、補習班老師 就能滿足所有人的需求.再加上封閉領域(Closed-Domain)和開放領域(Open-Domain)的知識裡亦有許多歧義問題要面對,因此在深度學習和巨量資料研究蓬勃發展的今日,這仍是一個迷人且具備高挑戰性的課題。 在ChatGPT橫空出世後,大語言模型 ( Larger Language Model ) 捲起了一波新浪潮,面對人類的提問,ChatGPT幾乎有問必答,我們甚至會覺得他在開放知識領域的問答(Question-Answering)任務表現上幾乎無敵了,但是Chat畢竟是Chat,基於 Autoregressive 的GPT Model在 NLG(Natural Language Generation )表現非常好,但LLM還是存在幾個與生俱來的缺陷如: 知識更新延遲 :LLM的資料來源常基於訓練時的資料,可能無法反映最新的資訊或事件。 偏見與不當內容生成 :除了幻覺(...