擁抱NotebookLM?聊聊用Gemini建立更可靠的知識庫
前言
開始之前,我們不妨先了解一下知識庫是什麼? 知識庫(Knowledge Base)是一個集中管理和儲存各種資訊、知識、解決方案或專業知識的系統或資料庫,最終目的是為了幫助人們或是快速找到所需的資訊,解決問題,甚至獲得相關的專業知識。
在日常應用中,知識庫可以應用在很多領域裡:
- 技術支援,像是使用指南、常見問題或解決方案等等,這樣可以讓客戶或使用者自行得到答案,減少聯繫支援人員的書信往返。
- 知識管理,在企業或組織內部,知識庫可以儲存公司政策、技術文檔等,目的是讓員工可以更快速找到需要的資料,做到知識傳承,進而提高工作效率和生產力。
- 學術研究,學術上的突破,通常要仰賴很多大大小小不同的研究資料、學術文章和期刊等等,才能得出一個具有公信力的結論,透過知識庫整合,可以有效提升找出結論的效率。
而作為一個知識庫,需要具備幾項特徵,才能滿足讓使用者快速找到需要的知識和解決方案:
- 結構化內容,資料需要有條理的、可分類的,容易被檢索。
- 可搜索性,使用者的問題可能很零散,所以需用片段文字或關鍵字能快速找到資訊。
- 持續更新:在知識爆炸的年代,怎麼跟上現況,更新資訊或解決方案就顯得特別重要。
- 自助服務:用戶可以不需要依賴支援,就能獲得所需的資訊。
綜合以上,要完成一個真正強而有力的知識庫,著實不是一件容易的事情,不僅僅是一個聊天機器人、搜尋引擎或是計程車司機、軍訓課教官、補習班老師就能滿足所有人的需求.再加上封閉領域(Closed-Domain)和開放領域(Open-Domain)的知識裡亦有許多歧義問題要面對,因此在深度學習和巨量資料研究蓬勃發展的今日,這仍是一個迷人且具備高挑戰性的課題。
在ChatGPT橫空出世後,大語言模型(Larger Language Model) 捲起了一波新浪潮,面對人類的提問,ChatGPT幾乎有問必答,我們甚至會覺得他在開放知識領域的問答(Question-Answering)任務表現上幾乎無敵了,但是Chat畢竟是Chat,基於Autoregressive的GPT Model在NLG(Natural Language Generation)表現非常好,但LLM還是存在幾個與生俱來的缺陷如:
知識更新延遲:LLM的資料來源常基於訓練時的資料,可能無法反映最新的資訊或事件。
偏見與不當內容生成:除了幻覺(hallucinations)外,LLM可能從訓練資料中學習到偏見,導致生成帶有性別、種族或其他偏見的內容。
也因為模型是基於已有參數產生結果,所以這些答案是有限的,,但也是無限的,你無法知道得到的回結果是否有符合某些規範或是領域,即便先前有論文提到,只要搭配良好的Prompt和參考資料,模型也能回答出指定的問題,但我們卻也發現,模型無法很肯定地給出使用者認知範圍內的答案,
![]() |
從上面的範例可以看到,即便答案不存在參考清單中,模型仍會試圖依照自己已有的資訊嘗試回答,如果以建立知識庫來說,這就會成為一個謬誤,但也有解決方法,只是開放領域知識的相互影響就是如此,如果要應用在金融保險、醫學藥理上,可能就會造成誤解。
我們希望AI可以全能,有趣的是,有些時候看來我們必須做些取捨。
不一樣的大腦
接著來說NotebookLM,它是在2023年由Google實驗室推出的一款筆記服務,雖然市面上的筆記服務相當多如Evernote、Notion等,且各自在協同工作和知識庫管理都有所長,但就在Google為這服務裝上一顆Gemini的大腦後,帶給使用者很棒的全新體驗。
在開始之前,不妨先簡單了解一下Gemini。Gemini是由Google DeepMind開發的一個人工智慧系統,旨在進一步提升機器學習和自然語言處理的能力。雖然它在簡介上看起來與其他AI系統相似,但Gemini與ChatGPT有著顯著的不同之處。ChatGPT採用了基於GPT(Generative Pretrained Transformer)架構的語言模型,主要專注於文本生成和自然語言理解。而Gemini則採用了Pathways架構中的PaLM 2(Pathways Language Model),這是一種更為先進的模型,能夠在多模態學習中展現出卓越的表現。多模態學習指的是處理來自不同來源的資料,如影像、聲音和影片等,Gemini在這些方面表現得更加出色,能夠有效融合和分析來自不同媒介的信息。
此外,Gemini的推理能力也比ChatGPT更為強大。雖然ChatGPT在文字生成方面表現優異,但Gemini能夠從圖像或聲音中推理出文字,這使得它在許多場景中更加靈活。例如,當需要從圖像中提取文本或理解圖像內容時,Gemini的推理能力可以提供更準確的解釋和答案。總體來說,Gemini在處理更複雜的多模態任務方面展現了顯著優勢,這也使得它在某些應用場景中比ChatGPT更為強大。
支援廣泛的知識來源
- 更豐富的資料來源,模型能夠從更多樣化的資料來源中學習和推斷,避免忽略或是無法充分利用來自其他模態的線索,例如,結合圖像和文字,模型能夠更準確地解釋圖片內容,或從圖像中提取更多隱藏的訊息。
- 提升理解能力,多模態學習能夠增強模型的推理能力。舉例來說,圖像中的物體可以用文字來描述,而文字中的描述也能幫助模型更好地理解圖像內容,這樣,模型能夠進行更深層的推理,比如從語音推理出文字,或者從圖像中提取出有意義的資訊。
- 更強的語意感知,結合不同模態的資料能讓模型更加靈活地處理複雜的語境時。例如,在語音識別中,模型可以結合語音和影片來理解說話者的情感或語氣,或者在圖片標註中,模型可以結合文字和圖片來提供更精確的標註。
![]() |
當然不要忘記的是,完成這些複雜工作的前提是:請給我黃金。 |
更有想像空間的應用
所幸的是,Google不僅幫助我們省去了Gemini模型預訓練的巨大花費,還嘗試提供一些服務來展示它的實力。接下來,我們來看看NotebookLM能做些什麼。在進入頁面之前,系統會引導你加入一些參考資料。
上傳參考資料
我們可以選擇我們需要的知識來源,包括文字檔案、PDF、Markdown和MP3。這些資料有一個關鍵優勢,那就是它們都是開放格式,並且與模型最初的訓練來源密切相關。此外,我們還可以指定來自Google雲端硬碟上的Google文件,甚至是易讀的網頁,如Wikipedia,當然也少不了Google自家的YouTube。
產生初步結論
在我嘗試上傳以下幾個連結,作為我的知識庫來源,會發生什麼事情呢?
可以看到,除了最中間會先產生一個簡單的文字摘要外,還有幾個可用選項。
在頁面右上角,您可以選擇生成一段語音摘要,這段語音是由兩個主持人進行討論,並對這些資料進行分析。可以將這個功能視為自動生成一個類似Podcast的語音內容。這項技術的實現非常複雜,背後涉及到AI的多項高級技術:首先,AI需要理解並解析您的資料(自然語言理解,NLU),接著根據這些資料生成對話(自然語言生成,NLG),並且可以進行連貫的對話交流。
另外你可以在記事頁面,選擇針對這些資料產生研讀指南、產生簡報。
除了研讀指南、產生簡報,更有趣的是它可以針對資料內容去做年份排序,比如說你有三份資料,各自記載不同年份的相關內容,而模型可以把這些文字讀取進來後,產生一份像是大事紀的內容。
再多玩點什麼
知識彙整和提問
統計和分析
誰比較好?
ChatGPT
NotebookLM
在模型設計的初期,我們就將理解不同檔案內容作為核心任務之一,些檔案中不僅僅包含文字,還可能包含表格、圖片等其他形式的資料;當這些不同形式的資訊結合後,所能傳遞的內容變得更加豐富。隨著模型對這些檔案的理解能力不斷提高,其分析結果將會更加全面。
此外,從某種程度上來看,這樣的模型還能實現“Retrieval-Reader”的概念:具體來說,就是當輸入問題後,模型可以進行搜索,找到對應的知識庫資料,並透過模型的閱讀能力產生相應的結果,相比GPT系列用無監督學習來擴充參數量,這個方法的時間差的影響更小,模型依然能有效地處理這些複雜的任務。
結論
有段時間,許多人開始在生活中使用ChatGPT來實現各種系統,解決各種不同的問題。這些系統涵蓋了從簡單的問題解答到複雜的文書創作、程式碼生成等範疇。儘管回過頭來反思,會發現像這樣的NLG(自然語言生成)方法確實表現不錯,能夠完成許多任務,但我們也常會發現,這些結果並不總是完全符合我們的預期。這其中的關鍵在於,模型生成的內容雖然在語言流暢度上優秀,但當涉及到特定領域的精確性和深度時,往往難以保證完全符合我們的需求。
舉個例子,像總結(Summarization)這類任務,不論是Extraction還是Abstraction,在模型訓練過程中實際上缺乏有效的驗證方法。當模型生成總結時,我們無法簡單地依賴一個固定的指標來判斷結果的準確性,這就是ROUGE或BLEU等常用指標無法解決的問題。這些指標通常側重於匹配度,但真正的挑戰在於,如何界定所謂的「Gold Answer」——即理想的參考答案。每個任務的理想答案其實有很大的變數,這使得對模型結果的驗證變得非常困難。
總的來說,我仍然傾向於使用ChatGPT來讓我的語言更加流暢和優美,這對於日常交流或簡單的創作任務來說非常合適。ChatGPT能夠將我們的想法轉化為簡潔、優雅的表達,無論是在寫作、對話還是其他語言生成的任務中,都能提供很好的支持。然而,如果我需要更詳細、且我認為更準確的答案時,尤其是涉及到需要深度理解和具體專業知識的問題,我會選擇NotebookLM。NotebookLM在處理專業知識和技術性問題上有更強的優勢,它能夠提供更精確的資訊,並且能夠根據資料庫中的具體內容來生成答案。
總結來說,不同的模型在不同的場景下有不同的優勢,理解這些模型的設計初衷和應用場景,能夠幫助我們更有效地選擇工具,從而達到最佳的工作效果。
留言
張貼留言