高等資料探勘與巨量資料分析 | 修課心得
這門課也是在第1學期選的課程, 對比其他課程, 這門課程會和物聯網應用與資料分析的性質比較相近, 或是應該說, 2門課程間可以互補。
從字面上來說, 高等資料探勘述說的會是比較深度的資料探勘科學, 而巨量資料分析則是著重在如何有效率, 並且用什麼工具來做巨量資料處理, 沒錯, 不要說什麼大數據啦, 就是Big Data啊, 有些用詞我們還是精準點, 不要被其他文化圈給影響了。

在進入這門課程之前, 你可能…可能不知道自己該準備些什麼, 就好比當初的我一樣, 但如果可以的話, 建議你要具備一定的程式能力, 譬如Java、Python, 老師不會特別教你怎麼寫程式, 認真來說的話, 你也不該花研究所學費來學這種東西; 除此之外, 你還需要對一些統計學有基本的概念, 這樣或許會讓你更快上手。
而在這門課程中, 你會有幾個不同的階段要面對, 在前半週, 課程主要是在介紹何謂巨量資料處理, 這裡會用到的工具是Hadoop, 也會提到Reverse-index, 簡單說, 老師在這裡主要是介紹MapReduce, 讓你知道怎麼對巨量資料進行處理、篩選, 在這裡你主要會寫到的語言是Java; 再來是會開始介紹Spark, 主要你會用到Python語言進行開發, 在熟知這些框架和觀念後, 你會有個期中作業要繳交。
接著來到課程的第二段, 這部分主要介紹觀念, 主要是針對高等資料探勘的觀念, 資料探勘的面相很廣, 當然應用也很多, 譬如說你偶爾會在購物網站上看到的「猜你喜歡」, 也許不一定每個人都會用這些技術來達成。

在資料探勘階段, 你會了解到很多新東西, 譬如像 熵、Gini Index, 再到決策樹, 亂度森林等, 其中熵和Gini Index用來計算資料中的不純度, 或是分佈程度, 決策樹, 亂度森林則是用來輔助決策, 簡單說就是找出最佳解, 在這裡會建議你不要輕易放過一堂課, 因為每堂課都有相當多的重點要了解, 你甚至需要在課程結束後多多思考, 才能略為瞭解(就我來說是這樣)。
除了上述內容以外, 還會提到貝氏定理, 皮爾森乘績等, 最後你會需要繳交一到兩個期末專題, 還有一個期末筆試在等你。

當然這樣的課程對我來說是相當艱苦又不容易掌握, 但我相當感謝老師的用心教學和指導, 簡單來說, 如果你沒經歷過一下腦力爆炸的過程, 自然很難有較大的收穫, 而我在第1學期的感受是天天都有爆炸感, 仔細回想, 老師總是用相當淺顯易懂的例子和生動的方式來讓我們了解, 只是學問是枯燥的, 理解是痛苦的, 時至今日我仍覺得這門課打開了我一部分竅門, 也開起了我研究的興趣。
最後我要給你的建議是, 掌握了上述的技巧後, 就用心去闖一闖吧, 全力以赴去學習, 你才會得到最大的收穫。
留言
張貼留言