標題 109D16-多來源網頁資料對股市投資影響之分析: 以台灣股市為例。
姓名 阮泰楠
指導教授 李杭 老師
畢業日期 2023/06
附件檔案 檔案下載Adobe PDF
摘要
近年來,隨著無線網路與行動裝置的迅速發展,投資者愈發容易從多來源網頁資料取得各種資料。雖有眾多的網頁資料來源,但投資者經常受單一來源的資料影響而產生資訊不一致狀況進而誤判趨勢。此外,因為網頁資料的特性複雜且多為非結構化資料,故如何從各種網頁資料來源處理並取得客觀的資訊是一個具挑戰的任務。為解決此問題,本論文提出一個遺傳為基礎的多來源屬性最佳化演算法,旨在從多來源網頁資料找出有效的分類屬性用以建立預測模型分析多來源網頁資料與股市之間的關係及影響。所提方法首先針對三個網頁資料來源,包含:財經新聞、社群媒體與經濟指標,進行資料前處理取得可能的特徵屬性。接著,利用二元編碼方式進行特徵屬性的編碼。在評估函數上,則利用兩個因子計算染色體適合度值,分別為模型準確度與屬性來源多元性。演化後,最佳的分類屬性集合將輸出並用來建立預測模型。運用此預測模型,我們可以提供一個相對客觀的趨勢判斷結果給使用者參考使用。
關鍵詞:多來源網頁資料,情感分析,遺傳演算法,預測模型,自然語言處理。