English  |  正體中文  |  简体中文  |  Items with full text/Total items : 88295/117812 (75%)
Visitors : 23402391      Online Users : 165
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version
    政大機構典藏 > 商學院 > 資訊管理學系 > 學位論文 >  Item 140.119/100459
    Please use this identifier to cite or link to this item: http://nccur.lib.nccu.edu.tw/handle/140.119/100459


    Title: 股市趨勢預測之研究 -財經評論文本情感分析
    Predict the trend in the stock by Sentiment analyzing financial posts
    Authors: 蔡宇祥
    Tsai, Yu Shiang
    Contributors: 姜國輝
    Johannes K. Chiang
    蔡宇祥
    Tsai, Yu Shiang
    Keywords: 情感分析
    Word2vec
    LDA主題模型
    K-means
    上海股價指數
    Date: 2016
    Issue Date: 2016-08-22 10:44:33 (UTC+8)
    Abstract: 根據過去研究指出,社群網站上的貼文訊息會對群眾情緒造成影響,進而影響股市波動,故對於投資者而言,如果能快速分析大量社群網站的財經文本來推測投資情緒進而預測股市走勢,將可提升投資獲利。
    過去文本情感分析的研究中已證實監督式學習方法可以透過簡單量化的方式達到良好的分類效果,但監督式學習方法所使用的訓練資料集須有事先定義好的已知類別,故其有無法預期未知類別的限制,所以本研究透過深度學習方法,從巨量資料及裡抓出有關於股市之文章,並透過財經文本的混合監督式學習與非監督式學習之情感分析方法,透過非監督式學習對微博財經貼文進行文本主題判別、情緒指數計算與情緒傾向標注,並且透過監督式學習的方式,建立分類模型以預測上海指數走勢,最後配合視覺化工具作趨勢線圖分析,找出具有領先指標特性之主題。
    在實驗結果中,深度學習方面,本研究透過word2vec抓取有效之股市主題文章,有效篩選了需要分析之文本,主題模型方面,我們最後使用LDA作為本研究標註主題之方法,因為其文本數量大於議題詞數量造成TFIDF矩陣過於稀疏,造成Kmeans分群效果不佳,故後續採用LDA主題模型進行主題標注。情緒傾向標注方面,透過擴充後的情感詞集比起NTUSD有更好的詞性分數判斷效果,計算出的情緒指數之趨勢線能有效預測上海指數之趨勢。此外,並非所有主題模型之情緒指數皆具有領先特性,僅公司表現與上海指數之主題模型的情緒指數能提前反應上海指數趨勢,故本研究用此二主題之文本的情緒指數來建立分類模型。
    本研究透過比較情緒指數與單純指數指標分類模型的準確度,前者較後者高出7%的準確率。故證實了情感分析確實能有效提升上海指數趨勢預測準確度,幫助投資者增加股市報酬率。
    Reference: [ 1 ] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation.Journal of Machine Learning Research, 3:993–1022,January 2003.
    [ 2 ] DeLong, J. B., A. Shleifer, L. H. Summers, and R. J. Waldmann, “Noise trader risk in financial markets,”Journal of Political Economy, 98,703-738, 1990
    [ 3 ] Feldman, Techniques and applications for sentiment analysis, 2013
    [ 4 ] Reality Check for the Chinese Microblog Space: A Random Sampling Approach,2012
    [ 5 ] Johan Bollen1, Huina Mao1, Xiao-Jun Zeng. Twitter mood predicts the stock market. 2010
    [ 6 ] Chaovalit and Zhou ,Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches,2005
    [ 7 ] Ahmad, K., Oliveira, P. C. F. D., Manomaisupat, P., Casey, M. & Taskaya, T. (2002). Description of events: An analysis of keywords and indexical names. Proceedings of the third international conference on language resources and
    evaluation, LREC 2002: Workshop on event modelling for multilingual document linking, 29-35
    [ 8 ] Liu, “Sentiment Analysis and Opinion Mining,” Synthesis Lectures on Human Language Technologies, vol. 5, no. 1, pp. 1–167, May 2012.
    [ 9 ] Pang and Lee. Opinion mining and sentiment analysis, 2008
    [ 10 ] Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, “Lexicon-based Methods for Sentiment Analysis,” Comput. Linguist., vol. 37, no. 2, pp. 267–307, Jun. 2011.
    [ 11 ] How Big Data Can Transform Your Understanding Of Your Customers
    [ 12 ] Thorsten Joachims, SVM-Light Support Vector Machine, 2008
    [ 13 ] Zheng and Y. Tian, “Chinese Web Text Classification System Model Based on Naive Bayes,” in 2010 International Conference on E-Product E-Service and E-Entertainment (ICEEE), pp. 1–4, 2010
    [ 14 ] Support Vector Machines 簡介, 林宗勳,2015
    [ 15 ] 劉奕廷, 全文運用財經文本情感分析於台灣電子類股價指數趨勢預測之研究,2015
    [ 16 ] 林育龍, 對使用者評論之情感分析研究-以Google Play市集為例, 2014
    [ 17 ] 李啟菁,王正豪. “中文部落格文章之意見分析”, 2010
    [ 18 ] 郭俊桔、張育蓉,使用情緒分析於圖書館使用者滿意度之研究,2013
    [ 19 ] 游和正、黃挺豪、陳信希, 領域相關詞彙極性分析及文件情緒分類之研究,2013
    [ 20 ] 蕭瑞祥、姜青山, 部落格文章情感分析之研究,2012
    [ 21 ] 李謦哲,應用FFCA結合情感分析探勘Facebook對議題之評論-以台灣2014九合一選舉為例,2014
    [ 22 ] 鍾任明、李維平, 運用文字探勘於日內股價漲跌趨勢預測之研究,2007
    [ 23 ] 洪崇洋, 以LDA 和使用紀錄為基礎的線上電子書主題趨勢發掘方法, 2012
    [ 24 ] 王正豪,葉庭瑋, 基於意見詞修飾關係之微網誌情感分析技術,2013
    [ 25 ] 劉鵬,滕家雨. 基於Spark的大規模文本k-means並行聚類算法, 2014
    [ 26 ] 魏晶晶,吳曉吟. 電子商務產品評論多級情感分析的研究與實現, 2013
    [ 27 ] 以情緒為中心之情境資訊觀察與評估
    [ 28 ] 張士勛,以半導體產業為例-探討線性識別分析之最佳投資組合,2014
    [ 29 ] 以URL 資訊和TF-IDF 為主的網路釣魚信件偵測,朱怡俊,2009
    [ 30 ] 2015年中國股災,wiki,2015
    [ 31 ] 證交所世界排名,wiki,2011
    [ 32 ] 情感分析,wiki,2011
    [ 33 ] Twitter 能否预测股市?,數位時代,2013
    [ 34 ] 2013年Big Data市場規模,Wikibon,2013
    [ 35 ] TFIDF,wiki,2007
    [ 36 ] Lexalytics分析網友情感動向,協助品牌行銷策略,Find,2015
    [ 37 ] 龔建彰, 基於新聞字詞漲跌極性之股價趨勢分類預測, 2014
    [ 38 ] 張良杰. 巨量資料環境下之新聞主題暨輿情與股價關係之研究, 2014
    [ 39 ] 郭敏華, 如何測量投資人情緒?, 2009
    [ 40 ] 張日威,應用LDA進行Plurk主題分類及使用者情緒分析,2014
    [ 41 ] 黃運高,王妍,邱武松,向林泓,趙學良.基于K-means和TF-IDF的中文藥名聚類分析, 2014
    Description: 碩士
    國立政治大學
    資訊管理學系
    103356002
    Source URI: http://thesis.lib.nccu.edu.tw/record/#G0103356002
    Data Type: thesis
    Appears in Collections:[資訊管理學系] 學位論文

    Files in This Item:

    File SizeFormat
    600201.pdf1964KbAdobe PDF537View/Open


    All items in 政大典藏 are protected by copyright, with all rights reserved.


    社群 sharing

    著作權政策宣告
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback