English  |  正體中文  |  简体中文  |  Post-Print筆數 : 11 |  Items with full text/Total items : 88866/118573 (75%)
Visitors : 23563402      Online Users : 307
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version
    Please use this identifier to cite or link to this item: http://nccur.lib.nccu.edu.tw/handle/140.119/84819


    Title: 中文動詞自動分類研究
    Automatic Classification of Chinese Unknown Verbs
    Authors: 曾慧馨
    Tseng, Hui-Hsin
    Contributors: 高照明
    劉昭麟

    Gao, Zhao-Ming
    Liu, Chao-Lin

    曾慧馨
    Tseng, Hui-Hsin
    Keywords: 未知詞
    詞彙相似度測量
    動詞
    unknown words
    lexical similarity
    verbs
    Date: 2001
    Issue Date: 2016-04-15 15:58:06 (UTC+8)
    Abstract: 本文提出以規則法與相似法將未知動詞自動分類至中研院詞庫小組(1993)的動詞分類標記上。規則法中的規則從訓練語料中訓練出,並加上未知動詞重疊的規律,包含率約二成五,正確率約86.86%∼91.32%。規則法的優點在於正確率高,但缺點在於可以處理的未知動詞數量太少。相似法利用與未知動詞的相似例子猜測未知動詞的可能分類,利用詞彙內部的訊息---詞基的詞類、語意類與詞彙結構來計算相似度。相似法的可以全面性的處理未知動詞,缺點容易受到訓練語料中標記錯誤的例子誤導與訓練語料的大小所影響。我們結合規則法與相似法預測未知動詞分類的正確率為72%。
    We present two methods to classify the Chinese unknown verbs. First, we summarize some linguistic rules and morphological patterns from corpus. The accuracy of the rule-based method is 86.86%~91.32%. Second, we use the instance-based categorization to classify the Chinese unknown words. The accuracy of the instance-based method is 67.86%~70.92% and the accuracy of the integrated classifier is about 72%.
    Reference: 中文
    中央研究院詞知識庫小組。1993。《技術報告9305:中文詞類分析》。三版。南港:中央研究院詞知識庫小組。
    ---。1996。《技術報告9601:『搜』文解字---中文詞界研究與資訊用分詞標準》。南港:中央研究院詞知識庫小組。
    ---。1998。《技術報告9502/9804:中央研究院平衡語料庫的內容與說明》。修訂版。南港:中央研究院詞知識庫小組。
    白明弘、陳超然、陳克健。1998。<以語境判定中文未知詞詞類的方法>,《第十一屆計算機語言學會論文集》。頁47-60。
    李振昌。1993。《中文文本專有名詞辨識問題之研究》。台北:台灣大學資訊工程研究所碩士論文。
    李振昌、李御璽、陳信希。1994。《中文文本人名辨識問題之研究》。<第七屆計算機語言會會議論文集>,頁203-222。
    李坤霖。2000。《網際網路FAQ檢索中意圖萃取及語意比對之研究》。台南:成功大學資訊工程研究所碩士論文。
    林甫雯。1992。《技術報告9202:V-N複合名詞討論篇》。南港:中央研究院詞知識庫小組。
    林甫雯。1989。《漢語的述補式複合動詞》。新竹:清華大學語言學研究所碩士論文。
    林其青。1999。《英中詞彙知識庫建構機制之研究》。台北:台灣大學資訊工程研究所碩士論文。
    陳克健、陳正佳、林隆基。1986。《中文語句分析的研究---斷詞與構詞》。南港:中央研究院資訊科學所。
    陳克健、洪偉美。1996。<中文裡『動名』述賓結構與『動名』偏正結構的分析>,《第八屆計算機語言學會論文集》,頁1-29。
    陳克健、陳超然。1997。<語料庫為本的中文複合詞構詞律模型研究>,《漢語計量與計算研究》,編輯:鄒嘉彥、黎邦洋、陳偉光、王士元。頁283-305。香港:城市大學。
    陳永德。1997。《中文斷詞中長詞優先、詞頻對比與前詞優先規則之使用》。台北:台灣大學心理所博士論文。
    陳信希。2001。《自然語言處理在搜尋引擎的應用》。中文搜尋引擎技術研討會。南港:中央研究院資訊科學研究所。
    陳鳳儀、蔡碧芳、陳克健、黃居仁。1999。《中文句結構樹的構建》。<中文計算語言期刊 vol 4. no.2>,頁87-104。
    梅家駒、竺一鳴、高蘊琦、殷鴻翔。1986。《同義詞詞林》。香港:商務印書館。
    章明德。1995。《先秦漢語詞彙並列結構研究》。台北:政治大學中文所碩士論文。
    張麗麗、陳克健、黃居仁。1999。<漢語動詞詞彙語意分析:表達模式與方法>,《漢語動詞語意研究論文集I》,頁19-43。台北:中央研究院詞知識庫小組。
    黃居仁、陳克健。1995。《中央研究院平衡語料庫》。南港:中央研究院詞知識庫小組
    黃居仁、陳克健、張莉萍、許蕙麗。1995。《中央研究院平衡語料庫簡介》。<第八屆計算機語言學研討會論文集>,頁81-100。
    葉美利、湯志真、黃居仁、陳克健。1992。《漢語的動詞名物化初探---漢語中帶論文的名物化派生名詞》。<第五屆計算與語言學會議論文集>,頁177-194。
    湯廷池。1988。《漢語詞法句法論文集》。台北:學生書局。
    ---。1989。《漢語詞法句法論文續集》。台北:學生書局。
    ---。1994。《漢語詞法句法五集》。台北:學生書局。
    董振東、董強。2000。知網---中文信息結構庫。知網下載。知網。<http://www.keenage.com>
    ---。2000。事件關係與角色轉換庫。知網下載。知網。<http://www.keenage.com>
    蔡志浩。1993。《語意透明度對辨識中文雙字詞的影響》。嘉義:中正大學心理所碩士論文。
    趙元任。1980。《中國話文法?。丁邦新譯。香港:中文大學。
    鄧守信。1984。《漢語及物性關係的語意研究》。台北:學生書局。
    劉美君、許蕙麗。1994。《中文動詞的處理:詞庫小組動詞系統及動詞大字典之比較》。<第七屆計算機語言會會議論文集>,頁91-110。
    賴育昇、李坤霖、吳宗憲。2000。《網際網路FAQ檢索中意圖萃取及語意比對之研究》。<第十三屆計算機語言學研討會>,頁135-156。
    顏國偉、譚慧敏。1999。《基於知網的常識知識標注》。<中文計算語言期刊vol 4. no.2>,頁39-86。
    西文
    Abney, Steven. 1996. Statistical Methods and Linguistics. The Balancing: Combing Symbolic and Statistical Approaches to Language, ed. by Judith L. Klavans and Philip Resnik, 1-26. Cambridge: MIT.
    Allen, James. 1995. Natural Language Understanding. 2nd editon. Redwood City: Benjamin/Cummings.
    Biber, Douglas, Susan Conrad, and Randi Reppen. 1998. Corpus Linguistics: Inverstigating Language Structure and Use. Cambridge: Cambridge University Press.
    Bresnan, Joan. 2001. Lexical Functional Syntax. Oxford:Blackwell.
    Chang, Jing-Shin and Keh-Yih Su. 1997. A Multivariate Gaussian Mixture Model for Automatic Compound Word Extraction. Proceedings of Research of Computaionl Linguistics X, 123-142.
    Charniak, Eugene. 1993. Statistical Language Learning. Cambridge:MIT.
    Chen, Chao Jan , Ming-Hung Bai and Keh-Jiann Chen. 1997. Category Guessing for Chinese Unknown Words. Proceedings of the Natural Language Processing Pacific Rim Symposium 1997, 35-40.
    Chen, Keh-Jiann and Ming-Hong Bai. 1998. Unknown Word Detection for Chinese by a Corpus-based Learning Method. Computational Lingiustics and Chinese Language Processing vol3 no. 1, 27-44.
    Chen, Keh-Jiann and Chao-Jan Chen. 2000. Automatic Semantic Classification for Chinese Unknown Compound Nouns. Proceedings of the 18th International Conference on Computaitonal Linguistics.
    ---. 2000. Knowledge Extraction for Identification of Chinese Organization Names. Proceedings of the second Chinese Language Processing Workshop, 15-21.
    Chen, Hsin-Hsi and Chi-Ching Lin. 2000. Sense-Tagging Chinese Corpus. Proceedings of the second Chinese Language Processing Workshop, 7-14.
    Church, Kenneth W. .and Hanks P. 1990. Word Association Norm, Mutual Information, and Lexicography. Computational Linguitsics 16, 22-29.
    Franz, Alexander. 1996. Automatic Ambiguity Resolution in Natural Language Processing. Berlin:Springer.
    Her, One-Soon. 1997. Interaction and Varivation in the Chinese VO Construction. Tapiei:Crane.
    Huang, Chu-Ren, Wei-Mei Hong and Keh-Jiann Chen. 1994. An Introduction Based Lexical of Abbreviation. Proceedings of the 2th Pacific Asia Conference on Formal and Computational Linguistics, 49-52.
    Huang, Chu-Ren, Keh-Jiann Chen, Lili Chang and Fung-Yi Chen. 1997. Segmentation Standrad for Chinese Natural Lnaguage Processing vol 2. no.2.:47-62.
    Huang, Chu-Ren, Zhao-Ming Gao, Claude C. C. Shen, Keh-Jiann Chen. 1998. Quantitative Criteria for Computational Chinese Lexicagraphy. Proceedings of Research on Compuational Linguistics Conference XI, 87-108.
    Jurafsky, Daniel and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. New Jersey: Pearson Higher Education.
    Katamba, Francis. 1993. Morphology. New York: St. Martin’s Press.
    Luo, Lyih-Peir. 1999. Studien zu seriellen Verbkonstruktionen. Tuebingen:Niemeyer.
    Manning Christopher D. and Hinrich Schuetze. 1999. Foundations of Statistical Natural Language Processing. Cambridge:MIT
    Mitchel, Tom M. 1997. Machine Learning. Boston:McGrqw-Hill.
    Oakes, Michael P. 1998. Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press.
    Peter, Sells. 1985. Lectures on Contemporary Syntactic Theories. Stanford: Stanford University.
    Resnik, Philip. 1995. Using Information Content to Evaluate Semantic Similarity in a Taxonomy. Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI), 448-453.
    ---. 1998. Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language. Journal of Artificial Intelligence Research XI, 95-130.
    Resnik, Philip and Mona Diab. 2000. Measuring Verbal Similarity. Technical Report:LAMP-TR-047//UMIACS-TR-2000-40/CS-TR-4149/MDA-9049-6C-1250. University of Maryland, College Park.
    Pinker, Steven. 1989. Learnability and Cognition. Cambridge: MIT Press.
    ---. 1995. The Language Instinct. New York: HarperPerennial.
    Ross, Sheldon. 1988. A First Course in Probability. Third Edition. New York:Macmillan.
    Weischedel, Ralph, Marie Meteer, Richard Schwartz, Lance Ramshaw and Jeff Palmucci. 1993. Coping with Ambiguity and Unknown Words through Probalistic Model. Computaional Lingistics 19,359-382.
    Witten Ian H. and Eibe Frank. 1999. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco:Morgan Kaufmann.
    Yang, Erhong, Guoqing Zhang, and Yongkui Zhang. 2000. The Research of Word Sense Disambiguation Method Based on Co-occurrence Frequency of Hownet. Proceedings of the second Chinese Language Processing Workshop, 60-65.
    Description: 碩士
    國立政治大學
    語言學研究所
    88555011
    Source URI: http://thesis.lib.nccu.edu.tw/record/#A2002001006
    Data Type: thesis
    Appears in Collections:[語言學研究所] 學位論文

    Files in This Item:

    File SizeFormat
    index.html0KbHTML481View/Open


    All items in 政大典藏 are protected by copyright, with all rights reserved.


    社群 sharing

    著作權政策宣告
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback