政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/115092
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 109952/140903 (78%)
造访人次 : 46052354      在线人数 : 731
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/115092


    题名: 文本史料資訊檢索與探勘工具之開發與實踐
    作者: 蔡銘峰
    贡献者: 資訊科學系
    关键词: 數位人文;自由中國文本集;資訊檢索;自然語言處理
    Digital Humanities;Information Retrieval;Natural Language Processing
    日期: 2013
    上传时间: 2017-12-08 15:08:36 (UTC+8)
    摘要: 隨著資訊科技的日新月異,數位資訊透過通訊以及網際網路的快速發展,已經造成人文科學和社會科學與資訊科學之間在學科內涵、規範、社會實踐等方面開始產生質變。在文學研究領域方面,資訊科技改變了文學創作與文學研究之想像與模式。在傳播學領域方面,網際網路使得知識的傳播更加無遠弗屆。在歷史學領域方面,由於資訊科技中資訊檢索(Information Retrieval)與資料探勘分析(Data Mining and Analysis)等技術,得以幫忙史學家發現文本史料中錯綜複雜的關係。有鑑於過去數位典藏技術已將許多傳統的歷史書籍資料數位化,接下來該如何有效地處理這些數位文本史料便成了一個重要的研究議題。為完成此目的,資訊檢索技術將是一個必要的核心工具,因透過檢索系統的建立,其技術可以將非結構化的文本資料變成半結構化的索引資料,以便系統有效地搜尋資料,如此將可讓後續的資料探勘分析技術得以順利進行。 由於在人文社會科學相關研究中,研究人員經常需要閱讀與檢索大量文獻,而在資訊科學領域,檢索相關技術近年來已有相當的發展,而這些發展中蘊含於資訊檢索、自然語言處理(Natural Language Processing)等資訊領域裡進階的技術。本計畫採用這些技術建立了一個有效率的文本史料資訊檢索系統,幫助史學家從大量的史料中找尋相關的資訊、並協助進行文本分析,使得史學家可以進行更深入的史學相關研究。在所開發的系統裡,我們利用了資訊檢索和自然語言處理等技術,提供精準的搜尋結果。接下來我們將介紹本計畫中所使用史料文本和開發技術,以及介紹此適合人文社會科學研究導向的檢索工具平台。 在本次計畫中,我們所使用的史料文本為「自由中國文本集」,此文本集由政治大學雷震研究中心薛化元教授團隊所提供。在此計畫報告中,另外我們介紹了有關在處理史料文本時,會所遇到的一些困難以及相關的解決方法,包括:史料本文前處理、中文斷詞工具、以及資料儲存格式系統之選擇等。在此報告中,我們也針對計畫所使用到的建立檢索平台技術進行介紹,其中包括資訊檢索平台(Search Engine Platform)、網路開發框架(Web Framework)、前端介面(Front-end Interface)及後端資料處理(Back-end Data Processing)等具體的實踐方案。 目前,我們已成功建立起「數位人文自由中國搜尋系統」平台讓使用者進行檢索, 同時我們也使用分頁的方式呈現結果,並提供全文顯示等功能,此外我們也提供了以下側邊後設資料欄位以便使用者更進階的搜索需求。
    With the advances of digital technology, digital information through communication as well as the rapid development of the Internet has begun to impact people life, which therefore makes huge changes to the research of humanity and social science. For example, in the field of literature, digital technology has changed the imagination and creation of literary works and literary studies; in the field of communication, with the Internet information can be spared faster and further; in the field of history, the data-mining techniques has been applied to discover implicit information within historical materials; in the field of library science, digital libraries are becoming more and more popular than traditional ones. With such many digital-archived text materials, how to effectively handle the data has already become a challenging task. For achieving the task, the techniques of information retrieval are becoming crucial because the techniques can help build an information retrieval system for users to adjust their way of searching data and customize their search preferences. The goal of this project is to develop an effective information retrieval system that can help historians conduct research on historical text collections. By means of the techniques of information retrieval and natural language processing, we aim to provide more accurate search results and advanced search functionalities for historical researchers; in addition, we also attempt to integrate the methods of data visualization to present search results, in order to assist historian researchers to better understand the relationship within the retrieved documents and keywords. In this project, we first indexed the historical text collections and building n retrieval system on the collections; then, we developed some advanced meta-search functions. In addition, we also developed some useful and friendly user interfaces for the retrieval systems. We hope such a project can help historical researchers conduct historical related research more efficiently and effectively.
    關聯: 執行起迄:2013/08/01~2015/08/31
    102-2420-H-004-052-MY2
    数据类型: report
    显示于类别:[資訊科學系] 國科會研究計畫

    文件中的档案:

    档案 描述 大小格式浏览次数
    102-2420-H-004-052-MY2.pdf5358KbAdobe PDF2467检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈