古漢語斷句(或稱句讀 )是中文書寫系統中一個經典的議題將文本內容切成句子(sentence)以及子句(clause),辨識句子的邊界稱為「句」,而上述的句子再細分各子句則稱為「讀」。判斷斷句仰賴閱讀者的經驗知識,過程費時,如果有自動化工具能快速初步解讀斷句,後續由專家校對調整,就能大幅降低時間和人力成本。
目前古漢語文本的自動化斷句方法主要區分為規則方式和機器學習方式,規則方法過於複雜且難以泛用,主流為機器學習方法。機器學習方法利用統計演算法和已標註資料建立學習模型,再透過模型進行斷句標註判斷,此一方法在某些文本中具有很不錯的辨識準確率。中文書寫系統發展已久,不同時代具備不同文體,通用型的自動斷句方法難以實現。且不會再產生新的古漢語文本,如何有效率的建立標註資料是重要的議題。主動式學習(Active Learning)是機器學習中用於解決學習過程需要大量人工訓練資料的方法,其概念透過人工協助電腦提出的問題建立訓練資料,能提高訓練語料的品質,降低其量的需求。主動式學習在自然語言處理中已經有相當廣泛的應用,但卻少有在古漢語斷句上的相關研究。
本研究欲發展結合主動式學習以及斷句模型的「基於主動式學習的古漢語文本斷句系統」,透過人機合作模式降低建立模型時所需的訓練語料。
本研究也將透過邀請專家使用「基於主動式學習的古漢語文本斷句系統」進行古漢語斷句,並分析結果以及從專家取得改進建議。
https://alssapi.herokuapp.com/