計畫概述/Introduction
本計畫為國科會數位典藏技術分項計畫的其中一項。其目標及成果是要支援建立一個方便佛教學者建立知識架構的環境與研究平台。
研究平台的構想,是建立一個友善並有效率的介面,佛教學者可以透過它對龐大的數位佛教資源庫,進行統計分析(Statistical Analysis)、資訊檢索及抽取(Information Retrieval and Extraction)、文件分類與分群(Document Classification and Clustering)、資料探勘(Data Mining)等各項工作,以提供研究者不同於傳統佛學的研究方法及更多樣的參考資源和結果。
抽詞及建立跨語詞彙集,是達成上述研究平台目標的重要基礎工作。以各種不同版本及語言的佛經來說,抽詞及建立跨語詞彙表的工作,也可以應用在工具書的整理、文獻學與考證學的研究上。並且還能衍伸出多項資料統計議題上的研究與探討。
This is a project of the National Science Council's National Digital Archives Program, Taiwan. It aims to support the construction of a research platform and environment that will be convenient for Buddhist scholars to work on subject specific knowledge structures. There will be a friendly and efficient platform, on which Buddhist scholars can conduct Statistical Analysis, Information Retrieval and Extraction, Document Classification and Clustering, Data Mining, etc., to work on large numbers of digital Buddhist databases.
Term extraction is an important foundation towards building such a platform. Term extraction and cross-lingual thesaurus for the Tripitaka in different versions and languages can also be applied to constructing reference works, manuscript studies, document proving. Statisical questions can also be derived.
|
計畫成果/Performance
◎ 古典文獻(Cbeta)抽辭結果 / Term Extraction of the Tripitaka:
抽辭資源: CBETA
檔案總 bytes: 1.2 GB (utf8 files)
所有中文字所佔 bytes: 324,754,728(utf16 file)
Suffix Array Index bytes: 567,406,444(4 bytes for each charactor)
總中文字數: 141,851,611
總標點符號字數: 20,525,753
一次資料分析:
A. 與字辭典比對: Soothill-Hodous | 佛光大詞典 | 去掉短詞(Soothill-Hodous base)
B. 亂數抽取比對: 第一組資訊
二次資料分析:
A. 與字辭典比對: Soothill-Hodous | 佛光大詞典
計算分析條件最佳化與抽辭結果:
* 條件: 左R = 67, 右R = 71
* 篩出詞條 109,681 個
◎ 當代文獻(佛學學報)抽辭結果 / Term Extraction in Articles of Buddhist Modern Studies:
抽辭資源: 781單篇文獻 (中華佛學學報、華岡學學報、中華佛學研究、台大佛學學報、法鼓全集等)
檔案總 bytes: 78 MB (utf8 files)
所有中文字所佔 bytes: 19,328,504(utf16 file)
Suffix Array Index bytes: 33,851,932(4 bytes for each charactor)
總中文字數: 8,462,983
總標點符號字數: 1,201,269
資料分析: Soothill-Hodous | 佛光大詞典
** 需要以一般性字典比較。以專業佛學字典比較及當代文獻本身數量較小,參數有過大以致暫時無法參考的狀況。
◎ 網路服務:
1. 語用索引及時空地理檢索系統
2. CBETA 語用索引 線上服務
|