Term Extracting steps

[R: 字串左右出現不同字的種類數]
Candidate Terms: R>1 [STRING] R>1 (左右 R 值均大於 1 的字串數): 15,694,556
        (某詞條的前一個字或後一個字出現過句號或任兩種以上的字)
Muller: No. of Terms in Charles Muller's Dictionary: 289,838
Muller: 單字辭 3221 個
Muller 有 178,652 個詞條在CBETA中出現
Candidate Terms 與 Muller 辭典交集詞條數: 139,486

Candidate Terms 左右 |R| 的變化對應 與Muller交集詞條的變化圖表.
** 並非將所有斷句處當做一種狀況, 遇到斷句處, R值+1, 借以提高斷句資訊的強度.
Y : (Candidate Terms |R| >= n 的詞條) 交集 Muller 的詞條數 / Candidate Terms |R| >= n 的詞條數
X : n (|R|數量的變化, 僅取 n > 2 and n < 50)

[圖 1] 詞條左側 |R| 值對應 Muller 交集數量的變化


[圖 2] 詞條右側 |R| 值對應 Muller 交集數量的變化

上圖 1 實際參數
X All Candidates^ Mullers Y
2 15694556 39117 0.00249239290363
3 8125045 26244 0.00323001287993
4 5393291 18803 0.00348636852712
5 3991221 14106 0.00353425681013
6 3153231 10828 0.00343393807812
7 2593714 8407 0.0032412979997
8 2198344 6719 0.00305639153836
9 1902620 5475 0.00287761087343
1 0 1674130 4507 0.00269214457659
1 1 1491126 3700 0.00248134631145
1 2 1343233 3091 0.0023011644294
1 3 1220193 2618 0.00214556221844
1 4 1117493 2267 0.00202864805417
1 5 1030163 1977 0.00191911377132
... ... ... ...
上圖 2 實際參數
X All Candidates^ Mullers Y
2 15694556 39117 0.00249239290363
3 8073953 30084 0.00372605587375
4 5357485 23948 0.00447000784883
5 3964243 19562 0.00493461172789
6 3133657 16279 0.00519488891094
7 2578505 13780 0.00534418199693
8 2187499 11784 0.00538697389119
9 1893831 10231 0.00540227718313
1 0 1666738 8971 0.00538236963458
1 1 1484532 7909 0.00532760492869
1 2 1337972 6916 0.00516901698989
1 3 1215753 6170 0.00507504402621
1 4 1113804 5506 0.0049434191294
1 5 1026653 4964 0.0048351292988
... ... ... ...

[Fixed one side of |R|]
固定左側 |R| >= 5 時, 與 Muller 交集 14,106 個詞條
固定右側 |R| >= 9 時, 與 Muller 交集 10,213 個詞條

[圖 3] 以圖 1 為依據, 當左側 |R| 值 >= 5 時, 詞條右側 |R| 值對應 Muller 交集數量的變化


[圖 4] 以圖 2 為依據, 當右側 |R| 值 >= 9 時, 詞條左側 |R| 值對應 Muller 交集數量的變化

上圖 3 實際參數
X All Candidates^ Mullers Y
2 15694556 14106 0.000898782992013
3 8073953 14106 0.00174709959298
4 5357485 14106 0.00263295184214
5 3964243 14106 0.00355830861024
6 3133657 12700 0.00405277284655
7 2578505 11261 0.00436725932275
8 2187499 9928 0.00453851636046
9 1893831 8809 0.00465141820997
10 1666738 7842 0.00470499862606
11 1484532 6990 0.00470855461519
12 1337972 6191 0.00462715213771
13 1215753 5572 0.00458316779806
14 1113804 4992 0.00448193757609
15 1026653 4528 0.0044104483209
... ... ... ...
上圖 4 實際參數
X All Candidates^ Mullers Y
2 15694556 10231 0.000651882092109
3 8125045 9889 0.00121710095144
4 5393291 9403 0.00174346238688
5 3991221 8809 0.0022070940196
6 3153231 8094 0.00256689091284
7 2593714 7245 0.00279329178159
8 2198344 6394 0.00290855298352
9 1902620 5475 0.00287761087343
10 1674130 4507 0.00269214457659
11 1491126 3700 0.00248134631145
12 1343233 3091 0.0023011644294
13 1220193 2618 0.00214556221844
14 1117493 2267 0.00202864805417
15 1030163 1977 0.00191911377132
... ... ... ...


[Max: 詞條左右出現各種不同的可能(|R|)中, 其中次數最多的是多少次] 一般化: 將 Max / fx, fx 是該詞條的總數
Candidate Terms 左右 Max/fx 的變化對應 與Muller交集詞條的變化圖表.
** 所有的斷句處 Max 值均不累計, 斷句處的 Max 值永遠為 1, 借以降低關聯性資訊.
Y : 交集 Muller 的詞條的Max/fx / Candidate Terms 的 Max/fx
X : Max/fx 數量的變化, 間隔 0.1

[圖 5] 詞條左側 Max/fx 值對應 Muller 交集數量的變化


[圖 6] 詞條右側 Max/fx 值對應 Muller 交集數量的變化

上圖 5 實際參數
X All Candidates^ Mullers Y
0 .0 15694556 39117 0.00249239290363
0 .5 9143365 19416 0.00212350704582
0 .2 14112716 35083 0.0024859141217
0 .4 9802212 22187 0.00226346869462
0 .8 621625 1884 0.00303076613714
0 .6 2668583 7552 0.00282996631546
0 .3 12146862 28869 0.00237666320734
0 .1 15300426 38279 0.00250182576616
0 .9 156229 503 0.00321963271864
0 .7 1164062 3595 0.00308832347418
上圖 6 實際參數
X All Candidates^ Mullers Y
0 .0 15694556 39117 0.00249239290363
0 .5 7386066 9257 0.00125330588706
0 .2 13323857 24616 0.00184751307373
0 .4 7892818 9860 0.00124923696454
0 .8 315012 97 0.000307924777469
0 .6 1290640 630 0.00048812992004
0 .3 10738884 16290 0.00151691740036
0 .1 15010443 33178 0.00221032783643
0 .9 84571 23 0.000271960837639
0 .7 587073 233 0.000396884203498


[Algorism AEc]
AEc = fx / fy + fz - fx
Ex:
string: 中華佛學研究所
fx = No. of 中華佛學研究所
fy = No. of 中華佛學研究
fz = No. of  華佛學研究所

以 0.01 為間隔, 取一百段的 AEc 值(0.01~1.0)
計算候選詞條中的 AEc 值 >= 上述區段時, 與 Muller 比對的交集結果



上圖實際參數
X All Candidates^ Mullers Y
0 .0 15694556 39117 0.00249239290363
0 .25 4377334 12183 0.00278320091636
0 .5 3539964 9403 0.00265624170189
0 .1 5496481 15650 0.00284727628459
0 .64 3107079 7895 0.00254097176158
0 .19 4664440 13187 0.0028271346614
0 .12 5240389 14960 0.00285474990502
0 .98 2397179 5094 0.00212499775778
0 .75 2755676 6925 0.00251299499651
0 .15 4970380 14106 0.00283801238537
0 .06 6169879 17553 0.00284495044392
0 .52 3291933 8726 0.00265072223523
0 .67 2808593 7237 0.00257673504135
0 .24 4389010 12257 0.00279265711402
0 .94 2416567 5298 0.00219236627828
0 .53 3285394 8690 0.00264504044264
0 .21 4547760 12792 0.00281281334107
0 .89 2455414 5608 0.00228393256697
0 .23 4430714 12420 0.00280315994217
0 .4 3797100 10262 0.00270258881778
0 .8 2619352 6432 0.00245556916367
0 .55 3267869 8592 0.00262923636168
0 .65 3101756 7854 0.002532114067
0 .39 3801549 10291 0.00270705441387
0 .71 2789123 7111 0.00254954693644
0 .96 2405128 5198 0.00216121553614
0 .38 3816473 10380 0.00271978866351
0 .76 2640821 6564 0.00248559065533
0 .28 4210875 11651 0.00276688336747
0 .43 3607168 9714 0.0026929713282
0 .36 3876748 10596 0.00273321866678
0 .41 3667666 9963 0.00271644146441
0 .59 3210915 8305 0.00258649014378
0 .68 2807040 7218 0.00257139192886
0 .83 2549841 6149 0.00241152291457
0 .07 5950969 16957 0.00284945191279
0 .57 3247840 8500 0.00261712399626
0 .09 5622558 16011 0.00284763625382
0 .01 8909628 23742 0.00266475772052
0 .42 3653245 9887 0.00270636105709
0 .85 2510907 5968 0.00237683036449
0 .6 3208715 8289 0.00258327710626
0 .2 4640908 13075 0.00281733660741
0 .56 3252572 8525 0.00262100270186
0 .61 3137819 8061 0.00256898183101
0 .51 3295141 8747 0.0026545146323
0 .77 2635135 6534 0.00247956935793
0 .62 3131445 8020 0.00256111795034
0 .99 2394879 5078 0.00212035764646
0 .81 2560048 6225 0.00243159503259
0 .11 5360765 15287 0.00285164524093
0 .49 3541063 9408 0.00265682931933
0 .72 2768216 7007 0.00253123311187
0 .97 2400295 5145 0.00214348652978
0 .92 2431312 5420 0.00222924906388
0 .13 5144841 14644 0.0028463464663
0 .04 6752092 19021 0.00281705284821
0 .69 2802779 7189 0.00256495428287
0 .95 2410831 5244 0.00217518357778
0 .22 4506085 12633 0.00280354232111
0 .54 3276953 8646 0.00263842661155
0 .45 3578426 9588 0.00267939032413
0 .26 4271636 11897 0.00278511558569
0 .17 4791409 13597 0.00283778738154
0 .66 3098603 7830 0.00252694520724
0 .44 3600488 9669 0.00268546930305
0 .91 2437728 5480 0.00224799485422
0 .82 2552823 6176 0.00241928249628
0 .46 3564444 9524 0.00267194547032
0 .08 5784582 16487 0.00285016272567
0 .02 7799192 21399 0.00274374576238
0 .63 3114681 7941 0.00254953878102
0 .78 2625134 6480 0.00246844542031
0 .34 3901166 10716 0.00274687106368
0 .87 2483807 5805 0.00233713811097
0 .74 2756963 6934 0.00251508634682
0 .3 4107864 11362 0.00276591435354
0 .47 3553014 9471 0.00266562417148
0 .58 3218576 8355 0.00259586848345
0 .35 3893395 10676 0.00274207985576
0 .7 2798521 7160 0.00255849429038
0 .33 4038609 11048 0.00273559534979
0 .03 7171973 20043 0.0027946284795
0 .14 5052290 14371 0.00284445271352
0 .93 2422780 5365 0.0022143983358
0 .31 4062647 11182 0.00275239271342
0 .84 2515957 6010 0.00238875306692
0 .18 4746863 13432 0.00282965823956
0 .27 4246275 11789 0.00277631571201
0 .16 4878632 13853 0.00283952550633
0 .48 3545451 9435 0.00266115650731
0 .29 4121787 11424 0.00277161338031
0 .86 2487899 5850 0.00235138162763
0 .73 2761085 6957 0.00251966165475
0 .88 2468473 5706 0.00231155050106
0 .9 2453074 5587 0.00227755053455
0 .79 2620778 6453 0.00246224594376
0 .05 6431888 18215 0.00283198339275
0 .32 4046193 11100 0.00274331946103
0 .37 3855153 10515 0.00272751820745