Term Extracting steps

[R: 字串左右出現不同字的種類數]
Candidate Terms: R>1 [STRING] R>1 (左右 R 值均大於 1 的字串數): 15,694,556
        (某詞條的前一個字或後一個字出現過句號或任兩種以上的字)
Muller: No. of Terms in Charles Muller's Dictionary: 289,838
Muller: 單字辭 3221 個
Muller 有 178,652 個詞條在CBETA中出現
Candidate Terms 與 Muller 辭典交集詞條數: 139,486

Candidate Terms 左右 |R| 的變化對應 與Muller交集詞條的變化圖表.
** 並非將所有斷句處當做一種狀況, 遇到斷句處, R值+1, 借以提高斷句資訊的強度.
Y : (Candidate Terms |R| >= n 的詞條) 交集 Muller 的詞條數 / Candidate Terms |R| >= n 的詞條數
X : n (|R|數量的變化, 僅取 n > 2 and n < 50)

[圖 1] 詞條左側 |R| 值對應 Muller 交集數量的變化


[圖 2] 詞條右側 |R| 值對應 Muller 交集數量的變化

上圖 1 實際參數
X All Candidates^ Mullers Y
2 15694556 139486 0.0088875403675
3 8125045 126200 0.0155322216677
4 5393291 116785 0.021653754637
5 3991221 109764 0.0275013586068
6 3153231 104066 0.0330029737752
7 2593714 99253 0.0382667479915
8 2198344 95194 0.0433025950443
9 1902620 91746 0.0482208743732
1 0 1674130 88629 0.052940333188
1 1 1491126 85760 0.0575135836945
1 2 1343233 83119 0.0618798078963
1 3 1220193 80789 0.0662100175956
1 4 1117493 78640 0.070371805461
1 5 1030163 76610 0.0743668720387
1 6 954127 74671 0.0782610700672
1 7 888202 72935 0.082115329621
1 8 830433 71303 0.0858624356209
1 9 778822 69698 0.0894915654668
2 0 732454 68265 0.0932003921065
2 1 691567 66891 0.0967238170705
2 2 654402 65532 0.100140280745
2 3 621024 64311 0.103556384294
2 4 590506 63120 0.106891377903
2 5 562955 61961 0.110063859456
2 6 537414 60852 0.113231140238
2 7 514248 59786 0.116259081222
2 8 492691 58731 0.119204531847
2 9 473110 57773 0.122113250618
3 0 454557 56830 0.12502282442
3 1 437376 55960 0.12794483465
3 2 421344 55125 0.130831339713
3 3 406424 54280 0.133555105013
3 4 392352 53483 0.136313820243
3 5 379153 52732 0.13907841953
3 6 366819 51995 0.141745656577
3 7 355087 51293 0.14445192305
3 8 344134 50646 0.147169416564
3 9 333895 49953 0.149606912353
4 0 324165 49340 0.152206438079
4 1 314856 48711 0.15470881927
4 2 306148 48129 0.157208278349
4 3 297754 47548 0.159688870678
4 4 289635 46978 0.162197248261
4 5 282206 46415 0.164472052331
4 6 275107 45862 0.166706045284
4 7 268292 45331 0.168961430084
4 8 261849 44827 0.171194085141
4 9 255606 44327 0.17341924681
5 0 249621 43803 0.175478024685
上圖 2 實際參數
X All Candidates^ Mullers Y
2 15694556 139486 0.0088875403675
3 8073953 127730 0.0158200078698
4 5357485 118922 0.0221973556622
5 3964243 112192 0.0283009896215
6 3133657 106699 0.0340493551145
7 2578505 102183 0.0396287771402
8 2187499 98227 0.044903791956
9 1893831 94883 0.0501010913857
1 0 1666738 91872 0.055120840828
1 1 1484532 89188 0.0600781929928
1 2 1337972 86601 0.0647255697429
1 3 1215753 84353 0.0693833369114
1 4 1113804 82221 0.0738199898725
1 5 1026653 80309 0.0782240932428
1 6 951401 78482 0.0824909790929
1 7 886268 76824 0.0866825835977
1 8 828970 75218 0.0907366973473
1 9 778328 73750 0.094754396604
2 0 733166 72307 0.0986229585114
2 1 692465 70986 0.10251204032
2 2 656505 69788 0.106302313006
2 3 623491 68588 0.110006399451
2 4 593167 67414 0.113650961702
2 5 565572 66352 0.117318396243
2 6 540489 65325 0.120862774266
2 7 517440 64316 0.124296536797
2 8 496199 63362 0.127694735378
2 9 476408 62502 0.131194270457
3 0 458015 61606 0.134506511795
3 1 440995 60782 0.137829227089
3 2 425129 59952 0.141020725474
3 3 410165 59150 0.144210256848
3 4 396150 58340 0.147267449199
3 5 383197 57614 0.150350863916
3 6 370770 56918 0.153512959517
3 7 359265 56170 0.156346986208
3 8 348381 55508 0.159331306816
3 9 338156 54832 0.162150013603
4 0 328437 54209 0.165051440611
4 1 319128 53609 0.167985886541
4 2 310470 53038 0.170831320256
4 3 302195 52402 0.173404589752
4 4 294233 51788 0.176010168812
4 5 286726 51194 0.178546765902
4 6 279713 50690 0.181221466289
4 7 272851 50190 0.183946549582
4 8 266278 49661 0.186500574587
4 9 260060 49166 0.189056371607
5 0 253980 48671 0.191633199465


[Max: 詞條左右出現各種不同的可能(|R|)中, 其中次數最多的是多少次] 一般化: 將 Max / fx, fx 是該詞條的總數
Candidate Terms 左右 Max/fx 的變化對應 與Muller交集詞條的變化圖表.
** 所有的斷句處 Max 值均不累計, 斷句處的 Max 值永遠為 1, 借以降低關聯性資訊.
Y : 交集 Muller 的詞條的Max/fx / Candidate Terms 的 Max/fx
X : Max/fx 數量的變化, 間隔 0.1

[圖 5] 詞條左側 Max/fx 值對應 Muller 交集數量的變化


[圖 6] 詞條右側 Max/fx 值對應 Muller 交集數量的變化

上圖 5 實際參數
X All Candidates^ Mullers Y
0 .0 15694556 139486 0.0088875403675
0 .5 9143365 28179 0.0030819069347
0 .2 14112716 79558 0.00563732735782
0 .4 9802212 36549 0.00372864818676
0 .8 621625 3115 0.0050110597225
0 .6 2668583 12312 0.00461368449098
0 .3 12146862 53837 0.00443217351115
0 .1 15300426 115708 0.00756240381804
0 .9 156229 924 0.00591439489467
0 .7 1164062 6115 0.00525315661881
上圖 6 實際參數
X All Candidates^ Mullers Y
0 .0 15694556 139486 0.0088875403675
0 .5 7386066 18326 0.00248115844077
0 .2 13323857 62712 0.00470674520148
0 .4 7892818 23572 0.0029865125485
0 .8 315012 1670 0.00530138534405
0 .6 1290640 6132 0.00475113122172
0 .3 10738884 38260 0.0035627538206
0 .1 15010443 101788 0.00678114563308
0 .9 84571 487 0.00575847512741
0 .7 587073 3250 0.0055359384608


[Algorism AEc]
AEc = fx / fy + fz - fx
Ex:
string: 中華佛學研究所
fx = No. of 中華佛學研究所
fy = No. of 中華佛學研究
fz = No. of  華佛學研究所

以 0.01 為間隔, 取一百段的 AEc 值(0.01~1.0)
計算候選詞條中的 AEc 值 >= 上述區段時, 與 Muller 比對的交集結果



上圖實際參數
X All Candidates^ Mullers Y
0 .0 15694556 139486 0.0088875403675
0 .25 4377334 28431 0.00649504926972
0 .5 3539964 20522 0.00579723409617
0 .1 5496481 38034 0.00691970007719
0 .64 3107079 16777 0.00539960522407
0 .19 4664440 31290 0.00670820077008
0 .12 5240389 36108 0.00689032817984
0 .98 2397179 7935 0.00331014079466
0 .75 2755676 14305 0.00519110374369
0 .15 4970380 33744 0.00678901814348
0 .06 6169879 43585 0.0070641579843
0 .52 3291933 19433 0.0059032185649
0 .67 2808593 15663 0.00557681372844
0 .24 4389010 28761 0.00655295841203
0 .94 2416567 9133 0.0037793282785
0 .53 3285394 19272 0.00586596310823
0 .21 4547760 30180 0.00663623410206
0 .89 2455414 10481 0.00426852661099
0 .23 4430714 29184 0.00658674877232
0 .4 3797100 23085 0.00607963972505
0 .8 2619352 13039 0.00497794874457
0 .55 3267869 18873 0.00577532330702
0 .65 3101756 16603 0.00535277436394
0 .39 3801549 23246 0.00611487580457
0 .71 2789123 15036 0.00539094188388
0 .96 2405128 8561 0.00355947791552
0 .38 3816473 23535 0.00616668845817
0 .76 2640821 13699 0.00518740194811
0 .28 4210875 27061 0.00642645530917
0 .43 3607168 21917 0.00607595764877
0 .36 3876748 24134 0.00622532081012
0 .41 3667666 22563 0.00615186879067
0 .59 3210915 17972 0.00559715844238
0 .68 2807040 15527 0.0055314494984
0 .83 2549841 12189 0.00478029806564
0 .07 5950969 41896 0.00704019799129
0 .57 3247840 18473 0.00568778018622
0 .09 5622558 39132 0.0069598214905
0 .01 8909628 65348 0.00733453742401
0 .42 3653245 22309 0.00610662575327
0 .85 2510907 11653 0.00464095245264
0 .6 3208715 17845 0.00556141633021
0 .2 4640908 30838 0.00664482036705
0 .56 3252572 18644 0.0057320791054
0 .61 3137819 17425 0.00555322024629
0 .51 3295141 19576 0.0059408686912
0 .77 2635135 13544 0.00513977462255
0 .62 3131445 17221 0.00549937808264
0 .99 2394879 7664 0.00320016167831
0 .81 2560048 12585 0.00491592345144
0 .11 5360765 37009 0.00690367885927
0 .49 3541063 20620 0.00582311017906
0 .72 2768216 14761 0.00533231510836
0 .97 2400295 8220 0.00342457906216
0 .92 2431312 9703 0.00399084938502
0 .13 5144841 35256 0.0068526899082
0 .04 6752092 48154 0.00713171562236
0 .69 2802779 15368 0.00548312942262
0 .95 2410831 8861 0.00367549612561
0 .22 4506085 29688 0.00658842431956
0 .54 3276953 19086 0.00582431301273
0 .45 3578426 21457 0.00599621174226
0 .26 4271636 27824 0.00651366361741
0 .17 4791409 32430 0.00676836396142
0 .66 3098603 16468 0.00531465308721
0 .44 3600488 21716 0.00603140463182
0 .91 2437728 9964 0.00408741254151
0 .82 2552823 12365 0.00484365739419
0 .46 3564444 21215 0.00595183989424
0 .08 5784582 40478 0.00699756698064
0 .02 7799192 56469 0.00724036541221
0 .63 3114681 16977 0.00545063844419
0 .78 2625134 13340 0.00508164535601
0 .34 3901166 24667 0.00632298138557
0 .87 2483807 11077 0.00445968627997
0 .74 2756963 14395 0.00522132505949
0 .3 4107864 26223 0.00638360958396
0 .47 3553014 20982 0.00590540876
0 .58 3218576 18169 0.00564504302524
0 .35 3893395 24430 0.00627472938143
0 .7 2798521 15231 0.00544251767273
0 .33 4038609 25253 0.00625289548951
0 .03 7171973 51559 0.00718895623282
0 .14 5052290 34487 0.00682601355029
0 .93 2422780 9400 0.00387984051379
0 .31 4062647 25795 0.00634930871424
0 .84 2515957 11851 0.00471033487456
0 .18 4746863 31860 0.00671180103576
0 .27 4246275 27469 0.00646896397431
0 .16 4878632 33050 0.00677444004795
0 .48 3545451 20789 0.00586356996613
0 .29 4121787 26534 0.00643749907504
0 .86 2487899 11302 0.00454278891547
0 .73 2761085 14553 0.00527075406951
0 .88 2468473 10798 0.00437436423246
0 .9 2453074 10308 0.00420207462147
0 .79 2620778 13169 0.00502484376777
0 .05 6431888 45622 0.00709309614844
0 .32 4046193 25499 0.00630197323756
0 .37 3855153 23853 0.00618730307202