Term Extracting steps

[R: 字串左右出現不同字的種類數]
Candidate Terms: R>1 [STRING] R>1 (左右 R 值均大於 1 的字串數): 1,197,484
        (某詞條的前一個字或後一個字出現過句號或任兩種以上的字)
佛光大辭典詞條數: 24,448 (將缺字的詞條去除後的數量)
Candidate Terms 與 佛光辭典交集詞條數: 9,535

Candidate Terms 左右 |R| 的變化對應 與佛光大辭典交集詞條的變化圖表.
** 並非將所有斷句處當做一種狀況, 遇到斷句處, R值+1, 借以提高斷句資訊的強度.
Y : (Candidate Terms |R| >= n 的詞條) 交集 佛光大辭典的詞條數 / Candidate Terms |R| >= n 的詞條數
X : n (|R|數量的變化, 僅取 n > 2 and n < 50)

[圖 1] 詞條左側 |R| 值對應佛光大辭典交集數量的變化


[圖 2] 詞條右側 |R| 值對應佛光大辭典交集數量的變化

上圖 1 實際參數
X All Candidates^ Mullers Y
2 1197484 9535 0.00796252810058
3 607765 8308 0.0136697572252
4 397715 7377 0.0185484580667
5 291381 6686 0.0229459024439
6 228293 6182 0.0270792358942
7 186385 5762 0.0309145049226
8 156765 5372 0.034267853156
9 134842 5057 0.037503151837
10 117879 4779 0.0405415722902
11 104671 4552 0.0434886453746
12 93753 4331 0.046195855066
13 84713 4160 0.0491069847603
14 77126 3991 0.0517464927521
15 70612 3819 0.0540842916218
16 65190 3678 0.0564196962724
17 60564 3551 0.0586321907404
18 56531 3409 0.0603031964763
19 52864 3279 0.0620270883777
20 49756 3178 0.0638716938661
21 46925 3068 0.0653809270112
22 44364 2987 0.0673293661527
23 42045 2896 0.0688785824712
24 39859 2810 0.070498507238
25 37944 2731 0.0719744887202
26 36157 2653 0.0733744503139
27 34621 2594 0.0749256231767
28 33113 2536 0.0765862350134
29 31769 2474 0.0778746576852
30 30427 2412 0.0792716994774
31 29273 2357 0.0805178833738
32 28187 2305 0.0817752864796
33 27156 2260 0.0832228605096
34 26187 2207 0.0842784587773
35 25306 2161 0.0853947680392
36 24414 2115 0.0866306217744
37 23599 2078 0.0880545785838
38 22868 2049 0.089601189435
39 22175 1994 0.0899210822999
40 21498 1955 0.0909386919713
41 20879 1919 0.0919105321136
42 20271 1884 0.0929406541365
43 19734 1858 0.094152224587
44 19205 1833 0.0954438948191
45 18695 1804 0.0964963894089
46 18215 1775 0.0974471589349
47 17734 1744 0.0983421675877
48 17305 1721 0.0994510257151
49 16842 1684 0.0999881249258
50 16416 1659 0.10105994152
上圖 2 實際參數
X All Candidates^ Mullers Y
2 1197484 9535 0.00796252810058
3 601637 8343 0.0138671657494
4 392589 7482 0.0190580989279
5 287654 6844 0.0237924729015
6 224938 6343 0.0281988814696
7 183982 5927 0.0322151079997
8 155165 5542 0.0357168175813
9 133667 5239 0.039194415974
10 116916 4917 0.0420558349584
11 103761 4671 0.0450169138694
12 93164 4457 0.0478403675239
13 84430 4257 0.0504204666588
14 77103 4082 0.0529421682684
15 70901 3907 0.0551050055711
16 65513 3773 0.0575916230366
17 61042 3636 0.0595655450346
18 57033 3519 0.061701120404
19 53421 3408 0.063795136744
20 50204 3284 0.0654131144929
21 47349 3184 0.0672453483706
22 44776 3098 0.0691888511703
23 42492 3011 0.0708603972512
24 40434 2946 0.0728594746995
25 38517 2871 0.0745385154607
26 36740 2787 0.0758573761568
27 35153 2712 0.0771484652803
28 33635 2657 0.0789950943957
29 32305 2604 0.0806067172264
30 30958 2524 0.0815298145875
31 29790 2470 0.0829137294394
32 28737 2424 0.0843511848836
33 27711 2377 0.0857782108188
34 26739 2325 0.0869516436666
35 25867 2285 0.0883364905091
36 25028 2241 0.0895397155186
37 24248 2204 0.0908940943583
38 23478 2155 0.0917880569043
39 22761 2123 0.0932735820043
40 22119 2090 0.0944889009449
41 21484 2053 0.0955594861292
42 20861 2018 0.0967355352092
43 20320 1993 0.0980807086614
44 19775 1958 0.0990139064475
45 19233 1918 0.0997244319659
46 18728 1881 0.100437847074
47 18290 1860 0.101694915254
48 17826 1837 0.103051722204
49 17407 1807 0.103808812547
50 17035 1781 0.104549457


[Max: 詞條左右出現各種不同的可能(|R|)中, 其中次數最多的是多少次] 一般化: 將 Max / fx, fx 是該詞條的總數
Candidate Terms 左右 Max/fx 的變化對應 與佛光大辭典交集詞條的變化圖表.
** 所有的斷句處 Max 值均不累計, 斷句處的 Max 值永遠為 1, 借以降低關聯性資訊.
Y : 交集佛光大辭典的詞條的Max/fx / Candidate Terms 的 Max/fx
X : Max/fx 數量的變化, 間隔 0.1

[圖 5] 詞條左側 Max/fx 值對應佛光大辭典交集數量的變化


[圖 6] 詞條右側 Max/fx 值對應佛光大辭典交集數量的變化

上圖 5 實際參數
X All Candidates^ Mullers Y
0.0 1197484 9535 0.00796252810058
0.5 685711 2006 0.00292543068436
0.2 1075864 5753 0.00534733014582
0.4 730502 2488 0.00340587705441
0.8 28687 152 0.00529856729529
0.6 150177 629 0.00418839103192
0.3 919234 3795 0.00412843737286
0.1 1169972 8258 0.00705828857443
0.9 6765 52 0.00768662232077
0.7 57084 297 0.00520285894471
上圖 6 實際參數
X All Candidates^ Mullers Y
0.0 1197484 9535 0.00796252810058
0.5 595407 1457 0.00244706562066
0.2 1039213 5050 0.00485944652347
0.4 630994 1769 0.00280351318713
0.8 16187 72 0.00444801383827
0.6 80300 275 0.00342465753425
0.3 850886 2985 0.00350810801917
0.1 1157506 7838 0.00677145518036
0.9 3877 15 0.00386897085375
0.7 32412 142 0.00438109342219


[Algorism AEc]
AEc = fx / fy + fz - fx
Ex:
string: 中華佛學研究所
fx = No. of 中華佛學研究所
fy = No. of 中華佛學研究
fz = No. of  華佛學研究所

以 0.01 為間隔, 取一百段的 AEc 值(0.01~1.0)
計算候選詞條中的 AEc 值 >= 上述區段時, 與佛光大辭典比對的交集結果



上圖實際參數
X All Candidates^ Mullers Y
0.0 1197484 9535 0.00796252810058
0.25 286849 2451 0.00854456525907
0.5 207483 1979 0.00953813083482
0.1 393202 2985 0.00759151784579
0.64 170041 1733 0.0101916596586
0.19 314088 2615 0.00832569216271
0.12 369103 2890 0.00782979276787
0.98 118501 1037 0.00875098100438
0.75 138731 1524 0.0109852880755
0.15 343583 2756 0.00802135146384
0.06 454704 3291 0.00723767549879
0.52 183494 1905 0.0103818108494
0.67 141710 1619 0.0114247406676
0.24 287667 2468 0.00857936433446
0.94 119227 1118 0.00937707062997
0.53 183100 1892 0.0103331512835
0.21 302910 2554 0.00843154732429
0.89 120763 1225 0.0101438354463
0.23 291275 2487 0.00853832289074
0.4 231407 2130 0.00920456165976
0.8 129435 1427 0.0110248387221
0.55 182004 1871 0.0102799938463
0.65 169751 1718 0.0101207062109
0.39 231684 2143 0.00924966765077
0.71 140626 1575 0.0111999203561
0.96 118796 1073 0.00903229064952
0.38 232777 2158 0.00927067536741
0.76 130495 1479 0.0113337675773
0.28 270662 2363 0.00873044609144
0.43 212027 2054 0.00968744546685
0.36 238029 2193 0.00921316310197
0.41 217216 2095 0.00964477754862
0.59 178011 1818 0.0102128520148
0.68 141640 1615 0.0114021462864
0.83 125359 1368 0.0109126588438
0.07 434732 3205 0.00737235814249
0.57 180640 1853 0.0102579716563
0.09 404711 3047 0.00752882921393
0.01 706263 4474 0.00633475065238
0.42 216202 2073 0.00958825542779
0.85 123281 1312 0.0106423536474
0.6 177914 1809 0.0101678338973
0.2 312338 2586 0.0082794920887
0.56 180902 1857 0.0102652264762
0.61 171958 1776 0.0103281033741
0.51 183658 1910 0.0103997647802
0.77 130212 1460 0.0112124842564
0.62 171635 1765 0.0102834503452
0.99 118428 1019 0.00860438409836
0.81 125857 1393 0.0110681169899
0.11 380724 2932 0.00770111681953
0.49 207526 1979 0.00953615450594
0.72 139381 1555 0.0111564703941
0.97 118611 1058 0.00891991467908
0.92 119792 1166 0.00973353813276
0.13 360190 2838 0.00787917487992
0.04 507062 3538 0.00697745048929
0.69 141394 1603 0.0113371147291
0.95 118996 1094 0.00919358633904
0.22 299315 2525 0.00843592870387
0.54 182572 1884 0.0103192165283
0.45 209836 2024 0.00964562801426
0.26 275814 2403 0.0087123931345
0.17 326291 2684 0.00822578618472
0.66 169586 1706 0.0100597926716
0.44 211610 2041 0.00964510183829
0.91 120031 1181 0.00983912489274
0.82 125491 1376 0.0109649297559
0.46 208927 2008 0.0096110124589
0.08 419536 3128 0.00745585599329
0.02 603341 3963 0.00656842482112
0.63 170497 1746 0.0102406493956
0.78 129668 1439 0.0110975722615
0.34 239751 2228 0.00929297479468
0.87 122009 1262 0.0103434992501
0.74 138793 1531 0.0110308156751
0.3 260140 2328 0.00894902744676
0.47 208179 1996 0.00958790271833
0.58 178494 1832 0.0102636503188
0.35 239260 2213 0.00924935216919
0.7 141164 1589 0.011256410983
0.33 254385 2270 0.00892348212355
0.03 545253 3724 0.00682985696548
0.14 351362 2793 0.00794906677444
0.93 119463 1139 0.00953433280597
0.31 256093 2299 0.00897720749884
0.84 123531 1331 0.0107746233739
0.18 322498 2645 0.00820160125024
0.27 273834 2385 0.00870965621508
0.16 334744 2717 0.00811665033578
0.48 207733 1987 0.00956516297362
0.29 261082 2343 0.0089741920163
0.86 122196 1279 0.010466791057
0.73 139009 1542 0.0110928069406
0.88 121339 1246 0.0102687511847
0.9 120664 1213 0.0100527083471
0.79 129497 1430 0.0110427268585
0.05 478224 3395 0.00709918364616
0.32 254874 2281 0.00894952015506
0.37 236338 2178 0.00921561492439