Term Extracting steps

[R: 字串左右出現不同字的種類數]
Candidate Terms: R>1 [STRING] R>1 (左右 R 值均大於 1 的字串數): 15,694,556
        (某詞條的前一個字或後一個字出現過句號或任兩種以上的字)
佛光大辭典詞條數: 24,448 (將缺字的詞條去除後的數量)
Candidate Terms 與 佛光辭典交集詞條數: 16,884

Candidate Terms 左右 |R| 的變化對應 與佛光大辭典交集詞條的變化圖表.
** 並非將所有斷句處當做一種狀況, 遇到斷句處, R值+1, 借以提高斷句資訊的強度.
Y : (Candidate Terms |R| >= n 的詞條) 交集 佛光大辭典的詞條數 / Candidate Terms |R| >= n 的詞條數
X : n (|R|數量的變化, 僅取 n > 2 and n < 50)

[圖 1] 詞條左側 |R| 值對應佛光大辭典交集數量的變化


[圖 2] 詞條右側 |R| 值對應佛光大辭典交集數量的變化

上圖 1 實際參數
X All Candidates^ Mullers Y
2 15694556 16884 0.00107578704361
3 8125045 15953 0.00196343527944
4 5393291 15238 0.00282536210266
5 3991221 14657 0.00367230980194
6 3153231 14166 0.00449253480002
7 2593714 13739 0.00529703737575
8 2198344 13364 0.006079121375
9 1902620 13004 0.00683478571654
10 1674130 12674 0.00757049930412
11 1491126 12366 0.00829306175333
12 1343233 12092 0.0090021612036
13 1220193 11866 0.00972469109395
14 1117493 11641 0.0104170674895
15 1030163 11438 0.0111030972768
16 954127 11243 0.0117835466348
17 888202 11049 0.0124397378074
18 830433 10837 0.0130498185886
19 778822 10642 0.0136642262288
20 732454 10475 0.0143012393952
21 691567 10311 0.0149096183016
22 654402 10161 0.0155271530344
23 621024 10016 0.0161282011645
24 590506 9905 0.0167737499704
25 562955 9775 0.0173637324475
26 537414 9637 0.017932171473
27 514248 9498 0.0184696877771
28 492691 9378 0.0190342425577
29 473110 9279 0.0196127750417
30 454557 9154 0.0201382884875
31 437376 9054 0.0207007243196
32 421344 8954 0.0212510442774
33 406424 8853 0.0217826703147
34 392352 8756 0.0223166952125
35 379153 8646 0.0228034592895
36 366819 8562 0.0233412118783
37 355087 8478 0.0238758388789
38 344134 8387 0.024371320474
39 333895 8311 0.0248910585663
40 324165 8239 0.0254160689772
41 314856 8157 0.0259070813324
42 306148 8090 0.026425127716
43 297754 8024 0.0269484205082
44 289635 7944 0.0274276244238
45 282206 7888 0.0279512129437
46 275107 7819 0.0284216686598
47 268292 7760 0.0289237099876
48 261849 7714 0.0294597267891
49 255606 7632 0.0298584540269
50 249621 7563 0.0302979316644
上圖 2 實際參數
X All Candidates^ Mullers Y
2 15694556 16884 0.00107578704361
3 8073953 16027 0.00198502517912
4 5357485 15351 0.00286533700048
5 3964243 14806 0.00373488708941
6 3133657 14336 0.00457484657702
7 2578505 13909 0.0053942109866
8 2187499 13539 0.00618925997223
9 1893831 13233 0.00698742390424
10 1666738 12920 0.0077516682286
11 1484532 12633 0.00850975256849
12 1337972 12367 0.00924309327848
13 1215753 12117 0.00996666263624
14 1113804 11899 0.0106832081767
15 1026653 11701 0.0113972296384
16 951401 11517 0.0121053057544
17 886268 11347 0.0128031250141
18 828970 11159 0.0134612832793
19 778328 11003 0.0141367135706
20 733166 10846 0.0147933755793
21 692465 10682 0.0154260504141
22 656505 10536 0.0160486211072
23 623491 10393 0.016669045744
24 593167 10249 0.0172784392928
25 565572 10139 0.0179269836555
26 540489 10027 0.0185517189064
27 517440 9910 0.0191519789734
28 496199 9814 0.0197783550551
29 476408 9718 0.0203984819734
30 458015 9614 0.0209905789112
31 440995 9529 0.0216079547387
32 425129 9435 0.0221932636917
33 410165 9345 0.0227835139517
34 396150 9252 0.0233547898523
35 383197 9150 0.0238780575005
36 370770 9065 0.0244491194002
37 359265 8984 0.0250066107191
38 348381 8911 0.0255783179909
39 338156 8837 0.0261329090716
40 328437 8759 0.026668737079
41 319128 8677 0.0271897169788
42 310470 8608 0.0277257061874
43 302195 8527 0.0282168798292
44 294233 8454 0.0287323311797
45 286726 8382 0.0292334842323
46 279713 8314 0.0297233235495
47 272851 8249 0.0302326178024
48 266278 8182 0.0307272850179
49 260060 8122 0.0312312543259
50 253980 8063 0.03174659422


[Max: 詞條左右出現各種不同的可能(|R|)中, 其中次數最多的是多少次] 一般化: 將 Max / fx, fx 是該詞條的總數
Candidate Terms 左右 Max/fx 的變化對應 與佛光大辭典交集詞條的變化圖表.
** 所有的斷句處 Max 值均不累計, 斷句處的 Max 值永遠為 1, 借以降低關聯性資訊.
Y : 交集佛光大辭典的詞條的Max/fx / Candidate Terms 的 Max/fx
X : Max/fx 數量的變化, 間隔 0.1

[圖 5] 詞條左側 Max/fx 值對應佛光大辭典交集數量的變化


[圖 6] 詞條右側 Max/fx 值對應佛光大辭典交集數量的變化

上圖 5 實際參數
X All Candidates^ Mullers Y
0.0 15694556 16884 0.00107578704361
0.5 9143365 2453 0.000268281972775
0.2 14112716 8006 0.000567289811543
0.4 9802212 3321 0.000338801078777
0.8 621625 315 0.000506736376433
0.6 2668583 1125 0.000421572047787
0.3 12146862 5106 0.000420355479465
0.1 15300426 12911 0.0008438327142
0.9 156229 99 0.000633685167286
0.7 1164062 600 0.000515436463006
上圖 6 實際參數
X All Candidates^ Mullers Y
0.0 15694556 16884 0.00107578704361
0.5 7386066 1774 0.000240181985918
0.2 13323857 6621 0.00049692817928
0.4 7892818 2453 0.000310788871605
0.8 315012 198 0.000628547483905
0.6 1290640 704 0.000545465815409
0.3 10738884 3946 0.000367449727551
0.1 15010443 11382 0.00075827209097
0.9 84571 65 0.000768584975937
0.7 587073 381 0.000648982324174


[Algorism AEc]
AEc = fx / fy + fz - fx
Ex:
string: 中華佛學研究所
fx = No. of 中華佛學研究所
fy = No. of 中華佛學研究
fz = No. of  華佛學研究所

以 0.01 為間隔, 取一百段的 AEc 值(0.01~1.0)
計算候選詞條中的 AEc 值 >= 上述區段時, 與佛光大辭典比對的交集結果



上圖實際參數
X All Candidates^ Mullers Y
0.0 15694556 16884 0.00107578704361
0.25 4377334 4079 0.000931845730758
0.5 3539964 3011 0.000850573621653
0.1 5496481 5260 0.000956975926961
0.64 3107079 2466 0.000793671483731
0.19 4664440 4427 0.000949095711382
0.12 5240389 5027 0.000959279931318
0.98 2397179 968 0.000403807975958
0.75 2755676 2102 0.000762789239374
0.15 4970380 4736 0.000952844651717
0.06 6169879 5911 0.000958041478609
0.52 3291933 2883 0.00087577724091
0.67 2808593 2330 0.000829596883564
0.24 4389010 4132 0.000941442375388
0.94 2416567 1236 0.000511469369564
0.53 3285394 2860 0.000870519639349
0.21 4547760 4310 0.000947719316763
0.89 2455414 1507 0.000613745787879
0.23 4430714 4190 0.00094567151028
0.4 3797100 3374 0.000888572858234
0.8 2619352 1899 0.000724988470431
0.55 3267869 2801 0.000857133501986
0.65 3101756 2435 0.000785039184256
0.39 3801549 3400 0.000894372267726
0.71 2789123 2227 0.000798458870405
0.96 2405128 1119 0.00046525590322
0.38 3816473 3453 0.000904762066966
0.76 2640821 2022 0.000765670978836
0.28 4210875 3906 0.000927598183275
0.43 3607168 3247 0.000900152141514
0.36 3876748 3525 0.000909267251831
0.41 3667666 3325 0.000906571099986
0.59 3210915 2645 0.000823752730919
0.68 2807040 2306 0.000821505927953
0.83 2549841 1764 0.000691807842136
0.07 5950969 5722 0.000961524081204
0.57 3247840 2726 0.000839327060446
0.09 5622558 5379 0.00095668199421
0.01 8909628 8339 0.00093595377944
0.42 3653245 3293 0.000901390407706
0.85 2510907 1689 0.000672665295847
0.6 3208715 2620 0.000816526241813
0.2 4640908 4360 0.000939471327594
0.56 3252572 2759 0.000848251783512
0.61 3137819 2566 0.000817765460659
0.51 3295141 2917 0.000885242846968
0.77 2635135 1990 0.000755179525907
0.62 3131445 2533 0.000808891741672
0.99 2394879 914 0.000381647674058
0.81 2560048 1835 0.000716783435311
0.11 5360765 5131 0.000957139512737
0.49 3541063 3036 0.00085736966555
0.72 2768216 2195 0.000792929453482
0.97 2400295 1035 0.000431196998702
0.92 2431312 1349 0.000554844462578
0.13 5144841 4942 0.000960573903061
0.04 6752092 6405 0.000948594894738
0.69 2802779 2280 0.000813478337036
0.95 2410831 1188 0.000492776142334
0.22 4506085 4246 0.000942281381732
0.54 3276953 2839 0.000866353591278
0.45 3578426 3184 0.00088977667835
0.26 4271636 4003 0.000937111682737
0.17 4791409 4593 0.000958590677607
0.66 3098603 2413 0.0007787380313
0.44 3600488 3217 0.000893489993579
0.91 2437728 1406 0.000576766562964
0.82 2552823 1802 0.000705885210216
0.46 3564444 3143 0.000881764449098
0.08 5784582 5551 0.000959619899934
0.02 7799192 7353 0.000942789971064
0.63 3114681 2495 0.000801045115054
0.78 2625134 1963 0.000747771351862
0.34 3901166 3604 0.000923826363708
0.87 2483807 1590 0.000640146355977
0.74 2756963 2119 0.000768599360963
0.3 4107864 3791 0.000922864048079
0.47 3553014 3101 0.000872780124142
0.58 3218576 2683 0.000833598460934
0.35 3893395 3565 0.000915653305149
0.7 2798521 2256 0.000806140100432
0.33 4038609 3666 0.000907738283156
0.03 7171973 6750 0.000941163610069
0.14 5052290 4835 0.000956991779965
0.93 2422780 1290 0.000532446198169
0.31 4062647 3744 0.000921566653465
0.84 2515957 1715 0.00068164916968
0.18 4746863 4514 0.000950943812788
0.27 4246275 3956 0.000931640084545
0.16 4878632 4668 0.000956825601931
0.48 3545451 3069 0.000865616250232
0.29 4121787 3833 0.000929936457173
0.86 2487899 1638 0.000658386855737
0.73 2761085 2157 0.000781214631205
0.88 2468473 1551 0.000628323664063
0.9 2453074 1473 0.000600471082405
0.79 2620778 1922 0.000733370014553
0.05 6431888 6137 0.00095415218673
0.32 4046193 3707 0.000916169841626
0.37 3855153 3486 0.000904244267348