TOP > 順辞郎 > 構文解析


構文解析から頻度リスト作成までの手順

簡単に説明するために、以下4個の英文だけを用います。

He took me by the hand.

He handed me the key.

Did he have money?

He did not have a lot of money, but he did have a lot of love.

パーサー(parser:構文解析プログラム)で上記英文を処理する。

《処理内容》

1. 変化形を原形に戻す。

2. "a lot of" などの基本的熟語を1語とみなす。(みなさないことも可能)

3. 各単語に品詞情報を付ける。


《処理結果》

he<代> take<動> me<代> by<前> the<定> hand<名>

he<代> hand<動> me<代> the<定> key<名>

do<動> he<代> have<動> money<名>

he<代> do<動> not<副> have<動> a_lot_of<形> money<名> but<接> he<代> do<動> have<動> a_lot_of<形> love<名>


「単語+品詞」をキーとして集計し、頻度をキーにして降順ソートする。

単語 品詞 頻度
he 5
do 3
have 3
a_lot_of 2
me 2
money 2
the 2
but 1
by 1
hand 1
hand 1
key 1
love 1
not 1
take 1

順位を付ける。(頻度が同じなら、順位は同じ)

順位 単語 品詞 頻度
1 he 5
2 do 3
2 have 3
4 a_lot_of 2
4 me 2
4 money 2
4 the 2
8 but 1
8 by 1
8 hand 1
8 hand 1
8 key 1
8 love 1
8 not 1
8 take 1

品詞情報を除去して、単語ごとに集計する。(handの頻度は、1+1=2 になる)

順位 単語 頻度
1 he 5
2 do 3
2 have 3
4 a_lot_of 2
4 hand 2
4 me 2
4 money 2
4 the 2
9 but 1
9 by 1
9 key 1
9 love 1
9 not 1
9 take 1

上記方法にて、語コーパス(1億8417万語)を処理すると、以下の口語頻度リストを作りだすことができます。

順位

単語

品詞

頻度

1 be 10,472,701
2 you 6,449,544
3 I 6,262,167
4 the 5,830,875
5 to 4,535,231
6 a 3,541,387
7 it 3,268,246
8 not 3,095,364
9 and 3,078,084
10 do 3,054,088
11 that 2,775,180
12 have 2,338,004

(中略)

88,131
(最終)
rongeur
sewin
serous
shanti



10
10
10
10

上記方法にて、すべての語コーパス(5億2315万語)を処理すると、以下の文語頻度リストを作りだすことができます。

順位 単語 品詞 頻度
1 the 31,711,942
2 be 19,002,491
3 of 14,280,484
4 and 13,583,089
5 to 13,279,684
6 a 11,608,071
7 in 10,070,093
8 have 6,005,598
9 that 5,709,325
10 for 5,027,641
11 it 4,024,984
(中略)
252,785
(最終)
wimpiness
widdershins
yellowwood
Yorkish



10
10
10
10

1. 語頻度リストと語頻度リストをマージ(結合)して、
2. 品詞情報を除去して、
3. 単語ごとに頻度を集計し、
4. その頻度をキーにして、降順ソートを行う。

総合頻度リスト

順位 単語 頻度
1 the 37,542,817
2 be 29,475,192
3 to 17,814,915
4 and 16,661,173
5 of 16,239,976
6 a 15,149,458
7 in 11,892,667
8 I 8,960,833
9 you 8,845,425
10 that 8,484,505
11 have 8,343,602
12 it 7,293,230
13 for 6,415,933
14 not 6,300,062
15 do 5,273,575
16 on 4,764,869
17 with 4,677,971
18 he 4,270,984
19 this 4,102,635
20 say 3,394,130
  (中略)  
995 request 80,870
996 Saturday 80,839
997 fill 80,822
998 award 80,820
999 cash 80,804
1,000 particularly 80,428
1,001 hundred 80,330
1,002 ability 80,222
  (中略)  
2,993 uh-huh 20,896
2,994 rapid 20,867
2,995 apparent 20,864
2,996 academic 20,855
2,997 efficient 20,845
2,998 athlete 20,825
2,999 registration 20,817
3,000 impressive 20,806
  (中略)  
4,000 happiness 13,849
  (中略)  
5,000 allocate 9,880
  (中略)  
6,005 rehabilitation 7,374
  (中略)  
7,995 affirmative 4,585
  (中略)  
8,001 extensively 4,582
  (中略)  
9,986 Beethoven 3,259
  (中略)  
10,002 glaze 3,250
  (中略)  
15,003 presumption 1,664
  (中略)  
20,011 reconnect 1,024
  (中略)  
24,988 undulate 690
  (中略)  
30,001 unknowingly 498
  (中略)  
40,015 interventional 294
  (中略)  
50,016 foretaste 193
  (中略)  
60,054 emotionalism 137
  (中略)  
65,119 bedazzle 117
  (中略)  
67,530 commutator 110
  (中略)  
70,015 straight-backed 102
  (中略)  
75,054 virilization 90
  (中略)  
80,045 stridency 80
  (中略)  
90,005 temperature-sensitive 64
  (中略)  
100,001 trifluoride 53
  (中略)  
126,736 calcination 34
  (中略)  
200,276 miniboom 15
  (中略)  
212,218 disneyfication 14
  (中略)  
227,110 multiplet 13
  (中略)  
239,729 solidarism 12
  (中略)  
250,419 depolymerizing 11
  (中略)  
253,473 zabaione 10
  (中略)  
270,148 assisted-reproduction 10
(以下省略)