Versuch 1: Lösungen

Frage 1.1: Was passiert, wenn Sie als Textfile (Eingabedatei) für das soeben erstellte Programm count.tcl die Datei ~/steps/data/dict verwenden? Es handelt sich hierbei übrigens um ein Aussprachewörterbuch.

 

Antwort: Es wird eine Phonemstatistik ausgegeben.

Ausgabe:

 

AA 75
AE 95
AH 65
AO 65
AW 21
AX 400
AXR 6
AY 68
B 79
CH 23
D 198
DH 16
DX 4
EH 140
ER 33
EY 99
F 81
G 45
HH 40
IH 235
IX 51
IY 152
JH 30
K 197
L 210
M 139
N 311
NG 56
OW 64
OY 4
P 110
R 313
S 240
SH 66
T 290
TH 22
UH 23
UW 53
V 64
W 48
Y 51
Z 160
ZH 6

Die Programme countPairs.tcl zum Zählen der Wortpaare und bigram.tcl zur Bestimmung der Bigrammwahrscheinlichkeiten sehen nur wenig anders aus.

  Frage 1.2: Wieviele Bigramme mit einer Wahrscheinlichkeit größer 0.5 gibt es in ~/steps/data/transcripts?

> janusA ~/tools/bigram.tcl ~/steps/data/transcripts     > bigram.out
> janusA ~/tools/bigram.tcl ~/steps/data/transcripts 0.5 > bigram0.5.out
> wc -l bigram*.out
      1509 bigram.out
       837 bigram0.5.out
      2346 total

Antwort: Der Text enthält 837 Bigramme mit einem Wert >= 0.5.
 (Der Text enthält 654 Bigramme mit einem Wert > 0.5.)