Versuch 5: Aufgabe 3
Erzeugen eines Sprachmodells:
Erzeugen Sie eine Datei, die für jedes Wort (Unigram) und jedes Wortpaar (Bigram) einen Eintrag enthält, aus dem seine Wahrscheinlichkeit hervorgeht. Die NIST Syntax für Language-Model-Files sieht wie folgt aus:
beliebige Kommentare \data\ \ngram 1=Anzahl der Unigramme \ngram 2=Anzahl der Bigramme \1-grams: log(p(wort)) wort 0.0 ... log(p(wort)) wort 0.0 \1-grams: log(p(wort2|wort1)) wort1 wort2 ... log(p(wort2|wort1)) wort2 wort1 \end\Zum Beispiel könnte ein Sprachmodell für die folgenden 3 Sätze:
<s> B C A </s> <s> A A B </s> <s> C A A </s>
\data\ ngram 1=3 ngram 2=9 \1-grams: -0.575117 <s> 0.0 -0.477990 A 0.0 -0.877236 B 0.0 -0.877236 C 0.0 \2-grams: -0.606424 <s> A -0.606424 <s> B -0.606424 <s> C -0.400116 A </s> -0.400116 A A -0.703333 A B -0.305394 B </s> -0.305394 B C -0.002177 C A \end\