Versuch 9: Ballung kontextabhänger Modelle

Das letzte Mal haben wir einen kontextabhängigen Erkenner gebaut. Diesmal wird der Vorgang der Kontextballung behandelt. Kontextballung ist nötig, weil bei 'echten' Erkennern meist sehr viele verschiedene Kontexte im zu erkennenden Vokabular verwendet werden.

 

Entropie-Distanzmaß

Aufgabe 9.1: Fahren Sie einen nackten Janus hoch und erzeugen Sie ein FeatureSet, CodebookSet und DistribSet:
[CodebookSet cbs [FeatureSet fs]] add cb dummy 2 1 NO 
DistribSet dss cbs ; dss add ds1 cb ; dss add ds2 cb ; dss add ds3 cb 
Sie können nun einzelne Verteilungen im DistribSet so definieren:
dss:ds1 configure -val {0.3 0.7} -count 2 
dss:ds2 configure -val {0.4 0.6} -count 3 
dss:ds3 configure -val {0.8 0.2} -count 3 
Die Werte des Arguments -val sind die Verteilung an sich, und der Wert von -count gibt an wieviele Trainingsdaten eine Verteilung hat.

Aufgabe 9.1 a): Berechnen Sie die gewichtete Entropiedistanz der Verteilungen ds1 und ds3 zu Fuß.

Aufgabe 9.1 b): Die beste Aufteilung ergibt die Zusammenlegung von

Aufgabe 9.1 c): Fahren Sie den Erkenner, den sie letztes Mal in step11 trainiert haben, hoch und stellen sie Fest, ob das Modell IE(D<WB>|A)-m dem Modell IE<WB>(D<WB>|A<WB>)-m oder dem Modell IE(B<WB>|A)-m ähnlicher ist.

 

Ballung

Schauen Sie sich die Erklärung von Schritt 12 des Tutoriums an.

Aufgabe 9.2 a) Fahren Sie im Verzeichnis step12 einen Janus hoch und führen Sie den Ballungsvorgang wie im Tutorium beschrieben durch.

Aufgabe 9.2 b) Was passiert mit der Anzahl der resultierenden Modelle, wenn sie die -minCount Konfiguration des DistribSet ändern?

Aufgabe 9.2 c) Wieviele Fragen im Ballungsbaum werden zu linken und wieviele zu rechten Kontexten gestellt, wie sieht das aus getrennt nach Knoten aus den -b und -e Unterbäen?

Hand-In

Schicken Sie bis zum Abgabetermin die die Antworten auf die Fragen aus Aufgabe 9.1 a), 9.2 b) und 9.2 c) und das Skript das sie zum Lösen der Aufgabe 9.1 b) verwendet haben an Sebastian Stüker.