Versuch 9: Lösungen
Aufgabe 9.1a:
Berechnen Sie die gewichtete Entropiedistanz der Verteilungen ds1 und ds3 zu Fuß.
Die normierte Entropiedistanz ergibt sich zu 0,128424492. Der detailierte Rechenweg findet sich hier
Um jetzt die Berechnung mir Janus zu verifizieren, legt man, wie in der Aufgabe beschrieben, die Objekte an:
% [CodebookSet cbs [FeatureSet fs]] add cb dummy 2 1 NO
% DistribSet dss cbs% dss add ds1 cb
% dss add ds2 cb
% dss add ds3 cb
% dss:ds1 configure -val {0.3 0.7} -count 2
% dss:ds2 configure -val {0.4 0.6} -count 3
% dss:ds3 configure -val {0.8 0.2} -count 3
% ModelArray Arr1 dss
Arr1
% Arr1 add ds1 1
% ModelArray Arr3 dss
Arr3
% Arr3 add ds3 1
% ModelArray d dss
d
Per default berechnet das DistributionSet keine normierte Entropiedistanz sondern verwendet die absoluten counts.
% dss configure -normDistance
0
Also müssen wir es umkonfigurieren und können dann die Distanz berechnen:
% dss configure -normDistance 1
% dss dist Arr3 Arr1 d
1.284245e-01
Das Ergebnis stimmt mit der Handrechnung überein.
Aufgabe 9.1b:
Wir berechnen die Entropiedistanzen der einzelnen, möglichen Aufspaltungen mit janus:
% ModelArray Arr2 dss% Arr2 add ds2 1
% ModelArray Arr12 dss
Arr12
% Arr12 add ds1 1
% Arr12 add ds2 1
% ModelArray Arr13 dss
Arr13
% Arr13 add ds1 1
% Arr13 add ds3 1
% ModelArray Arr23 dss
% Arr23 add ds2 1
% Arr23 add ds3 1
% dss dist Arr12 Arr3 d
7.668751e-01
% dss dist Arr13 Arr2 d
1.510800e-01
% dss dist Arr23 Arr1 d
2.753747e-01
Daraus folgt, dass die Zusammenlegung von 1 und 3 am besten funktioniert.
Aufgabe 9.2b:
Je höher der mincount Wert desto kleiner die Zahl der Modelle.stueker@ira.uka.de