Gestern stand ich noch wie der Ochs vorm Code-Berg: Der Sphinx-Demo WavFile konnte ich zwar problemlos einen ResultListener hinzufügen, aber der hat einfach keine Zwischenergebnisse ausgespuckt.
Heute dann der allererste Erfolg: Die Konfiguration der Demo lässt den Decoder die gesamte Audiodatei auf einmal konsumieren, erzeugt also keine Zwischenergebnisse. Lösung: In config.xml die Variable featureBlockSize auf die gewünschte Anzahl auf einmal zu dekodierender Frames stellen:
<component name="digitsDecoder" type="edu.cmu.sphinx.decoder.Decoder">
<property name="searchManager" value="searchManager"/>
<property name="featureBlockSize" value="1 "/>
</component>
Schon gibt es beliebig viele Zwischenergebnisse.
Ich möchte ja als erstes untersuchen, ab einer wie großen Latenz die Zwischenergebnisse der Erkennung verwertbar sind. Meine aktuelle Planung dazu steht im Wiki auf LatenzCheck.
Einen guten Überblick über Sphinx bietet übrigens: http://research.sun.com/techrep/2004/smli_tr-2004-139.pdf
Keywords: Literatur, Sphinx

Comments
Klingt ja schon mal sehr gut!
Zur Planung [kann man eigentlich auch Wiki-Seiten kommentieren?]
- Leistungsmaße: vielleicht wäre auch Dauer in Worten relevant? Z.B., ab wieviel Wörter seit Beginn der Äußerung / bis Ende der Äußerung wird es stabil?
- was bedeutet "stabil"? Gute Frage. Vielleicht `relativ zur besten Hypothese / zu den n-besten Hypothesen, die für die gesamte Äußerung geliefert wird / werden'? Denn richtig relativ zum Gold-Standard werden die eh nicht häufig sein...
- zum Korpus: auf Anhieb fällt mir da nur das Switchboard Korpus ein. Das ist Wort-aligniert. Allerdings ist das spontane, nicht domänenspezifische Sprache. Aussagekräftiger wäre vielleicht, Testsätze (auf?)zu nehmen, die innerhalb der verwendeten Grammatik liegen.
[ Ah. Man kann Kommentare nicht mehr editieren? ]
Noch vergessen: das Switchboard-Korpus habe ich, werde ich bald dann mal auf helios legen.
klar kann man das Wiki editieren, jedenfalls wenn ich dran denke, die Access-Restrictions richtig zu setzen :-)
David, ich hab Deine Kommentare versucht einzubauen.