das :: Activity :: Just Me | People: | Everyone | Friends & Community | Inbox | Just Me |
| Display: | Full-text | Summary |
| Include: | Blog Posts | Blog Comments | Files | Wiki Page | Wiki Comments |
| << Back | Page 3 of 9 | Forward >> |
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. - `simple rules create realistic turn-taking patterns' SSJ rules as *generative* rules, not just descriptive. Shows that such a set of rules, together w/ some audio magic, are enough to produce patterns that are `natural' (in a way that needs to be defined properly). Again sort of upper-bound; to get something like this working properly within a real system, here's what we would need in terms of components. - to do first: b), d), e), g). - needed: more principled metric for `naturalness' of resulting corpus. Multi-dimensional: distribution of gaps & overlaps, balance btw speakers, turn length (in time, but also # of utterances). - `syntactic and prosodic language modelling for incremental utterance segmentation', für Coling utterance end pointing, but in an incremental set up. Needed to know where to clear the chart of the parser. Connected to a well-researched task (i.e., easy to motivate & compare), but different in that we don't allow (as much?) right context. - method: - select only multi-utterance turns; EOUs to find are the turn-internal ones. - use original data - what's a good way to evaluate this? follow-on effects of wrong decisions: an insert for example makes us restart the parser, and hence get other things wrong? |
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. - `simple rules create realistic turn-taking patterns' SSJ rules as *generative* rules, not just descriptive. Shows that such a set of rules, together w/ some audio magic, are enough to produce patterns that are `natural' (in a way that needs to be defined properly). Again sort of upper-bound; to get something like this working properly within a real system, here's what we would need in terms of components. - to do first: b), d), e), g). - needed: more principled metric for `naturalness' of resulting corpus. Multi-dimensional: distribution of gaps & overlaps, balance btw speakers, turn length (in time, but also # of utterances). - `syntactic and prosodic language modelling for incremental utterance segmentation', für Coling utterance end pointing, but in an incremental set up. Needed to know where to clear the chart of the parser. Connected to a well-researched task (i.e., easy to motivate & compare), but different in that we don't allow (as much?) right context. - method: - select only multi-utterance turns; EOUs to find are the turn-internal ones. - use original data
|
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. - `simple rules create realistic turn-taking patterns' SSJ rules as *generative* rules, not just descriptive. Shows that such a set of rules, together w/ some audio magic, are enough to produce patterns that are `natural' (in a way that needs to be defined properly). Again sort of upper-bound; to get something like this working properly within a real system, here's what we would need in terms of components. - to do first: b), d), e), g). - needed: more principled metric for `naturalness' of resulting corpus. Multi-dimensional: distribution of gaps & overlaps, balance btw speakers, turn length (in time, but also # of utterances). - `syntactic and prosodic language modelling for incremental utterance segmentation', für Coling utterance end pointing, but in an incremental set up. Needed to know where to clear the chart of the parser. Connected to a well-researched task (i.e., easy to motivate & compare), but different in that we don't allow (as much?) right context. - method: - select only multi-utterance turns; EOUs to find are the turn-internal ones. |
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. - `simple rules create realistic turn-taking patterns' SSJ rules as *generative* rules, not just descriptive. Shows that such a set of rules, together w/ some audio magic, are enough to produce patterns that are `natural' (in a way that needs to be defined properly). Again sort of upper-bound; to get something like this working properly within a real system, here's what we would need in terms of components. - to do first: b), d), e), g). - needed: more principled metric for `naturalness' of resulting corpus. Multi-dimensional: distribution of gaps & overlaps, balance btw speakers, turn length (in time, but also # of utterances). - `syntactic and prosodic language modelling for incremental utterance segmentation', für Coling utterance end pointing, but in an incremental set up. Needed to know where to clear the chart of the parser. Connected to a well-researched task (i.e., easy to motivate & compare), but different in that we don't allow (as much?) right context. - method: - select only multi-utterance turns; EOUs to find are the turn-internal ones. |
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. - `simple rules create realistic turn-taking patterns' SSJ rules as *generative* rules, not just descriptive. Shows that such a set of rules, together w/ some audio magic, are enough to produce patterns that are `natural' (in a way that needs to be defined properly). Again sort of upper-bound; to get something like this working properly within a real system, here's what we would need in terms of components. - to do first: b), d), e), g). - needed: more principled metric for `naturalness' of resulting corpus. Multi-dimensional: distribution of gaps & overlaps, balance btw speakers, turn length (in time, but also # of utterances). |
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde das wohl niemand ernsthaft einsetzen. |
|
|
|
030208cont das | page | Mon Mar 03 - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity |
|
|
|
minutes030208b das | page | Mon Mar 03 - present: M, T, D - Nigh2, Fehleranalyse: - Diagramm sollte die Ratio `wait' / `take' plotten, als Funktion des Abstandes zu EOT bzw. zu EOU. Ersteres für alle Datenpunkte, letzteres nur für turn-interne EOUs (und damit also sind alle `take's false positives); technisch: für solche, wo dist_to_eou != dist_to_eot. (Da sind wir beim letzten Treffen wohl durcheinander gekommen; in den Notes steht es richtig und falsch drin.) - was wir sehen wollen: - Anschwillen des Anteils von `take' in Richtung EOT hin; das kann uns dann sagen, wo ein guter Punkt ist, die Grenze für `take' zu setzen. - kleineres Anschwillen in Richtung EOU. Das sind dann alles false positives (weil ja diese EOUs so ausgewählt sind, dass sie keine EOTs sind), aber FPs um EOUs rum sind entschuldbarer als FPs mittendrin. - Nigh2, Variante von af: - Information über Position in Wort benutzen? Momentan ist es ja so, dass für die ersten 2/3 des Wortes die Wort-Identitätsbasierte Information nachhinkt. Möglicherweise verwirrt das den Klassifizierer. Einfacher, schneller Test: alle Frames mit `relative position in word' < .66 rauswerfen. Damit verbleiben nur Frames, die akustische und syntaktische Info des gleichen Wortes verbinden. - mid-term planning: - Nigh2 dann aber erstmal reifen lassen, als Wein bringenden Steinbruch betrachten. Will heißen: Arbeit daran hat uns geholfen, die Module auf den Weg zu bekommen & zu Datenmanipulationsexperten zu werden. Jetzt erstmal Anderes. Verbesserungen an Modulen (z.B. prosodische Modellierung, anderer Parser, andere Korpora) können dann bei Gelegenheit zurückfließen. - Das InProPento-System! Strategie: bis Juli (d.h., in 5 Monaten) Prototyp bauen! Dieser bietet dann den Rahmen, innerhalb dessen danach dann die schlaueren Sachen implementiert werden, damit wir 2009 dann mit vielen Erkenntnissen glänzen. Außerdem wird uns erst die Entwicklung verraten, wo genau die Schwierigkeiten bei der konsequent inkrementellen Verarbeitung sind. - dabei im Auge behalten: - bi-directional hypothesis chains - the dialogue management pandaemonium; emergent behaviour through independent sub-actors. Turn-Taking ist ("nur") unser Test case! Es geht um die Vorzüge (und Nachteile, möglicherweise) von inkrementeller Verarbeitung. - to do: - Spezifikationsdokument: - Domain, features, made-up example dialogues - modules: - architecture - details to be updated as we learn more.. |
|
|
|
Home Page das | page | Mon Mar 03 Besprechungsprotokolle / meeting minutes (newest first) 03/02/07 minutes030208b 04/12/07 minutes041207 26/11/07 @Timo 19/11/07 minutes191107 13/11/07 minutes131107 05/11/07 minutes051107 22/10/07 minutes221007 01/10/07 minutes2007_10_01 10/09/07 minutes100907 23/08/07 minutes230807 03/07/07 minutes030707 19/06/07 minutes190607 05/06/07 minutes050607_zeitwort2 21/05/07 minutes210507
Sonstiges
|
|
|
|
minutes030208 das | page | Mon Mar 03 - present: M, T, D - Nigh2, Fehleranalyse: - Diagramm sollte die Ratio `wait' / `take' plotten, als Funktion des Abstandes zu EOT bzw. zu EOU. Ersteres für alle Datenpunkte, letzteres nur für turn-interne EOUs (und damit also sind alle `take's false positives); technisch: für solche, wo dist_to_eou != dist_to_eot. (Da sind wir beim letzten Treffen wohl durcheinander gekommen; in den Notes steht es richtig und falsch drin.) - was wir sehen wollen: - Anschwillen des Anteils von `take' in Richtung EOT hin; das kann uns dann sagen, wo ein guter Punkt ist, die Grenze für `take' zu setzen. - kleineres Anschwillen in Richtung EOU. Das sind dann alles false positives (weil ja diese EOUs so ausgewählt sind, dass sie keine EOTs sind), aber FPs um EOUs rum sind entschuldbarer als FPs mittendrin. - Nigh2, Variante von af: - Information über Position in Wort benutzen? Momentan ist es ja so, dass für die ersten 2/3 des Wortes die Wort-Identitätsbasierte Information nachhinkt. Möglicherweise verwirrt das den Klassifizierer. Einfacher, schneller Test: alle Frames mit `relative position in word' < .66 rauswerfen. Damit verbleiben nur Frames, die akustische und syntaktische Info des gleichen Wortes verbinden. - mid-term planning: - Nigh2 dann aber erstmal reifen lassen, als Wein bringenden Steinbruch betrachten. Will heißen: Arbeit daran hat uns geholfen, die Module auf den Weg zu bekommen & zu Datenmanipulationsexperten zu werden. Jetzt erstmal Anderes. Verbesserungen an Modulen (z.B. prosodische Modellierung, anderer Parser, andere Korpora) können dann bei Gelegenheit zurückfließen. - Das InProPento-System! Strategie: bis Juli (d.h., in 5 Monaten) Prototyp bauen! Dieser bietet dann den Rahmen, innerhalb dessen danach dann die schlaueren Sachen implementiert werden, damit wir 2009 dann mit vielen Erkenntnissen glänzen. Außerdem wird uns erst die Entwicklung verraten, wo genau die Schwierigkeiten bei der konsequent inkrementellen Verarbeitung sind. - dabei im Auge behalten: - bi-directional hypothesis chains - the dialogue management pandaemonium; emergent behaviour through independent sub-actors. Turn-Taking ist ("nur") unser Test case! Es geht um die Vorzüge (und Nachteile, möglicherweise) von inkrementeller Verarbeitung. - to do: - Spezifikationsdokument: - Domain, features, made-up example dialogues - modules: - architecture - details to be updated as we learn more.. - kurzfristige Projekte: - bababa2, SIGdial Poster - TO DOs, unprioritisiert: a) Silbengrenzen, von Aussprachewörterbuch kommend; b) echtes Audio verwenden, Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere speech states, phrasengrenzen (f. BCs); e) besser TT-Strategien; f) simulation, constant time < (or >) real-time; g) bessere Evaluation; h) interruption management; i) BC management; j) Parametrisierung (chattiness, interruption propability, etc.); k) adaptivity - mögliche Ansätze f. Paper: - in Richtung David T., `believable, non-scripted content-free background chatter' Nicht sehr überzeugend; um online erzeugt zu werden, doch ein wenig resourcenhungrig. Nur für Hintergrundgerede würde |
| << Back | Page 3 of 9 | Forward >> |