Log on: Remember me
Powered by Elgg

das :: Activity :: Just Me

People: Everyone | Friends & Community | Inbox | Just Me
Display: Full-text | Summary
Include: Blog Posts | Blog Comments | Files | Wiki Page | Wiki Comments

<< Back

Page 3 of 9

Forward >>
030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.
        - `simple rules create realistic turn-taking patterns'
  SSJ rules as *generative* rules, not just descriptive. Shows
          that such a set of rules, together w/ some audio magic, are
          enough to produce patterns that are `natural' (in a way that
    needs to be defined properly). Again sort of upper-bound; to
          get something like this working properly within a real
          system, here's what we would need in terms of components.
          - to do first: b), d), e), g).
  - needed: more principled metric for `naturalness' of
            resulting corpus. Multi-dimensional: distribution of gaps
      & overlaps, balance btw speakers, turn length (in time,
      but also # of utterances).
    - `syntactic and prosodic language modelling for incremental
      utterance segmentation', für Coling
      utterance end pointing, but in an incremental set up. Needed to
      know where to clear the chart of the parser. Connected to a
      well-researched task (i.e., easy to motivate & compare), but
      different in that we don't allow (as much?) right context.
      - method:
      - select only multi-utterance turns; EOUs to find are the
          turn-internal ones.
        - use original data 
      - what's a good way to evaluate this? follow-on effects of wrong
        decisions: an insert for example makes us restart the parser,
        and hence get other things wrong?

030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.
        - `simple rules create realistic turn-taking patterns'
  SSJ rules as *generative* rules, not just descriptive. Shows
          that such a set of rules, together w/ some audio magic, are
          enough to produce patterns that are `natural' (in a way that
    needs to be defined properly). Again sort of upper-bound; to
          get something like this working properly within a real
          system, here's what we would need in terms of components.
          - to do first: b), d), e), g).
  - needed: more principled metric for `naturalness' of
            resulting corpus. Multi-dimensional: distribution of gaps
      & overlaps, balance btw speakers, turn length (in time,
      but also # of utterances).
    - `syntactic and prosodic language modelling for incremental
      utterance segmentation', für Coling
      utterance end pointing, but in an incremental set up. Needed to
      know where to clear the chart of the parser. Connected to a
      well-researched task (i.e., easy to motivate & compare), but
      different in that we don't allow (as much?) right context.
      - method:
      - select only multi-utterance turns; EOUs to find are the
          turn-internal ones.


        - use original data 
030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.
        - `simple rules create realistic turn-taking patterns'
  SSJ rules as *generative* rules, not just descriptive. Shows
          that such a set of rules, together w/ some audio magic, are
          enough to produce patterns that are `natural' (in a way that
    needs to be defined properly). Again sort of upper-bound; to
          get something like this working properly within a real
          system, here's what we would need in terms of components.
          - to do first: b), d), e), g).
  - needed: more principled metric for `naturalness' of
            resulting corpus. Multi-dimensional: distribution of gaps
      & overlaps, balance btw speakers, turn length (in time,
      but also # of utterances).
    - `syntactic and prosodic language modelling for incremental
      utterance segmentation', für Coling
      utterance end pointing, but in an incremental set up. Needed to
      know where to clear the chart of the parser. Connected to a
      well-researched task (i.e., easy to motivate & compare), but
      different in that we don't allow (as much?) right context.
      - method:
      - select only multi-utterance turns; EOUs to find are the
          turn-internal ones.

 
030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.
        - `simple rules create realistic turn-taking patterns'
  SSJ rules as *generative* rules, not just descriptive. Shows
          that such a set of rules, together w/ some audio magic, are
          enough to produce patterns that are `natural' (in a way that
    needs to be defined properly). Again sort of upper-bound; to
          get something like this working properly within a real
          system, here's what we would need in terms of components.
          - to do first: b), d), e), g).
  - needed: more principled metric for `naturalness' of
            resulting corpus. Multi-dimensional: distribution of gaps
      & overlaps, balance btw speakers, turn length (in time,
      but also # of utterances).
    - `syntactic and prosodic language modelling for incremental
      utterance segmentation', für Coling
      utterance end pointing, but in an incremental set up. Needed to
      know where to clear the chart of the parser. Connected to a
      well-researched task (i.e., easy to motivate & compare), but
      different in that we don't allow (as much?) right context.
      - method:
      - select only multi-utterance turns; EOUs to find are the
          turn-internal ones.

030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.
        - `simple rules create realistic turn-taking patterns'
  SSJ rules as *generative* rules, not just descriptive. Shows
          that such a set of rules, together w/ some audio magic, are
          enough to produce patterns that are `natural' (in a way that
    needs to be defined properly). Again sort of upper-bound; to
          get something like this working properly within a real
          system, here's what we would need in terms of components.
          - to do first: b), d), e), g).
  - needed: more principled metric for `naturalness' of
            resulting corpus. Multi-dimensional: distribution of gaps
      & overlaps, balance btw speakers, turn length (in time,
      but also # of utterances).

030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde
          das wohl niemand ernsthaft einsetzen.

030208cont
das | page | Mon Mar 03
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity

minutes030208b
das | page | Mon Mar 03
  - present: M, T, D
  - Nigh2, Fehleranalyse:
    - Diagramm sollte die Ratio `wait' / `take' plotten, als Funktion
      des Abstandes zu EOT bzw. zu EOU. Ersteres für alle Datenpunkte,
      letzteres nur für turn-interne EOUs (und damit also sind alle
      `take's false positives); technisch: für solche, wo dist_to_eou !=
      dist_to_eot.
      (Da sind wir beim letzten Treffen wohl durcheinander gekommen;
      in den Notes steht es richtig und falsch drin.)
    - was wir sehen wollen:
      - Anschwillen des Anteils von `take' in Richtung EOT hin; das
        kann uns dann sagen, wo ein guter Punkt ist, die Grenze für
        `take' zu setzen.
      - kleineres Anschwillen in Richtung EOU. Das sind dann alles
        false positives (weil ja diese EOUs so ausgewählt sind, dass
        sie keine EOTs sind), aber FPs um EOUs rum sind entschuldbarer
        als FPs mittendrin.
  - Nigh2, Variante von af:
    - Information über Position in Wort benutzen? Momentan ist es ja
      so, dass für die ersten 2/3 des Wortes die
      Wort-Identitätsbasierte Information nachhinkt. Möglicherweise
      verwirrt das den Klassifizierer. Einfacher, schneller Test: alle
      Frames mit `relative position in word' < .66 rauswerfen. Damit
      verbleiben nur Frames, die akustische und syntaktische Info des
      gleichen Wortes verbinden.
  - mid-term planning:
    - Nigh2 dann aber erstmal reifen lassen, als Wein bringenden
      Steinbruch betrachten. Will heißen: Arbeit daran hat uns
      geholfen, die Module auf den Weg zu bekommen & zu
      Datenmanipulationsexperten zu werden. Jetzt erstmal
      Anderes. Verbesserungen an Modulen (z.B. prosodische
      Modellierung, anderer Parser, andere Korpora) können dann bei
      Gelegenheit zurückfließen.
    - Das InProPento-System!
      Strategie: bis Juli (d.h., in 5 Monaten) Prototyp bauen! Dieser
      bietet dann den Rahmen, innerhalb dessen danach dann die
      schlaueren Sachen implementiert werden, damit wir 2009 dann mit
      vielen Erkenntnissen glänzen. Außerdem wird uns erst die
      Entwicklung verraten, wo genau die Schwierigkeiten bei der
      konsequent inkrementellen Verarbeitung sind.
    - dabei im Auge behalten:
      - bi-directional hypothesis chains
      - the dialogue management pandaemonium; emergent behaviour
        through independent sub-actors.
      Turn-Taking ist ("nur") unser Test case! Es geht um die Vorzüge
      (und Nachteile, möglicherweise) von inkrementeller
      Verarbeitung.
    - to do:
      - Spezifikationsdokument:
      - Domain, features, made-up example dialogues
- modules:
  - architecture
  - details
        to be updated as we learn more..

Home Page
das | page | Mon Mar 03

Besprechungsprotokolle / meeting minutes

(newest first)

03/02/07 minutes030208b

04/12/07 minutes041207

26/11/07 @Timo

19/11/07 minutes191107

13/11/07 minutes131107

05/11/07 minutes051107

22/10/07 minutes221007

01/10/07 minutes2007_10_01

10/09/07 minutes100907

23/08/07 minutes230807

03/07/07 minutes030707

19/06/07 minutes190607

05/06/07 minutes050607_zeitwort2

21/05/07 minutes210507

 

Sonstiges

 

Conferences2008

minutes030208
das | page | Mon Mar 03
  - present: M, T, D
  - Nigh2, Fehleranalyse:
     - Diagramm sollte die Ratio `wait' / `take' plotten, als Funktion
      des Abstandes zu EOT bzw. zu EOU. Ersteres für alle Datenpunkte,
      letzteres nur für turn-interne EOUs (und damit also sind alle
      `take's false positives); technisch: für solche, wo dist_to_eou !=
      dist_to_eot.
      (Da sind wir beim letzten Treffen wohl durcheinander gekommen;
      in den Notes steht es richtig und falsch drin.)
    - was wir sehen wollen:
      - Anschwillen des Anteils von `take' in Richtung EOT hin; das
        kann uns dann sagen, wo ein guter Punkt ist, die Grenze für
        `take' zu setzen.
      - kleineres Anschwillen in Richtung EOU. Das sind dann alles
        false positives (weil ja diese EOUs so ausgewählt sind, dass
        sie keine EOTs sind), aber FPs um EOUs rum sind entschuldbarer
        als FPs mittendrin.
  - Nigh2, Variante von af:
    - Information über Position in Wort benutzen? Momentan ist es ja
      so, dass für die ersten 2/3 des Wortes die
      Wort-Identitätsbasierte Information nachhinkt. Möglicherweise
      verwirrt das den Klassifizierer. Einfacher, schneller Test: alle
      Frames mit `relative position in word' < .66 rauswerfen. Damit
      verbleiben nur Frames, die akustische und syntaktische Info des
      gleichen Wortes verbinden.
  - mid-term planning:
    - Nigh2 dann aber erstmal reifen lassen, als Wein bringenden
      Steinbruch betrachten. Will heißen: Arbeit daran hat uns
      geholfen, die Module auf den Weg zu bekommen & zu
      Datenmanipulationsexperten zu werden. Jetzt erstmal
      Anderes. Verbesserungen an Modulen (z.B. prosodische
      Modellierung, anderer Parser, andere Korpora) können dann bei
      Gelegenheit zurückfließen.
    - Das InProPento-System!
      Strategie: bis Juli (d.h., in 5 Monaten) Prototyp bauen! Dieser
      bietet dann den Rahmen, innerhalb dessen danach dann die
      schlaueren Sachen implementiert werden, damit wir 2009 dann mit
      vielen Erkenntnissen glänzen. Außerdem wird uns erst die
      Entwicklung verraten, wo genau die Schwierigkeiten bei der
      konsequent inkrementellen Verarbeitung sind.
    - dabei im Auge behalten:
      - bi-directional hypothesis chains
      - the dialogue management pandaemonium; emergent behaviour
        through independent sub-actors.
      Turn-Taking ist ("nur") unser Test case! Es geht um die Vorzüge
      (und Nachteile, möglicherweise) von inkrementeller
      Verarbeitung.
    - to do:
      - Spezifikationsdokument:
      - Domain, features, made-up example dialogues
- modules:
  - architecture
  - details
        to be updated as we learn more..
  - kurzfristige Projekte:
    - bababa2, SIGdial Poster
      - TO DOs, unprioritisiert: a) Silbengrenzen, von
        Aussprachewörterbuch kommend; b) echtes Audio verwenden,
  Kielkorpus; c) ASR verwenden, Wörter, ngramme; d) bessere
  speech states, phrasengrenzen (f. BCs); e) besser
        TT-Strategien; f) simulation, constant time < (or >)
        real-time; g) bessere Evaluation; h) interruption management;
        i) BC management; j) Parametrisierung (chattiness,
interruption propability, etc.); k) adaptivity
      - mögliche Ansätze f. Paper:
      - in Richtung David T., `believable, non-scripted content-free
          background chatter'
  Nicht sehr überzeugend; um online erzeugt zu werden, doch
          ein wenig resourcenhungrig. Nur für Hintergrundgerede würde

<< Back

Page 3 of 9

Forward >>