Corpus structure

The DIALOG corpus contains recordings and transcripts of discussion programs broadcast on Czech television stations. There are six corpora currently available: DIALOG 2.0, DIALOG 1.2, DIALOG 1.1,  DIALOG 1.0, DIALOG 0.3, DIALOG 0.2 and DIALOG 0.1m. They differ in size, program choice, and method of morphological annotation and lemmatization.

DIALOG 2.0
 
  • The corpus contains a total of 1 188 513 words (1 628 485 words and annotation symbols).
  • There are a total of 856 speakers, 305 of which uttered more than 1000 words.
  • Comprised of 200 transcripts and recordings as follows:
      • 41 shows 7 čili Sedm dní / Sedmička (Nova, 1997–2006),
      • 25 shows Na plovárně (Česká televize, 1999–2005),
      • 22 shows Krásný ztráty (Česká televize, 2000-2005),
      • 17 shows DVTV (Aktuálně.TV, 2014-2015),
      • 11 shows Uvolněte se, prosím (Česká televize, 2006–2010),
      • 10 shows Média (Česká televize, 2003–2006),
      • 10 shows Otázky Václava Moravce (Česká televize, 2004–2006),
      • 12 shows Nedělní partie (Prima, 1999-2006),
      • 6 shows Dvojhlas (Česká televize, 2003),
      • 4 shows Aréna (Česká televize, 1998-1999),
      • 4 shows Na hraně (Česká televize, 2003–2004),
      • 4 shows Katovna (Česká televize, 1999-2000),
      • 4 shows Ženský hlas (Česká televize, 2002),
      • 3 shows Čaj pro třetího (Česká televize, 2003),
      • 3 shows Naostro (Česká televize, 2001-2002),
      • 3 shows Vertikála (Česká televize, 2003-2004),
      • 2 shows Bez kravaty (TV3, 2002),
      • 2 shows Rendez-vous (Česká televize, 2009),
      • 2 pořad Rozhovory (Česká televize, 2001-2002),
      • 2 shows Všechnopárty (Česká televize, 2009-2010),
      • 2 shows V pravé poledne (Česká televize, 1999),
      • 1 show 21 (Jednadvacítka) (Česká televize, 1998),
      • 1 show Další, prosím (Prima, 2000),
      • 1 show Debata (Česká televize, 1997).
      • 1 show Milénium (Česká televize, 2009),
      • 1 show Noc s Andělem (Česká televize, 2007),
      • 1 show O cestě na Hrad a zase zpátky (Česká televize, 2003),
      • 1 show Profil Studia 6 (Česká televize, 2010),
      • 1 show Přísně veřejné (Česká televize, 1999),
      • 1 show Špona (Česká televize, 2003),
      • 1 show Z očí do očí (Česká televize, 2001). 
    Archive
     
    DIALOG 1.2
    • Comprised of 175 transcripts and recordings as follows:
      • 39 shows "7 čili Sedm dní / Sedmička" (Nova, 1997–2006),
      • 25 shows "Na plovárně" (Česká televize, 1999–2005),
      • 21 shows "Krásný ztráty" (Česká televize, 2000-2005),
      • 11 shows "Uvolněte se, prosím" (Česká televize, 2006–2010),
      • 10 shows "Média" (Česká televize, 2003–2006),
      • 10 shows "Otázky Václava Moravce" (Česká televize, 2004–2006),
      • 9 shows "Nedělní partie" (Prima, 1999-2006),
      • 6 shows "Dvojhlas" (Česká televize, 2003),
      • 4 shows "Aréna" (Česká televize, 1998-1999),
      • 4 shows "Na hraně" (Česká televize, 2003–2004),
      • 4 shows "Katovna" (Česká televize, 1999-2000),
      • 4 shows "Ženský hlas" (Česká televize, 2002),
      • 3 shows "Čaj pro třetího" (Česká televize, 2003),
      • 3 shows "Naostro" (Česká televize, 2001-2002),
      • 3 shows "Vertikála" (Česká televize, 2003-2004),
      • 2 shows "Bez kravaty" (TV3, 2002),
      • 2 shows "Rendez-vous" (Česká televize, 2009),
      • 2 shows "Všechnopárty" (Česká televize, 2009-2010),
      • 2 shows "V pravé poledne" (Česká televize, 1999),
      • 1 show "21 (Jednadvacítka)" (Česká televize, 1998),
      • 1 show "Další, prosím" (Prima, 2000),
      • 1 show "Debata" (Česká televize, 1997).
      • 1 show "Milénium" (Česká televize, 2009),
      • 1 show "Noc s Andělem" (Česká televize, 2007),
      • 1 show "O cestě na Hrad a zase zpátky" (Česká televize, 2003),
      • 1 show "Profil Studia 6" (Česká televize, 2010),
      • 1 show "Přísně veřejné" (Česká televize, 1999),
      • 1 show "Rozhovory" (Česká televize, 2002),
      • 1 show "Špona" (Česká televize, 2003),
      • 1 show "Z očí do očí" (Česká televize, 2001).
    • The corpus contains a total of 1 081 483 words (1 476 052 words and annotation symbols).
    • There are a total of 818 speakers, 282 of which uttered more than 1000 words.
     

    Archive

      
    DIALOG 1.1
    • Comprised of 150 recordings and transcripts as follows:  

      • 37 shows “7 čili Sedm dní / Sedmička” (Nova, 1997–2006),
      • 19 shows “Na plovárně” (Česká televize, 1999–2004),
      • 18 shows “Krásný ztráty” (Česká televize, 2000-2005),
      • 11 shows “Uvolněte se, prosím” (Česká televize, 2006–2010),
      • 10 shows “Otázky Václava Moravce” (Česká televize, 2004–2006),
      • 10 shows “Média” (Česká televize, 2003–2006),
      • 6 shows “Dvojhlas” (Česká televize, 2003),
      • 5 shows “Nedělní partie” (Prima, 1999-2006),
      • 4 shows “Ženský hlas” (Česká televize, 2002),
      • 3 shows “Katovna” (Česká televize, 1999-2000),
      • 3 shows “Na hraně” (Česká televize, 2003–2004),
      • 3 shows “Vertikála” (Česká televize, 2003-2004),
      • 3 shows “Čaj pro třetího” (Česká televize, 2003),
      • 2 shows “Bez kravaty” (TV3, 2002),
      • 2 shows “Rendez-vous” (Česká televize, 2009),
      • 2 shows “Všechnopárty” (Česká televize, 2009-2010),
      • 1 show “21 (Jednadvacítka)” (Česká televize, 1998),
      • 1 show “Aréna” (Česká televize, 1999),
      • 1 show “O cestě na Hrad a zase zpátky” (Česká televize, 2003),
      • 1 show “Z očí do očí” (Česká televize, 2001),
      • 1 show “Profil Studia 6” (Česká televize, 2010),
      • 1 show “Přísně veřejné” (Česká televize, 1999),
      • 1 show “Naostro” (Česká televize, 2001),
      • 1 show “Noc s Andělem” (Česká televize, 2007),
      • 1 show “Milénium” (Česká televize, 2009),
      • 1 show “Špona” (Česká televize, 2003),
      • 1 show “Rozhovory” (Česká televize, 2002),1 show “Další, prosím” (Prima, 2000).
    • The corpus contains a total of 932 373 words (1 264 902 words and annotation symbols).
    • There are a total of 758 speakers, z toho 245 of which uttered more than 1000 words.

    DIALOG 1.0
    • Comprised of 100 recordings and transcripts as follows:
      • 31 shows “7 čili Sedm dní / Sedmička” (Nova, 1999–2006),
      • 11 shows “Na plovárně” (Česká televize, 2001–2003),
      • 10 shows “Krásný ztráty” (Česká televize, 2005),
      • 9 shows “Otázky Václava Moravce” (Česká televize, 2004–2006),
      • 7 shows “Média” (Česká televize, 2003–2006),
      • 4 shows “Dvojhlas” (Česká televize, 2003),
      • 4 shows “Ženský hlas” (Česká televize, 2002),
      • 4 shows “Nedělní partie” (Prima, 2004),
      • 3 shows “Uvolněte se, prosím” (Česká televize, 2006–2007),
      • 3 shows “Na hraně” (Česká televize, 2003–2004),
      • 2 shows “Čaj pro třetího” (Česká televize, 2003),
      • 1 show “Vertikála” (Česká televize, 2004),
      • 1 show “Katovna” (Česká televize, 2000),
      • 1 show “O cestě na Hrad a zase zpátky” (Česká televize, 2003),
      • 1 show “Z očí do očí” (Česká televize, 2001),
      • 1 show “Přísně veřejné” (Česká televize, 1999),
      • 1 show “Naostro” (Česká televize, 2001),
      • 1 show “Noc s Andělem” (Česká televize, 2007),
      • 1 show “Všechnopárty” (Česká televize, 2009),
      • 1 show “Špona” (Česká televize, 2003),
      • 1 show “Rozhovory” (Česká televize, 2002),
      • 1 show “Bez kravaty” (TV3, 2002),
      • 1 show “Další, prosím” (Prima, 2000).
    • The corpus contains a total of 666 695 words (904 997 words and annotation symbols).
    • There are a total of 618 speakers, 159 of which uttered more than 1000 words.

    DIALOG 0.3
    • Comprised of 70 recordings and transcripts as follows:
      • 31 shows “7 čili Sedm dní / Sedmička” (Nova, 1999–2006),
      • 9 shows “Otázky Václava Moravce” (Česká televize, 2004–2006),
      • 9 shows “Na plovárně” (Česká televize, 2001–2003),
      • 6 shows “Média” (Česká televize, 2003–2006),
      • 4 shows “Dvojhlas” (Česká televize, 2003),
      • 4 shows “Ženský hlas” (Česká televize, 2002),
      • 2 shows “Uvolněte se, prosím” (Česká televize, 2006–2007),
      • 1 show “Nedělní partie” (Prima, 2004),
      • 1 show “Krásný ztráty” (Česká televize, 2005),
      • 1 show “Vertikála” (Česká televize, 2004),
      • 1 show “Katovna” (Česká televize, 2000),
      • 1 show “O cestě na Hrad a zase zpátky” (Česká televize, 2003).
    • The corpus contains a total of 493 089 words.
    • There are a total of 487 speakers, 100 of which uttered more than 1000 words.

    DIALOG 0.2
    • Comprised of 40 recordings and transcripts as follows:
      • 31 shows “7 čili Sedm dní / Sedmička” (Nova, 1999–2006),
      • 8 shows “Otázky Václava Moravce” (Česká televize, 2004–2006),
      • 1 show “Nedělní partie” (Prima, 2004).
    • The corpus contains a total of 361 000 words.
    • There are a total of 407 speakers, 59 of which uttered more than 1000 words.

    DIALOG 0.1m
    • Contains 10 recordings and transcripts of the program “7 čili Sedm dní / Sedmička” (Nova, 1999–2005).
    • The corpus is comprised of a total of 92 000 words.
    • There are a total of 149 speakers, 23 of which uttered more than 1000 words.

    Morphological annotation and lemmatization method

    All corpora were morphologically annotated and lemmatized, i.e. individual words in all corpora have been enriched with information on morphology and classified according to their basic word forms (lemmas). The DIALOG 1.1 corpus, the DIALOG 1.0 corpus, the DIALOG 0.3 corpus and the DIALOG 0.2 corpus were annotated and lemmatized automatically. The DIALOG 0.1m corpus was annotated and lemmatized manually. Jan Hajič’s system was used in all cases (see tag structure).

    All transcripts of the DIALOG 0.1m corpus are included in the DIALOG 0.2 corpus; not, however, their morphological annotation and lemmatization. These transcripts were automatically lemmatized and annotated in the DIALOG 0.2 corpus.

    All transcripts of the DIALOG 0.2 corpus are included in the DIALOG 0.3 corpus. All transcripts of the DIALOG 0.3 corpus are included in the DIALOG 1.0 corpus. Not all transcripts of the DIALOG 1.0 corpus are included in the DIALOG 1.1 corpus. All transcripts of the DIALOG 1.2 corpus are included in the DIALOG 2.0 corpus.