Technische systemen voor tekstbewerking

From Control Systems Technology Group

(Difference between revisions)
Jump to: navigation, search
(Tekst-spraak systemen)
(Tekst-spraak systemen)
 
(31 intermediate revisions not shown)
Line 1: Line 1:
-
==Functies Nao op gebied van spraak==
+
Terug: [[Week 2]]
 +
----
 +
 
 +
 
 +
=====Functies Nao op gebied van spraak=====
Op deze pagina staat een tutorial om Nao te laten spreken door middel van de codetaal Python:
Op deze pagina staat een tutorial om Nao te laten spreken door middel van de codetaal Python:
file:///C:/Program%20Files%20(x86)/Aldebaran/Choregraphe%201.14.3.5/doc/naoqi/audio/altexttospeech-tuto.html#altexttospeech-tuto
file:///C:/Program%20Files%20(x86)/Aldebaran/Choregraphe%201.14.3.5/doc/naoqi/audio/altexttospeech-tuto.html#altexttospeech-tuto
-
 
De reden waarom we dit onderzoeken is omdat we een technisch systeem nodig hebben waarmee we een robot-stem aan kunnen passen. Nao leek ons hier een goed voorbeeld van. De vraag is alleen of Nao genoeg functies heeft om een robot-stem aan te passen naar de aspecten die een emotie heeft.
De reden waarom we dit onderzoeken is omdat we een technisch systeem nodig hebben waarmee we een robot-stem aan kunnen passen. Nao leek ons hier een goed voorbeeld van. De vraag is alleen of Nao genoeg functies heeft om een robot-stem aan te passen naar de aspecten die een emotie heeft.
-
 
Er zijn een aantal aspecten die je door middel van deze taal aan kunt passen aan de stem van Nao. Hieronder volgt een opsomming daarvan:
Er zijn een aantal aspecten die je door middel van deze taal aan kunt passen aan de stem van Nao. Hieronder volgt een opsomming daarvan:
Line 16: Line 18:
* Volume
* Volume
* Toonhoogteverschuiving
* Toonhoogteverschuiving
-
 
De enige functies die we kunnen gebruiken voor ons onderzoek zijn volume en toonhoogte van de stem. Dit is niet genoeg om emoties aan een stem te kunnen geven. Daarom gaan we verder zoeken naar andere technische systemen die wel meer functies hebben. Dit kan bijvoorbeeld software zijn  voor op een computer.
De enige functies die we kunnen gebruiken voor ons onderzoek zijn volume en toonhoogte van de stem. Dit is niet genoeg om emoties aan een stem te kunnen geven. Daarom gaan we verder zoeken naar andere technische systemen die wel meer functies hebben. Dit kan bijvoorbeeld software zijn  voor op een computer.
-
==Tekst-spraak systemen==
+
=====Tekst-spraak systemen=====
-
* espeak
+
* eSpeak
informatie: http://espeak.sourceforge.net/
informatie: http://espeak.sourceforge.net/
Line 29: Line 30:
Spreekt oa ook Nederlands. En volgens de bron kun je verschillende stemmen instellen, waarvoor je eigenschappen kan veranderen.
Spreekt oa ook Nederlands. En volgens de bron kun je verschillende stemmen instellen, waarvoor je eigenschappen kan veranderen.
 +
Om wav bestanden succesvol van espeak om te zetten naar Matlab en weer terug naar een wav bestand moeten we bij espeak ''8k Hz, 16 bit mono'' instellen. Dit heeft te maken met het feit dat audio bestanden die in Matlab omgezet worden naar .wav bestanden gesampled worden met een sample frequentie van 8k Hz.
* festival
* festival
Line 35: Line 37:
For queries regarding the Festival speech synthesis system email: festival@cstr.ed.ac.uk
For queries regarding the Festival speech synthesis system email: festival@cstr.ed.ac.uk
-
 
-
 
* DECtalk
* DECtalk
Line 44: Line 44:
DECtalk is het systeem dat Steven Hawkins gebruikt.
DECtalk is het systeem dat Steven Hawkins gebruikt.
-
 
+
Als je op de volgende link klikt kom je op een pagina over de master thesis van Janet Cahn (1989). Zij probeerde toen al emoties in een robotstem te krijgen en hiervoor gebruikte zij DECtalk3. Ze programmeerde zelf het programma 'Affect Editor'. Dit programma geeft twee strings. String één zet de intstellingen van DECtalk3 zodanig dat een bepaalde emotie wordt uitgedrukt, en string 2 is de tekst die dan wordt opgelezen door TTS.
-
Als je op de volgende link klikt kom je op een pagina over de master thesis van Janet Cahn (1989). Zij probeerde toen al emoties in een robotstem te krijgen en hiervoor gebruikte zij DECtalk3. Op de pagina kun je geluidsfragmenten per emotie beluisteren en haar thesis terugvinden.
+
Op de pagina kun je geluidsfragmenten per emotie beluisteren en haar thesis terugvinden.
http://alumni.media.mit.edu/~cahn/emot-speech.html
http://alumni.media.mit.edu/~cahn/emot-speech.html
-
==Wat gebruikt Amigo?==
+
Janet Cahn schreef ook twee papers rondom het onderwerp:
 +
 
 +
* Cahn, Janet E., Generation of Affect in Synthesized Speech.  Proceedings of the 1989 Conference of the American Voice I/O Society. Newport Beach, California. September, 1989. Pages 251-256.      PS.GZ (29K)
 +
Link: http://media.mit.edu/speech/papers/1990/cahn_AVIOSJ90_affect.pdf 
 +
 
 +
* Cahn, Janet, From Sad to Glad: Emotional Computer Voices.  Proceedings of Speech Tech '88, Voice Input/Output Applications Conference and Exhibition. New York City. April, 1988. Pages 35-37.      PS (43K)
 +
 
 +
=====Wat gebruikt Amigo?=====
Amigo maakt gebruik van tts (text-to-speech) gemaakt door Philips, tts van Google en Ubuntu eSpeak.  
Amigo maakt gebruik van tts (text-to-speech) gemaakt door Philips, tts van Google en Ubuntu eSpeak.  
Bron: http://bobbierobotics.nl/media/files/amigo_openspace_jmrvoncken_2013.pdf (pagina 7)
Bron: http://bobbierobotics.nl/media/files/amigo_openspace_jmrvoncken_2013.pdf (pagina 7)
 +
 +
=====Audio bewerkingsprogramma's=====
 +
 +
Matlab wordt onder andere gebruikt voor signaal verwerking en analyse.
 +
http://www.music.mcgill.ca/~gary/307/week1/matlab.html
 +
 +
Example Matlab script and sound file: [http://www.music.mcgill.ca/~gary/307/matlab/wavinout.m wavinout.m]
 +
 +
Audio bestanden kunnen worden ingeladen en worden opgeslagen
 +
 +
Matlab heeft een Signal Processing Toolbox (dit zit standaard al in de Matlab versie R2012a) --> http://www.mathworks.nl/products/signal/
 +
 +
Key features:
 +
*Signal transforms, including fast Fourier transform (FFT), discrete Fourier transform (DFT), and short-time Fourier transform (STFT)
 +
*Waveform and pulse generation functions, including sine, square, sawtooth, and Gaussian pulse
 +
*Transition metrics, pulse metrics, and state-level estimation functions for bilevel waveforms
 +
*Statistical signal measurements and data windowing functions
 +
*Power spectral density estimation algorithms, including periodogram, Welch, and Yule-Walker
 +
*Digital FIR and IIR filter design, analysis, and implementation methods
 +
*Analog filter design methods, including Butterworth, Chebyshev, and Bessel
 +
*Linear prediction and parametric time-series modeling
 +
 +
 +
We gaan nu kijken naar de begrippen die we al kennen waarmee je emoties kunt maken in geluid en of we deze toe zouden kunnen passen in matlab.
 +
*Spreek tempo: vermenigvuldig de sample rate (fs) met de gewenste waarde om tempo te verhogen of te verlagen. [http://www.mathworks.com/matlabcentral/newsreader/view_thread/145848 i]
 +
*Gemiddelde spreekhoogte
 +
*Spreiding spreekhoogte
 +
*Intensiteit
 +
*Stem kwaliteit
 +
*Hoogte veranderingen
 +
*Articulatie

Current revision as of 13:38, 16 October 2014

Terug: Week 2



Contents

Functies Nao op gebied van spraak

Op deze pagina staat een tutorial om Nao te laten spreken door middel van de codetaal Python:

file:///C:/Program%20Files%20(x86)/Aldebaran/Choregraphe%201.14.3.5/doc/naoqi/audio/altexttospeech-tuto.html#altexttospeech-tuto

De reden waarom we dit onderzoeken is omdat we een technisch systeem nodig hebben waarmee we een robot-stem aan kunnen passen. Nao leek ons hier een goed voorbeeld van. De vraag is alleen of Nao genoeg functies heeft om een robot-stem aan te passen naar de aspecten die een emotie heeft.

Er zijn een aantal aspecten die je door middel van deze taal aan kunt passen aan de stem van Nao. Hieronder volgt een opsomming daarvan:

  • Een aantal modificaties aan de toonhoogte van de stem
  • Double voice parameters kunnen worden gemodificeerd
  • Wisselen naar een andere stem
  • Het opslaan en ophalen van stem-voorkeuren
  • Volume
  • Toonhoogteverschuiving

De enige functies die we kunnen gebruiken voor ons onderzoek zijn volume en toonhoogte van de stem. Dit is niet genoeg om emoties aan een stem te kunnen geven. Daarom gaan we verder zoeken naar andere technische systemen die wel meer functies hebben. Dit kan bijvoorbeeld software zijn voor op een computer.

Tekst-spraak systemen
  • eSpeak

informatie: http://espeak.sourceforge.net/

download: http://espeak.sourceforge.net/test/latest.html

Spreekt oa ook Nederlands. En volgens de bron kun je verschillende stemmen instellen, waarvoor je eigenschappen kan veranderen.

Om wav bestanden succesvol van espeak om te zetten naar Matlab en weer terug naar een wav bestand moeten we bij espeak 8k Hz, 16 bit mono instellen. Dit heeft te maken met het feit dat audio bestanden die in Matlab omgezet worden naar .wav bestanden gesampled worden met een sample frequentie van 8k Hz.

  • festival

informatie & download: http://www.cstr.ed.ac.uk/projects/festival/

For queries regarding the Festival speech synthesis system email: festival@cstr.ed.ac.uk

  • DECtalk

Informatie & download: http://facepunch.com/showthread.php?t=1323522

DECtalk is het systeem dat Steven Hawkins gebruikt.

Als je op de volgende link klikt kom je op een pagina over de master thesis van Janet Cahn (1989). Zij probeerde toen al emoties in een robotstem te krijgen en hiervoor gebruikte zij DECtalk3. Ze programmeerde zelf het programma 'Affect Editor'. Dit programma geeft twee strings. String één zet de intstellingen van DECtalk3 zodanig dat een bepaalde emotie wordt uitgedrukt, en string 2 is de tekst die dan wordt opgelezen door TTS. Op de pagina kun je geluidsfragmenten per emotie beluisteren en haar thesis terugvinden. http://alumni.media.mit.edu/~cahn/emot-speech.html

Janet Cahn schreef ook twee papers rondom het onderwerp:

  • Cahn, Janet E., Generation of Affect in Synthesized Speech. Proceedings of the 1989 Conference of the American Voice I/O Society. Newport Beach, California. September, 1989. Pages 251-256. PS.GZ (29K)

Link: http://media.mit.edu/speech/papers/1990/cahn_AVIOSJ90_affect.pdf

  • Cahn, Janet, From Sad to Glad: Emotional Computer Voices. Proceedings of Speech Tech '88, Voice Input/Output Applications Conference and Exhibition. New York City. April, 1988. Pages 35-37. PS (43K)
Wat gebruikt Amigo?

Amigo maakt gebruik van tts (text-to-speech) gemaakt door Philips, tts van Google en Ubuntu eSpeak.

Bron: http://bobbierobotics.nl/media/files/amigo_openspace_jmrvoncken_2013.pdf (pagina 7)

Audio bewerkingsprogramma's

Matlab wordt onder andere gebruikt voor signaal verwerking en analyse. http://www.music.mcgill.ca/~gary/307/week1/matlab.html

Example Matlab script and sound file: wavinout.m

Audio bestanden kunnen worden ingeladen en worden opgeslagen

Matlab heeft een Signal Processing Toolbox (dit zit standaard al in de Matlab versie R2012a) --> http://www.mathworks.nl/products/signal/

Key features:

  • Signal transforms, including fast Fourier transform (FFT), discrete Fourier transform (DFT), and short-time Fourier transform (STFT)
  • Waveform and pulse generation functions, including sine, square, sawtooth, and Gaussian pulse
  • Transition metrics, pulse metrics, and state-level estimation functions for bilevel waveforms
  • Statistical signal measurements and data windowing functions
  • Power spectral density estimation algorithms, including periodogram, Welch, and Yule-Walker
  • Digital FIR and IIR filter design, analysis, and implementation methods
  • Analog filter design methods, including Butterworth, Chebyshev, and Bessel
  • Linear prediction and parametric time-series modeling


We gaan nu kijken naar de begrippen die we al kennen waarmee je emoties kunt maken in geluid en of we deze toe zouden kunnen passen in matlab.

  • Spreek tempo: vermenigvuldig de sample rate (fs) met de gewenste waarde om tempo te verhogen of te verlagen. i
  • Gemiddelde spreekhoogte
  • Spreiding spreekhoogte
  • Intensiteit
  • Stem kwaliteit
  • Hoogte veranderingen
  • Articulatie
Personal tools