Week 1

From Control Systems Technology Group

(Difference between revisions)
Jump to: navigation, search
(Persoonlijke feedback)
(Bronnen zoeken)
Line 3: Line 3:
-
==Bronnen zoeken==
+
=Bronnen zoeken=
We vinden het interessant om ons te richten op de spraak van een robot. Robots praten tot nu toe nog erg monotoon en wij denken dat het een verbetering zou zijn om robots een emotie te geven in hun stem. Om hier een specifiekere richting in te kiezen gaan we informatie hierover verkennen.  
We vinden het interessant om ons te richten op de spraak van een robot. Robots praten tot nu toe nog erg monotoon en wij denken dat het een verbetering zou zijn om robots een emotie te geven in hun stem. Om hier een specifiekere richting in te kiezen gaan we informatie hierover verkennen.  
-
Zie deze link: [[Week 1: Verkennen]]
+
De onderste vier vragen zijn een aantal vragen die een richting aangeven. Het doel is om te kijken welke richting we het beste op kunnen gaan met ons onderzoek. Hierbij kijken we naar hoeveel informatie er al is en in hoeverre wij hier zelf iets mee kunnen.
 +
==In hoeverre is op dit moment de techniek ontwikkeld om robots te laten spreken?==
 +
 +
 +
Belangrijk begrip: Dysarthria = difficulty of speaking due to ALS
 +
 +
=====“High energy efficiency biped robot controlled by the human brain for people with ALS disease.”=====
 +
 +
Als oplossing voor ALS gaat dit artikel dieper in op BCI (computer verbinden met hersenen door hersenactiviteit te meten met EEG) en menselijke robots als assistent. Hierdoor kunnen robotic devices bestuurd worden door de hersenen. Over spraak wordt alleen gezegd dat er in de toekomst een versie van BrainControl (eerste BCI die gebruikt wordt door mensen die geen spieren kunnen bewegen, maar nog wel ‘bewust’ zijn) zal komen waarbij text-to-speech een functie is.
 +
 +
=====“A Smart Interaction Device for Multi-Modal Human-Robot Dialogue”=====
 +
 +
Smart Interaction Device (SID) is een robot die een dialoog aan kan gaan met een gebruiker. Soar wordt gebruikt in het SID-systeem voor vastgestelde regels om te beredeneren.
 +
 +
 +
=====“Programmable Interactive Talking Device”=====
 +
 +
Technisch verslag over een apparaat dat tekst (of andere digitale input) kan omzetten in geluid (spraak).
 +
 +
 +
=====https://www.apple.com/accessibility/ios/voiceover/=====
 +
 +
Apple gebruikt een functie om blinde mensen ook hun producten te kunnen laten gebruiken. Apple-producten hebben de functie om alles ‘voor te lezen’.
 +
 +
 +
=====“Nao Key Feature Audio Signal Processing”=====
 +
 +
Dit artikel beschrijft hoe de audio modules zijn georganiseerd in de Nao robot. Bijvoorbeeld hoe je data naar de speakers van Nao moet sturen.
 +
 +
==Welke technieken zijn er op dit moment in ontwikkeling voor het 'schrijven' met de ogen en de hersenen?==
 +
 +
 +
====="EyeBoard: A Fast and Accurate Eye Gaze-BasedText Entry System"=====
 +
Proposes a new interface for dwell-free eye-writing.
 +
 +
 +
====="The potential of dwell-free eye-typing for fast assistive gaze communication"=====
 +
Gaze communication systems have been researched for over 30 years. [Majaranta and Raih¨ a 2002 ¨ ]
 +
 +
Earlier technique: eye-typing = if you stare at a letter as long as the preset dwell-time out then the system assumes you want to type the letter. Findings were between 7-20 wpm. [Majaranta and Raih¨ a 2002 ¨ ; Majaranta et al. 2009; Wobbrock et al.2008; Tuisku et al. 2008; Ward and MacKay 2002]
 +
Other fast technique: Dasher = works with boxes that each represent a letter. The larger the box the more probable it is that the letter is chosen.
 +
New proposed technique: dwell-free eye-typing = swyping with your eye and the system tries to figure out what you meant.
 +
 +
 +
====="Writing with Your Eye: A Dwell Time Free Writing System Adapted to the Nature of Human Eye Gaze"=====
 +
 +
Problems with eye tracking software:
 +
accuracy is limited to 0.5-1.0 degrees of an angle.
 +
delay dependent on the frequency
 +
jitters and tremors make it difficult to point the eye.
 +
'Midas touch problem’  when something else is attractive the eye moves to that.
 +
 +
 +
====="Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans."=====
 +
 +
Artikel about non invasive cursor movement.
 +
 +
 +
====="Neural Signal Based Control of the Dasher Writing System"=====
 +
 +
Writing with Dasher and send signals via EEG.
 +
Big advantage: no muscle control is needed, this prevents pain and a lack of precision.
 +
 +
 +
====="Language Model Applications to Spelling with Brain-Computer Interfaces"=====
 +
 +
Ways of spelling by using different BCI techniques.
 +
 +
==In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?==
 +
 +
=====“Emotions in the voice: humanizing a robotic voice”=====
 +
 +
The most important characteristics of the emotions sad, anger and happiness are evaluated. Those characteristics are used for the speech of a robot. A group of people have to detect which kind of emotion is used by the robot.
 +
 +
==In hoeverre is het mogelijk om van een mensenstem een gesynthetiseerde stem te maken die net zo klinkt als de opgenomen mensenstem?==
 +
 +
Het opnemen van een mensenstem, en hiervan een gesynthetiseerde stem maken die net zo klinkt als de opgenomen stem wordt ook wel voice cloning genoemd.
 +
 +
Er zijn verschillende bedrijven en instanties die onderzoek doen naar of gebruik maken van voice cloning:
 +
 +
- Cereproc
 +
 +
Dit bedrijf maakt gebruik van voice cloning. Voor het creeëren van je eigen stem hebben zij minimaal 40 minuten geluidsopnamen nodig. De geluidsopnamen moeten aan allerlei eisen voldoen, waaronder bijvoorbeeld dat er geen andere geluiden aanwezig moeten zijn en dat de opnamen van hoge kwaliteit moeten zijn. Daarnaast moet de stem op elke opname zoveel mogelijk hetzelfde klinken, er moet zo weinig mogelijk variatie zijn in snelheid, toonhoogte, volume enz. Voor de voice cloning maakt het bedrijf gebruik van HTS voices.
 +
 +
 +
 +
=====The HMM-based speech synthesis system (HTS) version 2.0=====
 +
 +
- EUAN MacDonald Centre
 +
 +
Werkt samen met de universiteit van Edinburgh. Samen zijn ze bezig met onderzoek naar stemopnames en artificiël stemgeluid met ‘persoonlijke touch’ voor MND (ALS) patiënten. Met behulp van een stemopname van een patient en ‘donorstemmen’ kan een artificiële stem worden gemaakt. Hiervoor zijn 400 zinnen van de patiënt nodig. De zinnen die geselecteerd zijn bevatten alle klanken van de Engelse taal in alle mogelijke combinaties.
 +
 +
 +
Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.
==Mogelijke onderzoeksvragen op dit moment==
==Mogelijke onderzoeksvragen op dit moment==

Revision as of 12:31, 16 October 2014

Terug: PRE_Groep2



Contents

Bronnen zoeken

We vinden het interessant om ons te richten op de spraak van een robot. Robots praten tot nu toe nog erg monotoon en wij denken dat het een verbetering zou zijn om robots een emotie te geven in hun stem. Om hier een specifiekere richting in te kiezen gaan we informatie hierover verkennen.

De onderste vier vragen zijn een aantal vragen die een richting aangeven. Het doel is om te kijken welke richting we het beste op kunnen gaan met ons onderzoek. Hierbij kijken we naar hoeveel informatie er al is en in hoeverre wij hier zelf iets mee kunnen.

In hoeverre is op dit moment de techniek ontwikkeld om robots te laten spreken?

Belangrijk begrip: Dysarthria = difficulty of speaking due to ALS

“High energy efficiency biped robot controlled by the human brain for people with ALS disease.”

Als oplossing voor ALS gaat dit artikel dieper in op BCI (computer verbinden met hersenen door hersenactiviteit te meten met EEG) en menselijke robots als assistent. Hierdoor kunnen robotic devices bestuurd worden door de hersenen. Over spraak wordt alleen gezegd dat er in de toekomst een versie van BrainControl (eerste BCI die gebruikt wordt door mensen die geen spieren kunnen bewegen, maar nog wel ‘bewust’ zijn) zal komen waarbij text-to-speech een functie is.

“A Smart Interaction Device for Multi-Modal Human-Robot Dialogue”

Smart Interaction Device (SID) is een robot die een dialoog aan kan gaan met een gebruiker. Soar wordt gebruikt in het SID-systeem voor vastgestelde regels om te beredeneren.


“Programmable Interactive Talking Device”

Technisch verslag over een apparaat dat tekst (of andere digitale input) kan omzetten in geluid (spraak).


https://www.apple.com/accessibility/ios/voiceover/

Apple gebruikt een functie om blinde mensen ook hun producten te kunnen laten gebruiken. Apple-producten hebben de functie om alles ‘voor te lezen’.


“Nao Key Feature Audio Signal Processing”

Dit artikel beschrijft hoe de audio modules zijn georganiseerd in de Nao robot. Bijvoorbeeld hoe je data naar de speakers van Nao moet sturen.

Welke technieken zijn er op dit moment in ontwikkeling voor het 'schrijven' met de ogen en de hersenen?

"EyeBoard: A Fast and Accurate Eye Gaze-BasedText Entry System"

Proposes a new interface for dwell-free eye-writing.


"The potential of dwell-free eye-typing for fast assistive gaze communication"

Gaze communication systems have been researched for over 30 years. [Majaranta and Raih¨ a 2002 ¨ ]

Earlier technique: eye-typing = if you stare at a letter as long as the preset dwell-time out then the system assumes you want to type the letter. Findings were between 7-20 wpm. [Majaranta and Raih¨ a 2002 ¨ ; Majaranta et al. 2009; Wobbrock et al.2008; Tuisku et al. 2008; Ward and MacKay 2002] Other fast technique: Dasher = works with boxes that each represent a letter. The larger the box the more probable it is that the letter is chosen. New proposed technique: dwell-free eye-typing = swyping with your eye and the system tries to figure out what you meant.


"Writing with Your Eye: A Dwell Time Free Writing System Adapted to the Nature of Human Eye Gaze"

Problems with eye tracking software: accuracy is limited to 0.5-1.0 degrees of an angle. delay dependent on the frequency jitters and tremors make it difficult to point the eye. 'Midas touch problem’  when something else is attractive the eye moves to that.


"Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans."

Artikel about non invasive cursor movement.


"Neural Signal Based Control of the Dasher Writing System"

Writing with Dasher and send signals via EEG. Big advantage: no muscle control is needed, this prevents pain and a lack of precision.


"Language Model Applications to Spelling with Brain-Computer Interfaces"

Ways of spelling by using different BCI techniques.

In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?

“Emotions in the voice: humanizing a robotic voice”

The most important characteristics of the emotions sad, anger and happiness are evaluated. Those characteristics are used for the speech of a robot. A group of people have to detect which kind of emotion is used by the robot.

In hoeverre is het mogelijk om van een mensenstem een gesynthetiseerde stem te maken die net zo klinkt als de opgenomen mensenstem?

Het opnemen van een mensenstem, en hiervan een gesynthetiseerde stem maken die net zo klinkt als de opgenomen stem wordt ook wel voice cloning genoemd.

Er zijn verschillende bedrijven en instanties die onderzoek doen naar of gebruik maken van voice cloning:

- Cereproc

Dit bedrijf maakt gebruik van voice cloning. Voor het creeëren van je eigen stem hebben zij minimaal 40 minuten geluidsopnamen nodig. De geluidsopnamen moeten aan allerlei eisen voldoen, waaronder bijvoorbeeld dat er geen andere geluiden aanwezig moeten zijn en dat de opnamen van hoge kwaliteit moeten zijn. Daarnaast moet de stem op elke opname zoveel mogelijk hetzelfde klinken, er moet zo weinig mogelijk variatie zijn in snelheid, toonhoogte, volume enz. Voor de voice cloning maakt het bedrijf gebruik van HTS voices.


The HMM-based speech synthesis system (HTS) version 2.0

- EUAN MacDonald Centre

Werkt samen met de universiteit van Edinburgh. Samen zijn ze bezig met onderzoek naar stemopnames en artificiël stemgeluid met ‘persoonlijke touch’ voor MND (ALS) patiënten. Met behulp van een stemopname van een patient en ‘donorstemmen’ kan een artificiële stem worden gemaakt. Hiervoor zijn 400 zinnen van de patiënt nodig. De zinnen die geselecteerd zijn bevatten alle klanken van de Engelse taal in alle mogelijke combinaties.


Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.

Mogelijke onderzoeksvragen op dit moment

  1. Hoe beïnvloedt emotie in een robotstem de gebruiker van deze robot?
  2. Hoe kunnen er emoties worden aangebracht in een robotstem?
  3. Welke aspecten kenmerken bepaalde emoties en hoe kan dit worden gebruikt in een robotstem?


Plan verdeeld per persoon

  1. Verzamelen van geluidsfragmenten
  2. Aanpassen van signalen met een bepaald programma (pitch, frequentie, amplitude, duration)
  3. Literatuurstudie doen naar kenmerken van emotie(s)
  4. Target group maken die stemmen gaan evalueren


Presentatie

Punten die er in moeten:

- Onderwerp

- Doelstelling

- Aanpak om de doelstelling te bereiken

(- Hoe ver is de technologie nu?)


Voor de slides en de uitleg die erbij hoort zie onderstaande link:

Presentatie maandag 8 september 2014


Feedback presentatie maandag 8 september

  • Onderzoek naar bedrijven/instellingen/onderzoeksgroepen die leiden in dit onderzoek segment
  • Hoe ga je literatuur zoeken? Waar ga je literatuur vinden? (Geef bijvoorbeeld zoekwoorden die je gaat gebruiken.;)
  • Onderzoek naar het juiste programma voor de implementatie: Is de NAO hiervoor per se nodig? Amigo kan misschien ook gebruikt worden (spraaksynthese van Amigo is mede ontwikkeld door Philips research en hiervoor heeft de TU/e een licentie om te lenen). Verder is voor ons onderzoek ook alleen een spraakprogramma geschikt, het hoeft niet per se een robot te zijn. Dus zoek naar software met spraaksynthese die ook nog open source is.
  • Maak de user specifieker: kies één doelgroep en één soort robot waar we ons op willen richten.
  • Heb je alle genoemde aspecten van emoties in de presentatie nodig om verschil in emotie te onderscheiden? Deze kunnen misschien niet allemaal aangepast worden, en als ze allemaal even belangrijk zijn dan komen we dus niet zo ver.
  • Denk er over na dat wanneer je geen tijd hebt voor je onderzoek, je eigenlijk niet zo veel meer hebt. De literatuur zal dan uitgebreider moeten.
  • Het USE aspect is nog niet duidelijk. Er zijn namelijk veel meer partijen als users bij dit onderzoek betrokken (verzekeringsmaatschappij + hulpverleners krijgen een andere taak erbij).


Persoonlijke feedback week 1

Feedback individueel

Algemeen:

• Hou de productiviteit tijdens de vergadering hoog


Meike:

• Fijn dat je de taken hebt uitgevoerd

• Meike geeft aan dat dit kwartiel druk wordt, dus dat ze voor zichzelf een goede planning moet maken om ervoor te zorgen dat ze niet in de problemen komt.


Iris:

• Fijn dat je de leiding nam donderdag en in de whatsapp groep, mag soms een positievere insteek hebben


Floor:

• Het is fijn dat je doet wat er gevraagd wordt

• Let op je planning i.v.m de activiteiten die je naast de studie hebt


Suzanne:

• Fijn enthousiast

• Heel wisselend qua interactie: heel enthousiast maar soms ook stil.

• Wiki bijhouden en reageren op de app

• Suzanne geeft aan dat het moeilijk was dat ze er vrijdag niet bij was. Hierdoor mist ze een deel, en voelde ze zich vervelend. Voor zichzelf besloten dat ze overal bij probeert te zijn/ betrokken zijn.

Personal tools