Week 1: Difference between revisions

From Control Systems Technology Group
Jump to navigation Jump to search
No edit summary
Line 98: Line 98:


Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.
Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.


=Meeting donderdag 04-09-2014=
=Meeting donderdag 04-09-2014=
Line 230: Line 232:


======Slide 8: Vragen?======
======Slide 8: Vragen?======


= Feedback presentatie maandag 8 september =
= Feedback presentatie maandag 8 september =
Line 240: Line 244:
* Denk er over na dat wanneer je geen tijd hebt voor je onderzoek, je eigenlijk niet zo veel meer hebt. De literatuur zal dan uitgebreider moeten.
* Denk er over na dat wanneer je geen tijd hebt voor je onderzoek, je eigenlijk niet zo veel meer hebt. De literatuur zal dan uitgebreider moeten.
* Het USE aspect is nog niet duidelijk. Er zijn namelijk veel meer partijen als users bij dit onderzoek betrokken (verzekeringsmaatschappij + hulpverleners krijgen een andere taak erbij).
* Het USE aspect is nog niet duidelijk. Er zijn namelijk veel meer partijen als users bij dit onderzoek betrokken (verzekeringsmaatschappij + hulpverleners krijgen een andere taak erbij).





Revision as of 13:52, 16 October 2014

Terug: PRE_Groep2



Bronnen zoeken

We vinden het interessant om ons te richten op de spraak van een robot. Robots praten tot nu toe nog erg monotoon en wij denken dat het een verbetering zou zijn om robots een emotie te geven in hun stem. Om hier een specifiekere richting in te kiezen gaan we informatie hierover verkennen.

De onderste vier vragen zijn een aantal vragen die een richting aangeven. Het doel is om te kijken welke richting we het beste op kunnen gaan met ons onderzoek. Hierbij kijken we naar hoeveel informatie er al is en in hoeverre wij hier zelf iets mee kunnen.


In hoeverre is op dit moment de techniek ontwikkeld om robots te laten spreken?

Belangrijk begrip: Dysarthria = difficulty of speaking due to ALS

“High energy efficiency biped robot controlled by the human brain for people with ALS disease.”

Als oplossing voor ALS gaat dit artikel dieper in op BCI (computer verbinden met hersenen door hersenactiviteit te meten met EEG) en menselijke robots als assistent. Hierdoor kunnen robotic devices bestuurd worden door de hersenen. Over spraak wordt alleen gezegd dat er in de toekomst een versie van BrainControl (eerste BCI die gebruikt wordt door mensen die geen spieren kunnen bewegen, maar nog wel ‘bewust’ zijn) zal komen waarbij text-to-speech een functie is.

“A Smart Interaction Device for Multi-Modal Human-Robot Dialogue”

Smart Interaction Device (SID) is een robot die een dialoog aan kan gaan met een gebruiker. Soar wordt gebruikt in het SID-systeem voor vastgestelde regels om te beredeneren.

“Programmable Interactive Talking Device”

Technisch verslag over een apparaat dat tekst (of andere digitale input) kan omzetten in geluid (spraak).

https://www.apple.com/accessibility/ios/voiceover/

Apple gebruikt een functie om blinde mensen ook hun producten te kunnen laten gebruiken. Apple-producten hebben de functie om alles ‘voor te lezen’.

“Nao Key Feature Audio Signal Processing”

Dit artikel beschrijft hoe de audio modules zijn georganiseerd in de Nao robot. Bijvoorbeeld hoe je data naar de speakers van Nao moet sturen.


Welke technieken zijn er op dit moment in ontwikkeling voor het 'schrijven' met de ogen en de hersenen?

"EyeBoard: A Fast and Accurate Eye Gaze-BasedText Entry System"

Proposes a new interface for dwell-free eye-writing.

"The potential of dwell-free eye-typing for fast assistive gaze communication"

Gaze communication systems have been researched for over 30 years. [Majaranta and Raih¨ a 2002 ¨ ]

Earlier technique: eye-typing = if you stare at a letter as long as the preset dwell-time out then the system assumes you want to type the letter. Findings were between 7-20 wpm. [Majaranta and Raih¨ a 2002 ¨ ; Majaranta et al. 2009; Wobbrock et al.2008; Tuisku et al. 2008; Ward and MacKay 2002] Other fast technique: Dasher = works with boxes that each represent a letter. The larger the box the more probable it is that the letter is chosen. New proposed technique: dwell-free eye-typing = swyping with your eye and the system tries to figure out what you meant.

"Writing with Your Eye: A Dwell Time Free Writing System Adapted to the Nature of Human Eye Gaze"

Problems with eye tracking software: accuracy is limited to 0.5-1.0 degrees of an angle. delay dependent on the frequency jitters and tremors make it difficult to point the eye. 'Midas touch problem’  when something else is attractive the eye moves to that.

"Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans."

Artikel about non invasive cursor movement.

"Neural Signal Based Control of the Dasher Writing System"

Writing with Dasher and send signals via EEG. Big advantage: no muscle control is needed, this prevents pain and a lack of precision.

"Language Model Applications to Spelling with Brain-Computer Interfaces"

Ways of spelling by using different BCI techniques.


In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?

“Emotions in the voice: humanizing a robotic voice”

The most important characteristics of the emotions sad, anger and happiness are evaluated. Those characteristics are used for the speech of a robot. A group of people have to detect which kind of emotion is used by the robot.


In hoeverre is het mogelijk om van een mensenstem een gesynthetiseerde stem te maken die net zo klinkt als de opgenomen mensenstem?

Het opnemen van een mensenstem, en hiervan een gesynthetiseerde stem maken die net zo klinkt als de opgenomen stem wordt ook wel voice cloning genoemd.

Er zijn verschillende bedrijven en instanties die onderzoek doen naar of gebruik maken van voice cloning:

- Cereproc

Dit bedrijf maakt gebruik van voice cloning. Voor het creeëren van je eigen stem hebben zij minimaal 40 minuten geluidsopnamen nodig. De geluidsopnamen moeten aan allerlei eisen voldoen, waaronder bijvoorbeeld dat er geen andere geluiden aanwezig moeten zijn en dat de opnamen van hoge kwaliteit moeten zijn. Daarnaast moet de stem op elke opname zoveel mogelijk hetzelfde klinken, er moet zo weinig mogelijk variatie zijn in snelheid, toonhoogte, volume enz. Voor de voice cloning maakt het bedrijf gebruik van HTS voices.

The HMM-based speech synthesis system (HTS) version 2.0

- EUAN MacDonald Centre

Werkt samen met de universiteit van Edinburgh. Samen zijn ze bezig met onderzoek naar stemopnames en artificiël stemgeluid met ‘persoonlijke touch’ voor MND (ALS) patiënten. Met behulp van een stemopname van een patient en ‘donorstemmen’ kan een artificiële stem worden gemaakt. Hiervoor zijn 400 zinnen van de patiënt nodig. De zinnen die geselecteerd zijn bevatten alle klanken van de Engelse taal in alle mogelijke combinaties.

Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.


Meeting donderdag 04-09-2014

Mogelijke onderzoeksvragen op dit moment
  1. Hoe beïnvloedt emotie in een robotstem de gebruiker van deze robot?
  2. Hoe kunnen er emoties worden aangebracht in een robotstem?
  3. Welke aspecten kenmerken bepaalde emoties en hoe kan dit worden gebruikt in een robotstem?
Plan verdeeld per persoon=
  1. Verzamelen van geluidsfragmenten
  2. Aanpassen van signalen met een bepaald programma (pitch, frequentie, amplitude, duration)
  3. Literatuurstudie doen naar kenmerken van emotie(s)
  4. Target group maken die stemmen gaan evalueren
Presentatie maandag 08-09-2014

Punten die er in moeten:

  • Onderwerp
  • Doelstelling
  • Aanpak om de doelstelling te bereiken
  • (Hoe ver is de technologie nu?)

Voor de slides en de uitleg die erbij hoort zie onderstaande link:

File:Presentatie 08-09-2014.pdf

Slide 1: Emoties in spraak van een robot

Iris Huijben

Meike Berkhoff

Floor Fasen

Suzanne Vugs

Uitleg:

Wij gaan ons onderzoek richten op emoties in de spraak van een robot. Dit is een onderzoeksgebied dat in volle gang is. We zijn al begonnen met een literatuurstudie naar emoties in menselijk en kunstmatig stemgeluid.

Slide 2: Onderzoeksvraag

In hoeverre is het mogelijk om emoties te geven aan een robotstem?

Slide 3: Doelstellingen

Communicatie van de robot menselijker maken om interactie te verbeteren.

Het uitbreiden van bestaande mogelijkheden om emoties te tonen.

Uitleg:

Waarom: Emoties geven aan een robot door spraak kan de mens-robot interactie verbeteren doordat de robot menselijker zal zijn.

Wat: Robots kunnen op dit moment voornamelijk emoties uitdrukken door fysieke gebaren en mimiek. Er wordt op dit moment veel onderzoek gedaan naar emoties in spraak van robots. Wij willen met dit project onderzoeken welke aspecten van spraak er aangepast moeten worden om spraak te kunnen gebruiken om emoties te geven aan robots.

Slide 4: USE perspectief - User

- Gezelschapsrobot

- Communicatiehulpmiddel

- Zorgrobot

- Persuasive technology

Uitleg:

Gezelschapsrobots worden gebruikt om eenzaamheid tegen te gaan. Door deze robot emoties te geven kun je hoogst waarschijnlijk een betere band creëren met de gebruiker. Een communicatiehulpmiddel kan emoties gebruiken bij bijvoorbeeld mensen die een spraakgebrek hebben door een ziekte en hun eigen stem niet meer kunnen gebruiken. Een zorgrobot kan emoties gebruiken om vertrouwen te winnen bij de patiënten zodat de robot eerder wordt geaccepteerd in een huishouden. Het kan een toegevoegde waarde hebben bij Persuasive technology. Onderzoekers in dit gebied kunnen kijken of emoties in een robotstem bijdragen aan de overtuigingskracht van deze robot.

Slide 5: Aanpak van het onderzoek

- Literatuurstudie naar kenmerkende aspecten van emoties in stemgeluid.

- Bepalen welke emoties wij gaan onderzoeken.

- Gevonden aspecten implementeren in de Nao robot.

- Eventueel feedback ontvangen van participanten.

Uitleg:

Er zal eerst literatuuronderzoek gedaan moeten worden om te ontdekken welke aspecten bijdragen aan emoties in een stemgeluid. Mogelijke aspecten zijn bijvoorbeeld frequentie en toonhoogte. Er moet worden onderzocht welke aspecten wij kunnen gebruiken in ons onderzoek en nagegaan worden of wij deze aan kunnen passen in de Nao robot. Als daar nog ruimte voor is, willen we eventueel nog feedback ontvangen van participanten om te zien of we ons doel bereikt hebben. Participanten moeten dan aangeven welke emotie zij denken te horen in een stem (met keuze uit de 6 basisemoties van Ekman & Friesen).

Slide 6: Kennis over emoties

- Spreek tempo

- Gemiddelde spreekhoogte

- Spreiding spreekhoogte

- Intensiteit

- Stem kwaliteit

- Hoogte veranderingen

- Articulatie

Uitleg:

De bovenstaande begrippen zijn aspecten waar al onderzoek naar is gedaan in een stem. Emoties hebben een bepaald invloed op je stem en deze begrippen typeren dat.

Slide 7: Mogelijkheden met spraak van Nao

- Amplitude, pitch etc.

- Alternatief: DECtalk –> tekst-spraak synthesiser

Uitleg:

De spraak van Nao kan op verschillende gebieden aangepast worden. Dit zijn bijvoorbeeld de pitch en amplitude. Het is voor ons nog niet duidelijk wat er precies aangepast kan worden. Hier gaan we meer literatuuronderzoek naar doen. Als uit ons literatuuronderzoek blijkt dat we graag meer aspecten aan willen passen dan mogelijk is met de Nao, gaan we op zoek naar een alternatief. Dit alternatief zal een spraakprogramma zijn die meer mogelijkheden heeft om geluid te beïnvloeden. Een alternatief dat we al uit bronnen hebben gevonden is DECtalk. Dit is een tekst-spraak synthesiser.

Slide 8: Vragen?

Feedback presentatie maandag 8 september

  • Onderzoek naar bedrijven/instellingen/onderzoeksgroepen die leiden in dit onderzoek segment
  • Hoe ga je literatuur zoeken? Waar ga je literatuur vinden? (Geef bijvoorbeeld zoekwoorden die je gaat gebruiken.;)
  • Onderzoek naar het juiste programma voor de implementatie: Is de NAO hiervoor per se nodig? Amigo kan misschien ook gebruikt worden (spraaksynthese van Amigo is mede ontwikkeld door Philips research en hiervoor heeft de TU/e een licentie om te lenen). Verder is voor ons onderzoek ook alleen een spraakprogramma geschikt, het hoeft niet per se een robot te zijn. Dus zoek naar software met spraaksynthese die ook nog open source is.
  • Maak de user specifieker: kies één doelgroep en één soort robot waar we ons op willen richten.
  • Heb je alle genoemde aspecten van emoties in de presentatie nodig om verschil in emotie te onderscheiden? Deze kunnen misschien niet allemaal aangepast worden, en als ze allemaal even belangrijk zijn dan komen we dus niet zo ver.
  • Denk er over na dat wanneer je geen tijd hebt voor je onderzoek, je eigenlijk niet zo veel meer hebt. De literatuur zal dan uitgebreider moeten.
  • Het USE aspect is nog niet duidelijk. Er zijn namelijk veel meer partijen als users bij dit onderzoek betrokken (verzekeringsmaatschappij + hulpverleners krijgen een andere taak erbij).


Persoonlijke feedback week 1

Algemeen:

  • Hou de productiviteit tijdens de vergadering hoog

Meike:

  • Fijn dat je de taken hebt uitgevoerd
  • Meike geeft aan dat dit kwartiel druk wordt, dus dat ze voor zichzelf een goede planning moet maken om ervoor te zorgen dat ze niet in de problemen komt.

Iris:

  • Fijn dat je de leiding nam donderdag en in de whatsapp groep, mag soms een positievere insteek hebben

Floor:

  • Het is fijn dat je doet wat er gevraagd wordt
  • Let op je planning i.v.m de activiteiten die je naast de studie hebt

Suzanne:

  • Fijn enthousiast
  • Heel wisselend qua interactie: heel enthousiast maar soms ook stil.
  • Wiki bijhouden en reageren op de app
  • Suzanne geeft aan dat het moeilijk was dat ze er vrijdag niet bij was. Hierdoor mist ze een deel, en voelde ze zich vervelend. Voor zichzelf besloten dat ze overal bij probeert te zijn/ betrokken zijn.