PRE2017 4 Groep3 minutes2

From Control Systems Technology Group
Jump to navigation Jump to search

Datum: 30-04-2018

Tijd: 9:18-9:38

Aanwezigen: Marijn, Pieter, Rowin, Tom, Stijn, instructors

Chairman: Stijn

Notulist: Pieter


Gekozen idee

Camera’s ophangen in huis
Met voice control vragen waar een item ligt
Vooral voor visually-impaired people
Tensorflow framework voor object detection
Onthouden waar een item het laatste gezien is
Alleen de belangrijkste objecten onthouden of alles onthouden?
Rekening houden met privacy and security concerns


Discussie over andere vormen van object detectie. Het idee van een rijdende robot is opgebracht door de instructors, eveneens als Tile die RFID tags gebruikt en een bril die met een camera objecten bijhoudt. We hebben de ideeën overwogen maar een robot heeft geen volledig continu zicht en wij willen meer flexibiliteit geven om bijvoorbeeld meer objecten te registreren dan wanneer je ieder object een tag moet geven.


We hebben de vraag gerealiseerd of je objecten van tevoren moet registreren of dat het automatisch alles zal herkennen. Hier hebben wij nog geen beslissing over.


Instructor: Hoe accuraat kan je bijvoorbeeld een papiertje herkennen? Hoe veel objecten worden herkent? Bijvoorbeeld in een lokaal, herkent hij dan alle stoelen en tafels ook?

Als hij meer dingen herkent, dan is dat niet erg als hij die ook vindt, zolang hij ook de items die je zoekt bij houdt.
We moeten nog beslissen of het nuttig is om te gebruiken, maar er zijn ook speciale technieken waarmee je specifieke items kan registreren door er een paar fotos van te maken en zo gemakkelijker specifieke items kan herkennen.


Wat gaan jullie opleveren:

Een prototype uitvoerbaar op een laptop met diens webcam, microfoon en speakers.
Opslaan waar items gebleven zijn, met de mogelijkheid later via voice commands op te vragen waar een item het laatst gezien is. De feedback zal via audio gegeven worden.


Literature studies:

Instructor: Nog geen literature hoe antwoord te geven waar een item vindt. In andere woorden, hoe zet je een locatie om in nuttige informatie.
Kan zo’n beschrijving ook een blind persoon helpen? Is het duidelijk genoeg waar hij dan ligt of is er dan alsnog een probleem dat hij de hele tafel af moet tasten. Dat zijn vragen waar wij rekening mee zullen moeten houden.


Welke frameworks willen wij gebruik van maken:

Tensorflow heeft een video-feed image recognition framework
Hidden Markov model is een techniek voor audio interaction
Er bestaan meerdere frameworks voor voice commands en voice feedback, zoals google home.