OBJECT DETECTION FOR A DOMESTIC APPLIANCE
Die Erfindung betrifft eine Objekterkennung. Insbesondere betrifft die Erfindung die Erkennung eines Objekts im Bereich eines Hausgeräts. Ein Hausgerät umfasst eine Kamera zur Bereitstellung eines Kamerabilds. Auf dem Kamerabild ist ein vorbestimmtes Objekt im Bereich des Hausgeräts abgebildet. Mittels eines ML (Maschinelles Lernen) Systems kann das Objekt erkannt werden. Das ML-System kann insbesondere darauf trainiert sein, das Objekt auf dem Kamerabild zu erkennen. Ist das Objekt auf dem Kamerabild in hoher Qualität dargestellt, so können hohe Erkennungsraten erzielt werden. Eine Verwechslung verschiedener Objekte miteinander kann selten und eine Nichterkennung eines Objekts kann unwahrscheinlich sein. Im täglichen Gebrauch des Hausgeräts kann das Kamerabild gelegentlich von geringerer Qualität sein, sodass eine Erkennungsleistung des ML-Systems einbrechen kann. Falsche oder nicht erfolge Erkennungen können häufig oder wahrscheinlich sein. Eine der vorliegenden Erfindung zugrunde liegende Aufgabe besteht in der Bereitstellung einer verbesserten Technik zur Erkennung eines Objekts im Bereich eines Hausgeräts. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder. Nach einem ersten Aspekt der vorliegenden Erfindung umfasst ein Verfahren zum Erkennen eines Objekts im Bereich eines Hausgeräts Schritte des Abtastens eines Kamerabi-Ids, welches das Objekt darstellt, vom Hausgerät aus; des Erfassens einer Seitenkanal-Information; wobei die Seitenkanal-Information einen Umstand betrifft, unter dem das Kamerabild abgetastet wird; und des Erkennens des Objekts mittels eines ML-Systems auf der Basis des Kamerabilds und der Seitenkanal-Information. Das Hausgerät kann in Abhängigkeit des erkannten Objekts gesteuert werden. Handelt es sich bei dem Hausgerät beispielsweise um ein autonom bewegliches Bodenbearbeitungsgerät, so kann dieses so über einen Boden gesteuert werden, dass eine Kollision mit dem Objekt vermieden wird. Das Objekt kann auch gezielt mittels des Hausgeräts bearbeitet oder genutzt werden, beispielsweise wenn es sich um eine Ladestation für das Bodenbearbeitungsgerät handelt. Eine mittels des Hausgeräts erbrachte Funktion kann durch die Objekterkennung erweitert oder verbessert werden. Umfasst das Hausgerät etwa ein Kühlgerät, so können in ihm aufbewahrte Objekte erkannt werden, um einen Lagerbestand der Objekte automatisch zu bestimmen. Durch Nutzen der Seitenkanal-Information kann eine Erkennungsrate des ML-Systems gesteigert sein. Ein falsches Erkennen des Objekts als ein anderes Objekt oder ein mangelndes Erkennen des Objekts können deutlich seltener oder weniger wahrscheinlich sein. Das Erkennen kann mit erhöhter Sicherheit erfolgen und gegebenenfalls kann ein Detail des Objekts erkannt werden, das ohne Nutzen der Seitenkanal-Information nicht oder nicht sicher bestimmt werden kann. In einer ersten Variante des Verfahrens ist die Seitenkanal-Information durch eine Bauart des Hausgeräts festgelegt. Beispielsweise können unveränderliche Eigenschaften des Kamerabilds berücksichtigt werden. Ein beispielhafter solcher Parameter betrifft einen auf dem Kamerabild sichtbaren Abschnitts des Hausgeräts. Auch können beispielsweise eine unveränderliche Perspektive der Kamera auf das Objekt oder eine maximale Größe des Objekts berücksichtigt werden. Beispielsweise kann ein Objekt in einem Kühlschrank nicht größer sein als der Innenraum des Kühlschranks. Das ML-System muss auf Objekte, die unter anderen als der Bauart des Hausgeräts entsprechenden Parametern erfasst wurden, nicht trainiert werden. Ein bereits umfassend trainiertes ML-System kann in seiner Objekterkennung auf Parameter des vorliegenden Hausgeräts eingeschränkt werden. Bezüglich der Erkennung des Objekts handelt es sich bei einem solchen Parameter um a-priori Wissen, das bei einer naiven Implementation der Objekterkennung ungenutzt bleibt. In einer zweiten Variante, die mit der ersten kombinierbar ist, wird die Seitenkanal-Information auf der Basis eines dynamischen Parameters bestimmt, welcher der Abtastung des Kamerabilds zugrunde liegt. Der Parameter kann mittels eines Sensors erfasst oder durch eine das Kamerabild abtastenden Kamera bereitgestellt werden. Der Sensor kann Teil des Hausgeräts sein. Die Seitenkanal-Information kann einen Ort und/oder eine Ausrichtung einer Kamera betreffen, mittels der das Kamerabild abgetastet wird. Betrifft die Seitenkanal-Information sowohl den Ort als auch die Ausrichtung, spricht man auch von einer Pose der Kamera. Die Kamera und das Objekt sind üblicherweise fest gegenüber dem Hausgerät angeordnet. Trotzdem kann eine Pose der Kamera gegenüber dem Objekt variieren, beispielsweise wenn das Hausgerät unterschiedliche Abschnitte aufweist, die gegeneinander beweglich sind. Beispielsweise kann das Hausgerät ein Kühlgerät mit einem Körper und einer Tür umfassen, wobei das Objekt in einem Innenraum des Körpers und die Kamera an der Tür angebracht ist. Ort und/oder Ausrichtung der Kamera können auf der Basis eines Öffnungsgrads oder Öffnungswinkels der Tür bestimmt werden. Das ML-System kann einem beliebigen Ansatz des maschinellen Lernens folgen. In einer bevorzugten Ausführungsform umfasst es ein künstliches neuronales Netzwerk. Dieses kann zur Erkennung des Objekts trainiert worden sein. In einer weiteren Ausführungsform sind mehrere ML-Systeme zur Erkennung des Objekts vorgesehen, die gleichen oder unterschiedlichen Ansätzen des maschinellen Lernens folgen können. Eines der ML-Systeme kann auf der Basis der Seitenkanal-Information ausgewählt werden. Die einzelnen ML-Systeme können jeweils auf die Erkennung des Objekts unter unterschiedlichen, vorbestimmten Bedingungen eingerichtet sein. Es können auch unterschiedliche Vorverarbeitungen vorgesehen sein, die das Kamerabild für ein ML-System aufbereiten, beispielsweise indem eine Helligkeit oder ein Kontrast angepasst wird oder indem ein vorbestimmter, relevanter Bereich bzw. interessierender Bereich bestimmt wird, der das Objekt enthält. Eine der Vorverarbeitungen kann auf der Basis der Seitenkanal-Information ausgewählt werden. Auch eine zweistufige Auswahl ist möglich, wenn sich an die verschiedenen Vorverarbeitungen verschiedene ML-Systeme anschließen und sowohl die Vorverarbeitung als auch das ML-System auf der Basis der Seitenkanal-Information ausgewählt werden. Auf der Basis der Seitenkanal-Information kann ein Abschnitt des Kamerabilds, der zur Erkennung des Objekts irrelevant ist, verworfen werden. Anders ausgedrückt bzw. anders herum gedacht kann ein interessierender Bereich bzw. eine Region of Interest (ROI) bestimmt werden, in der sich das Objekt befindet. Ferner kann der bestimmte interessierende Bereich bzw. die bestimmte Region vorbereitet werden, beispielsweise indem der interessierende Bereich ausgeschnitten und/oder bezüglich einer Kameraperspektive entzerrt wird. Andere mögliche Vorbereitungen umfassen eine Frequenzanalyse oder einen Filter. In einer besonders bevorzugten Ausführungsform sind mehrere ML-Systeme zur Erkennung des Objekts vorgesehen und eines davon wird auf der Basis der Seitenkanal-Information ausgewählt. Vorzugsweise wird innerhalb des Kamerabilds ein interessierender Bereich bestimmt, in dem sich das Objekt befindet. Das Kamerabild kann dann basierend auf dem interessierenden Bereich vorbereitet werden, bevor es dem ausgewählten ML-System zugeführt wird. Die Seitenkanal-Information kann einen Kameraparameter wie eine Brennweite, eine Blende, eine Belichtungszeit und/oder eine Abtastempfindlichkeit der Kamera zum Zeitpunkt des Abtastens umfassen. Auch herrschende Lichtverhältnisse, etwa eine Lichttemperatur oder eine räumliche Lichtverteilung, können berücksichtigt werden. Das Kamerabild kann bezüglich eines solchen Parameters angepasst werden oder der Parameter kann der Erkennung des Objekts zugrunde gelegt sein. Die Seitenkanal-Information kann eine relative Bewegung der Kamera, mittels der das Kamerabild abgetastet wird, gegenüber dem Objekt umfassen. Insbesondere unter Berücksichtigung eines Kameraparameters können beispielsweise eine Bewegungsunschärfe, eine Über- oder Unterbelichtung oder ein anderer Abbildungsfehler erkannt, berücksichtigt, kompensiert oder korrigiert werden. Nach einem zweiten Aspekt der vorliegenden Erfindung umfasst eine Vorrichtung zur Erkennung eines Objekts im Bereich eines Hausgeräts eine am Hausgerät angebrachte Kamera zur Abtastung eines Kamerabilds, welches das Objekt darstellt; eine Einrichtung zur Erfassung einer Seitenkanal-Information, wobei die Seitenkanal-Information einen Umstand betrifft, unter dem das Kamerabild abgetastet wird; und eine Verarbeitungseinrichtung zur Erkennung des Objekts mittels maschinellen Lernens auf der Basis des Kamerabilds und der Seitenkanal-Information. Die Verarbeitungseinrichtung kann dazu eingerichtet sein, ein hierin beschriebenes Verfahren ganz oder teilweise auszuführen. Dazu kann die Verarbeitungseinrichtung einen programmierbaren Mikrocomputer oder Mikrocontroller umfassen und das Verfahren kann in Form eines Computerprogrammprodukts mit Programmcodemitteln vorliegen. Das Computerprogrammprodukt kann auch auf einem computerlesbaren Datenträger abgespeichert sein. Merkmale oder Vorteile des Verfahrens können auf die Vorrichtung übertragen werden oder umgekehrt. Insbesondere können mehrere ML-Systeme zur Erkennung des Objekts vorgesehen sein. Die Verarbeitungseinrichtung ist dann vorzugsweise dazu eingerichtet, eines der ML-Systeme auf der Basis der Seitenkanal-Information auszuwählen. Die Verarbeitungseinrichtung kann dazu eingerichtet sein, einen interessierenden Bereich innerhalb des Kamerabilds zu bestimmen, in dem sich das Objekt befindet. Besonders bevorzugt ist dann die Verarbeitungseinrichtung dazu eingerichtet, das Kamerabild basierend auf dem interessierenden Bereich vorzubereiten, bevor es dem ausgewählten ML-System zugeführt wird. Die Vorrichtung kann mit dem Hausgerät integriert ausgeführt sein. Nach einem weiteren Aspekt der Erfindung umfasst ein Hausgerät eine hierin beschriebene Vorrichtung. Das Hausgerät kann eine Tür aufweisen, an der die Kamera angebracht ist, wobei die Kamera dazu eingerichtet ist, das Kamerabild bei geöffneter Tür abzutasten. Insbesondere kann das Kamerabild abgetastet werden, während die Tür gegenüber dem restlichen Hausgerät bewegt wird. Das Objekt kann am oder im Hausgerät angeordnet oder aufgenommen sein. In einer bevorzugten Ausführungsform umfasst das Hausgerät ein Kühlgerät mit einem kühlbaren Innenraum zur Aufnahme des Objekts. Die Erfindung wird nun unter Bezug auf die beiliegenden Figuren genauer beschrieben, in denen:
Die Vorrichtung 110 umfasst vorliegende eine Kamera 130 zur Bereitstellung eines Kamerabilds 135, einen Drehwinkelsensor 140 zur Bestimmung eines Öffnungswinkels ϕ der Tür 120 des Kühlgeräts 105, und eine Verarbeitungseinrichtung 145. Die Kamera 130 ist an der Tür 120 angebracht, sodass ihre Position und Ausrichtung bezüglich dem Objekt 115 von einem Öffnungswinkel ϕ der Tür 120 abhängig ist. Der mittels des Drehwinkelsensors 140 bestimmbare Öffnungswinkel ϕ stellt eine Seitenkanal-Information des Kamerabilds 135 dar, indem es einen Umstand betrifft, unter dem das Kamerabild abgetastet wird. In anderen Ausführungsformen kann eine andere Informationsquelle zur Bestimmung einer Seitenkanal-Information vorgesehen sein, insbesondere ein Sensor. Auch die Kamera 130 kann eine solche Information bereitstellen, beispielsweise in Form eines Belichtungsparameters, der bei der Abtastung des Kamerabilds 135 verwendet wurde. In einer weiteren Ausführungsform kann ein Speicher vorgesehen sein, in dem ein unveränderlicher Parameter abgelegt ist, der als Seitenkanal-Information verwendet werden kann, beispielsweise eine Abmessung des Innenraums 125. In noch einer weiteren Ausführungsform kann ein dynamischer Parameter wie der Drehwinkel mittels einer statisch abgespeicherten Information, etwa einer Tabelle, umgesetzt werden, um eine Seitenkanal-Information zu ergeben. Beispielsweise könnte so ein Verzerrungswinkel des Kamerabilds 135 auf der Basis des Drehwinkels bestimmt werden. Insbesondere wenn das Kühlgerät 105 vorbestimmte Aufnahmen für Objekte 115 aufweist, kann auf der Basis des Verzerrungswinkels auch ein Bereich des Kamerabilds 135 bestimmt werden, in welchem sich das Objekt 115 befindet, falls es in einer korrespondierenden Aufnahme vorhanden ist. Die Verarbeitungseinrichtung 145 kann mehrere Funktionsblöcke implementieren, von denen einige nach Art eines Flussdiagramms exemplarisch in Das von der Komponente 150 bereitgestellte, möglicherweise bereits angepasste Kamerabild 135 kann mittels einer optionalen Vorverarbeitung 155 vorverarbeitet werden, bevor mittels einer ML-Komponente 160 das Objekt 115 erkannt wird. Die ML-Komponente 160 stellt ein Ergebnis 165 bereit, welches das erkannte Objekt 115 repräsentieren kann. In einer Ausführungsform kann das Hausgerät 105 oder ein anderes Hausgerät 105 in Abhängigkeit des Ergebnisses 165 gesteuert werden. Im vorliegenden Beispiel könnte etwa ein Inventarsystem von einem erkannten Objekt 115 informiert werden oder eine Temperatur im Innenraum 125 des Kühlgeräts 105 könnte an das erkannte Objekt 115 angepasst werden. Vorliegend sind beispielhaft mehrere Vorverarbeitungen 155 vorgesehen und die Komponente 150 ist dazu eingerichtet, auf der Basis der Seitenkanal-Information eine der Vorverarbeitungen 155 auszuwählen, mittels der das Kamerabild 135 vorverarbeitet wird. Jeder Vorverarbeitung 155 kann ein dediziertes ML-System 160 zugeordnet sein oder nur ein ML-System 160 ist für mehrere Vorverarbeitungen 155 vorgesehen. Es können auch mehrere ML-Systeme 160 vorgesehen sein, von denen eines auf der Basis der Seitenkanal-Information zur Erkennung des Objekts 115 ausgewählt werden kann. Diese Auswahl kann unabhängig von der Auswahl einer der Vorverarbeitungen 155 sein. Eine Erkennung des Objekts 115 erfolgt üblicherweise nur mittels eines der ML-Systeme 160, sodass nur dieses ML-System 160 das Ergebnis 165 bereitstellt. In einem Schritt 210 kann eine Seitenkanal-Information bestimmt werden, die einen Umstand betrifft, unter dem das Kamerabild 135 abgetastet wird oder wurde. Die Seitenkanal-Information kann beispielsweise den Öffnungswinkel ϕ oder eine daraus abgeleitete Größe betreffen. Ein anderer Parameter kann ebenfalls bestimmt werden, insbesondere ein Abtastparameter der Kamera 130, ein vorbestimmter, durch eine Bauart des Hausgeräts 105 festgelegter, oder ein mittels eines weiteren Sensors bestimmter Parameter. In einem Schritt 215 kann die bestimmte Seitenkanal-Information berücksichtigt oder für die Erkennung des Objekts 115 berücksichtigt werden. In einer Variante wird hierzu das Kamerabild 135 bezüglich der bestimmten Seitenkanal-Information behandelt, etwa durch Freistellen, Entzerren oder Anpassen einer Belichtung oder Färbung. In einer weiteren Variante wird eine Zusatzinformation generiert, auf deren Basis eine nachfolgende Erkennung leichter durchgeführt werden kann. Beispielsweise kann eine Region of Interest bestimmt werden, in welcher das Objekt 115 vermutet wird und das für die Erkennung des Objekts 115 zu beachten ist. In noch einer weiteren Ausführungsform werden in Abhängigkeit der bestimmten Seitenkanal-Information eine von mehreren Vorverarbeitungen 155 und/oder eines von mehreren ML-Systemen 160 ausgewählt, um eine weitere Verarbeitung des Kamerabilds 135 durchzuführen. Mehrere der Varianten können miteinander kombiniert werden. In einem Schritt 220 kann eine Vorverarbeitung des Kamerabilds 135 erfolgen. Diese Vorverarbeitung unterscheidet sich üblicherweise von der auf die Seitenkanal-Information bezogene Verarbeitung von Schritt 215 und auch von einer möglichen Vorverarbeitung, die Teil einer nachfolgenden ML-Erkennung ist. Dieser Schritt kann an einen nachfolgenden Erkennungsschritt eines ML-Systems 160 angepasst sein. In einem Schritt 225 kann das Objekt 115 auf dem Kamerabild 135 erkannt werden, falls das Kamerabild 135 das Objekt 115 zumindest abschnittsweise abbildet. Eine Vorverarbeitung 155 kann einem ML-System 160 fest zugeordnet sein. Eine Vorverarbeitung 155 und ein ML-System 160 können miteinander integriert ausgeführt sein. Die Berücksichtigung der Seitenkanal-Information im Schritt 215 kann mit einer Vorverarbeitung 155 und/oder einem ML-System 160 integriert ausgeführt sein. Beispielsweise kann das ML-System 160 dazu eingerichtet sein, das Objekt 115 mittels R-CNN (Region Based Convolutional Neural Network) auf dem Kamerabild 135 zu erkennen. Bei R-CNN werden üblicherweise mehrere Regionen des Kamerabilds 135 bestimmt, die dafür infrage kommen, das Objekt 115 darzustellen, bevor eine Objekterkennung mittels CNN erfolgt. Vorliegend können eine oder mehrere Regionen im Schritt 215 auf der Basis einer Seitenkanal-Information bestimmt werden, bevor die Erkennung mittels eines CNN erfolgt. Eine weitere Vorverarbeitung 155 kann dann entfallen. Es kann auch ein anderes ML-System 160 verwendet werden, beispielsweise ein anderer regionsbasierter Ansatz wie Fast R-CNN, Faster R-CNN, Mask R-CNN oder Mesh R-CNN; oder auch ein Ansatz wie YOLO (You Only Look Once), SSD (Single Shot Multi-Box Detector) oder SIFT (Scale-Invariant Feature Transform). Ein Hinweis auf das erkannte Objekt 115 kann in einem Schritt 230 bereitgestellt werden. Der Hinweis kann durch die Vorrichtung 110, das Hausgerät 105 oder eine externe Einrichtung ausgewertet werden. Der Hinweis kann auch an eine Person gerichtet und in einer für Menschen verständlichen Form bereitgestellt sein. Optional kann das Hausgerät 105 - oder ein anderes Hausgerät 105 - auf der Basis des erkannten Objekts 115 gesteuert werden. Ein Verfahren zum Erkennen eines Objekts im Bereich eines Hausgeräts umfasst Schritte des Abtastens eines Kamerabilds, welches das Objekt darstellt, vom Hausgerät aus; des Erfassens einer Seitenkanal-Information; wobei die Seitenkanal-Information einen Umstand betrifft, unter dem das Kamerabild abgetastet wird; und des Erkennens des Objekts mittels eines ML-Systems auf der Basis des Kamerabilds und der Seitenkanal-Information.
Verfahren (200) zum Erkennen eines Objekts (115) im Bereich eines Hausgeräts (105), wobei das Verfahren (200) folgende Schritte umfasst:
- Abtasten (205) eines Kamerabilds (135), welches das Objekt (115) darstellt, vom Hausgerät (105) aus; - Erfassen (210) einer Seitenkanal-Information; - wobei die Seitenkanal-Information einen Umstand betrifft, unter dem das Kamerabild (135) abgetastet wird; und - Erkennen (225) des Objekts (115) mittels eines ML-Systems (160) auf der Basis des Kamerabilds (135) und der Seitenkanal-Information. Verfahren (200) nach Anspruch 1, wobei die Seitenkanal-Information durch eine Bauart des Hausgeräts (105) festgelegt ist. Verfahren (200) nach Anspruch 1 oder 2, wobei die Seitenkanal-Information einen Ort und/oder eine Ausrichtung einer Kamera (130) betrifft, mittels der das Kamerabild (135) abgetastet wird. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei das ML-System (160) ein künstliches neuronales Netzwerk umfasst. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei mehrere ML-Systeme (160) zur Erkennung des Objekts (115) vorgesehen sind, und eines davon auf der Basis der Seitenkanal-Information ausgewählt wird. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei auf der Basis der Seitenkanal-Information ein Abschnitt des Kamerabilds (135), der zur Erkennung des Objekts (115) irrelevant ist, verworfen wird. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Seitenkanal-Information eine Brennweite, eine Blende, eine Belichtungszeit und/oder eine Abtastempfindlichkeit der Kamera (130) zum Zeitpunkt des Abtastens umfasst. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Seitenkanal-Information eine relative Bewegung der Kamera, mittels der das Kamerabild (135) abgetastet wird, gegenüber dem Objekt (115) umfasst. Vorrichtung (110) zur Erkennung eines Objekts (115) im Bereich eines Hausgeräts (105), wobei die Vorrichtung (110) folgende Elemente umfasst:
- eine am Hausgerät (105) angebrachte Kamera (130) zur Abtastung eines Kamerabilds (135), welches das Objekt (115) darstellt; - eine Einrichtung (140) zur Erfassung einer Seitenkanal-Information; - wobei die Seitenkanal-Information einen Umstand betrifft, unter dem das Kamerabild (135) abgetastet wird; und - eine Verarbeitungseinrichtung (145) zur Erkennung des Objekts (115) mittels maschinellen Lernens auf der Basis des Kamerabilds (135) und der Seitenkanal-Information. Hausgerät (105), umfassend eine Vorrichtung (110) nach Anspruch 9. Hausgerät (105) nach Anspruch 10, wobei das Hausgerät (105) eine Tür (120) aufweist, an der die Kamera (130) angebracht ist, und die Kamera (130) dazu eingerichtet ist, das Kamerabild (135) bei geöffneter Tür (120) abzutasten.Bezugszeichen