发明名称 Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze
摘要 Agentensystem, das einen oder mehrere Computer und eine oder mehrere Speichervorrichtungen umfasst, die Anweisungen speichern, bei deren Ausführung durch den einen oder mehrere Computer der eine oder die mehreren Computer zum Ausführen von Vorgängen veranlasst werden, umfassend: Vorhalten von Daten, die eine Statusstruktur einer Umgebung darstellen, mit denen ein Agentensystem durch Ausführen von Aktionen zusammenwirkt, die aus einem Satz von möglichen Aktionen ausgewählt werden, worin die Statusstruktur eine Vielzahl von Knoten und eine Vielzahl von Kanten umfasst, worin jeder Knoten einen jeweiligen Status der Umgebung darstellt, der durch das Agentensystem während des Zusammenwirkens mit der Umgebung oder mit einer simulierten Version der Umgebung angetroffen wurde, und worin jede Kante einen jeweiligen ersten Knoten mit einem jeweiligen zweiten Knoten verbindet und eine Aktion darstellt, die (i) durch das Agentensystem als Reaktion auf eine Beobachtung ausgeführt wurde, die einen durch den jeweiligen ersten Knoten dargestellten ersten Status kennzeichnet, und (ii) zum Ergebnis hat, dass die Umgebung oder die simulierte Version der Umgebung in einen durch den jeweiligen zweiten Knoten dargestellten zweiten Status übergeht; Vorhalten von Kantendaten, wobei die Kantendaten für jede der Vielzahl von Kanten Folgendes umfassen: (i) eine jeweilige Aktionspunktzahl für die durch die Kante dargestellte Aktion, (ii) einen jeweiligen Zugriffszähler, der eine Anzahl von Malen darstellt, in denen die Kante durch das Agentensystem als Reaktion auf Beobachtungen ausgeführt wurde, die den jeweiligen ersten Status kennzeichnen, der durch den jeweiligen ersten Knoten für die Kante dargestellt wird, und (iii) eine jeweilige vorherige Wahrscheinlichkeit; Empfangen einer Wurzelbeobachtung, die einen Wurzelstatus der Umgebung kennzeichnet, der durch einen Wurzelknoten der Vielzahl von Knoten dargestellt wird; Auswählen von durch das Agentensystem auszuführenden Aktionen, um mit der Umgebung oder der simulierten Version der Umgebung durch Durchqueren der Statusstruktur ab dem Wurzelknoten gemäß der Kantendaten zusammenzuwirken, bis die Umgebung oder die simulierte Version der Umgebung einen Blattstatus erreicht, der durch einen Blattknoten in der Statusstruktur dargestellt wird; und Bewerten des Blattknotens durch Verarbeiten einer Blattbeobachtung unter Verwendung eines neuronalen Wertnetzes, das zum Verarbeiten der Blattbeobachtung trainiert wurde, um eine Wertpunktzahl für den Blattstatus zu erzeugen, der eine vorhergesagte Langzeitbelohnung darstellt, die als Ergebnis empfangen wurde, dass sich die Umgebung in dem Blattstatus befindet.
申请公布号 DE202016004628(U1) 申请公布日期 2016.09.23
申请号 DE20162004628U 申请日期 2016.07.27
申请人 Google Inc. 发明人
分类号 G06N3/02 主分类号 G06N3/02
代理机构 代理人
主权项
地址