A method of reinforcement learning, corresponding computer program product, and data storage device therefor,申请号EP20100305410-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	A method of reinforcement learning, corresponding computer program product, and data storage device therefor
摘要	The invention concerns a method of reinforcement learning, the method comprising the steps of perceiving (101) a current state from a fuzzy set of states of an environment; based on the current state and a policy, choosing (102) an action from a fuzzy set of actions, wherein the policy associates each state from the fuzzy set of states with an action from the fuzzy set of actions and, for each state from the fuzzy set of states, is based on a probability distribution on the fuzzy set of actions; receiving (103) from the environment a new state and a reward; and, based on the reward, optimizing (104) the policy. The invention further concerns a computer program product and a device therefor.
申请公布号	EP2381393(A1)	申请公布日期	2011.10.26
申请号	EP20100305410	申请日期	2010.04.20
申请人	ALCATEL LUCENT	发明人	RAZAVI, ROUZBEH;CLAUSSEN, HOLGER;HO, LESTER
分类号	G06N7/02	主分类号	G06N7/02
代理机构		代理人
主权项
地址

您可能感兴趣的专利

WERKWIJZE VOOR HET REGELEN VAN DE KOELWERKING VAN EEN IN DE BUITENLUCHT OPGESTELDE STOOMCONDENSOR EN INRICHTING VOOR HET UITVOEREN VAN DE WERKWIJZE.

PYRIMIDINE-DERIVATEN.

INRICHTING VOOR HET AUTOMATISCH UITVOEREN VAN EEN ENZYMIMMUNOPROEF.

WERKWIJZE VOOR HET CONTINU CHLOREREN LANGS DE DROGE WEG VAN POLYVINYLCHLORIDE.

WERKWIJZE VOOR HET ZUIVEREN VAN ETHEEN BEVATTENDE GASSEN DOOR SELECTIEVE HYDROGENERING.

WERKWIJZE VOOR HET ONTPARAFFINEREN VAN SMEEROLIEN DOOR GEFRACTIONEERDE KRISTALLISATIE.

WERKWIJZE VOOR HET BEREIDEN VAN POLYALKENEN EN DAARUIT VERVAARDIGDE GEVORMDE VOORTBRENGSELEN.

INRICHTING VOOR HET BEPALEN VAN DE HOEVEELHEID SUBSTANTIE DIE DOOR DIFFUSIE GEEMITTEERD WORDT UIT EEN OPPERVLAK.

MENGWAGEN VOOR HET TRANSPORT VAN VLOEIBARE METALEN.

LUCHTAFSCHEIDER VOOR MEETINRICHTINGEN VOOR VLOEISTOFHOEVEELHEDEN IN HET BIJZONDER IN INRICHTINGEN VOOR HET OPNEMEN OF AFLEVEREN VAN MELK.

WERKWIJZE OM EEN LAAG GOUD AAN TE BRENGEN.

INWENDIGE AFSLUITER VOOR LEIDING.

WERKWIJZE VOOR HET BEREIDEN VAN GAMMA-IJZER(III)HYDROXYOXIDE.

INRICHTING VOOR HET IN EEN WERKZAME VERHOUDING HOUDEN VAN TWEE MAGNETISCHE OVERDRAGERS.

RUGLEUNING VOOR STOELEN.

UITLEESEENHEID VOOR PLATENSPELER.

BLIJVEND BRUIKBAAR KOFFIEFILTER.

TWEEVLAKKIG GEBREIDE PLUCHE GOEDEREN EN WERKWIJZE VOOR DE VERVAARDIGING DAARVAN.

WERKWIJZE EN INRICHTING VOOR HET ELEKTRO-OPTISCH CONVOLUEREN VAN SIGNALEN.