Q-learning (original) (raw)

About DBpedia

Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen.

thumbnail

Property Value
dbo:abstract Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen. (de) Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones. Para cualquier finito (PDMF) (finite Markov decision process en inglés), Q-learning encuentra una política óptima en el sentido de que maximiza el valor esperado de la recompensa total sobre todos los pasos sucesivos, empezando desde el estado actual.​ Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria​ "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.​ (es) En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est une technique d'apprentissage par renforcement. Cette technique ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. C'est un algorithme off-policy. (fr) Q-learning is a model-free reinforcement learning algorithm to learn the value of an action in a particular state. It does not require a model of the environment (hence "model-free"), and it can handle problems with stochastic transitions and rewards without requiring adaptations. For any finite Markov decision process (FMDP), Q-learning finds an optimal policy in the sense of maximizing the expected value of the total reward over any and all successive steps, starting from the current state. Q-learning can identify an optimal action-selection policy for any given FMDP, given infinite exploration time and a partly-random policy. "Q" refers to the function that the algorithm computes – the expected rewards for an action taken in a given state. (en) Q-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta. Uno dei suoi maggiori punti di rilievo consiste nell'abilità di comparare l'utilità aspettata delle azioni disponibili senza richiedere un modello dell'ambiente. (it) Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 하나이다. Q 러닝은 주어진 유한 마르코프 결정 과정의 최적의 정책을 찾기 위해 사용할 수 있다. Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q 함수를 학습하고나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q 러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 행동의 기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q 러닝은 전이가 확률적으로 일어나거나 보상이 확률적으로 주어지는 환경에서도 별다른 변형 없이 적용될 수 있다. Q 러닝은 임의의 유한 MDP에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다. (ko) Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 (ja) Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений. (ru) Q-学习是强化学习的一种方法。Q-学习就是要記錄下学习過的策略,因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。 对于任何有限的馬可夫決策過程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。 「Q」这个字母在强化学习中表示一个动作的期望奖励。 (zh) Q-навча́ння (англ. Q-learning) — це алгоритм безмодельного навчання з підкріпленням. Метою Q-навчання є навчитися стратегії, яка каже агентові, до якої дії вдаватися за яких обставин. Воно не вимагає моделі середовища (звідси уточнення «безмодельного»), і може розв'язувати задачі зі стохастичними переходами та винагородами, не вимагаючи пристосувань. Для будь-якого скінченного марковського процесу вирішування (СМПВ, англ. finite Markov decision process, FMDP) Q-навчання знаходить стратегію, яка є оптимальною в тому сенсі, що вона максимізує очікуване значення повної винагороди над будь-якими та усіма послідовними кроками, починаючи з поточного стану. Q-навчання може визначати оптимальну стратегію обирання дій для довільного СМПВ за умови нескінченного часу на розвідування та частково випадкової стратегії. Символом Q позначають функцію, яка повертає винагороду, що використовують для забезпечення підкріплення, і про яку можливо сказати, що вона відповідає «якості» (англ. Quality) дії, обраної в поточному стані. (uk)
dbo:thumbnail wiki-commons:Special:FilePath/Q-Learning_Matrix_Initialized_and_After_Training.png?width=300
dbo:wikiPageExternalLink http://www.research.ibm.com/infoecon/paps/html/ijcai99_qnn/node4.html http://ccl.northwestern.edu/netlogo/models/community/Reinforcement%20Learning%20Maze http://www.cs.rhul.ac.uk/~chrisw/thesis.html http://sourceforge.net/projects/piqle/ https://web.archive.org/web/20050806080008/http:/www.cs.ualberta.ca/~sutton/book/the-book.html https://web.archive.org/web/20081202105235/http:/www.cs.ualberta.ca/~sutton/book/ebook/node65.html http://portal.acm.org/citation.cfm%3Fid=1143955
dbo:wikiPageID 1281850 (xsd:integer)
dbo:wikiPageLength 26478 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1122657267 (xsd:integer)
dbo:wikiPageWikiLink dbr:Bellman_equation dbr:Prisoner's_dilemma dbr:Probably_approximately_correct_learning dbr:Peter_Dayan dbr:Curse_of_dimensionality dbc:Reinforcement_learning dbr:Deep_learning dbr:Deterministic_system dbr:Intelligent_agent dbr:Convolution dbr:Game_theory dbr:Google_DeepMind dbr:Convolutional_neural_network dbr:Angular_velocity dbr:State–action–reward–state–action dbr:Function_approximation dbr:Temporal_difference_learning dbr:Backpropagation dbr:Action_selection dbc:Machine_learning_algorithms dbr:Fuzzy_rule dbr:Learning_rate dbr:Expected_value dbr:Discretization dbr:Reinforcement_learning dbr:Artificial_neural_network dbr:Atari_2600 dbr:Model-free_(reinforcement_learning) dbr:Markov_decision_process dbr:Pseudocode dbr:Chris_Watkins dbr:Stochastic_systems dbr:File:Q-Learning_Matrix_Initialized_and_After_Training.png dbr:Off-policy
dbp:wikiPageUsesTemplate dbt:= dbt:Clarify dbt:Main dbt:Mvar dbt:Reflist dbt:Short_description dbt:Tmath dbt:Machine_learning dbt:Differentiable_computing
dct:subject dbc:Reinforcement_learning dbc:Machine_learning_algorithms
gold:hypernym dbr:Reinforcement
rdf:type dbo:AnatomicalStructure
rdfs:comment Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen. (de) En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est une technique d'apprentissage par renforcement. Cette technique ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. C'est un algorithme off-policy. (fr) Q-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta. Uno dei suoi maggiori punti di rilievo consiste nell'abilità di comparare l'utilità aspettata delle azioni disponibili senza richiedere un modello dell'ambiente. (it) Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 하나이다. Q 러닝은 주어진 유한 마르코프 결정 과정의 최적의 정책을 찾기 위해 사용할 수 있다. Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q 함수를 학습하고나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q 러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 행동의 기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q 러닝은 전이가 확률적으로 일어나거나 보상이 확률적으로 주어지는 환경에서도 별다른 변형 없이 적용될 수 있다. Q 러닝은 임의의 유한 MDP에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다. (ko) Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 (ja) Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений. (ru) Q-学习是强化学习的一种方法。Q-学习就是要記錄下学习過的策略,因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。 对于任何有限的馬可夫決策過程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。 「Q」这个字母在强化学习中表示一个动作的期望奖励。 (zh) Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones. (es) Q-learning is a model-free reinforcement learning algorithm to learn the value of an action in a particular state. It does not require a model of the environment (hence "model-free"), and it can handle problems with stochastic transitions and rewards without requiring adaptations. (en) Q-навча́ння (англ. Q-learning) — це алгоритм безмодельного навчання з підкріпленням. Метою Q-навчання є навчитися стратегії, яка каже агентові, до якої дії вдаватися за яких обставин. Воно не вимагає моделі середовища (звідси уточнення «безмодельного»), і може розв'язувати задачі зі стохастичними переходами та винагородами, не вимагаючи пристосувань. (uk)
rdfs:label Q-Lernen (de) Q-learning (es) Q-learning (fr) Q-learning (it) Q-learning (en) Q学習 (ja) Q 러닝 (ko) Q-обучение (ru) Q-навчання (uk) Q学习 (zh)
owl:sameAs freebase:Q-learning wikidata:Q-learning dbpedia-de:Q-learning dbpedia-es:Q-learning dbpedia-fa:Q-learning dbpedia-fr:Q-learning dbpedia-he:Q-learning dbpedia-it:Q-learning dbpedia-ja:Q-learning dbpedia-ko:Q-learning dbpedia-no:Q-learning dbpedia-ro:Q-learning dbpedia-ru:Q-learning dbpedia-sr:Q-learning dbpedia-uk:Q-learning dbpedia-vi:Q-learning dbpedia-zh:Q-learning https://global.dbpedia.org/id/2WA1K
prov:wasDerivedFrom wikipedia-en:Q-learning?oldid=1122657267&ns=0
foaf:depiction wiki-commons:Special:FilePath/Q-Learning_Matrix_Initialized_and_After_Training.png
foaf:isPrimaryTopicOf wikipedia-en:Q-learning
is dbo:knownFor of dbr:Peter_Dayan dbr:John_Tsitsiklis
is dbo:wikiPageRedirects of dbr:Q-Learning dbr:Q_learning dbr:Deep_Q-learning
is dbo:wikiPageWikiLink of dbr:Q-Learning dbr:Rumelhart_Prize dbr:List_of_algorithms dbr:DeepMind dbr:Peter_Dayan dbr:Deep_reinforcement_learning dbr:Timeline_of_machine_learning dbr:Convolutional_neural_network dbr:State–action–reward–state–action dbr:Machine_learning_in_video_games dbr:Temporal_difference_learning dbr:Adaptive_bitrate_streaming dbr:Agent-based_computational_economics dbr:Learning_classifier_system dbr:John_Tsitsiklis dbr:Reinforcement_learning dbr:Cognitive_architecture dbr:Model-free_(reinforcement_learning) dbr:Markov_decision_process dbr:Mountain_car_problem dbr:Outline_of_machine_learning dbr:Q_learning dbr:Deep_Q-learning
is dbp:knownFor of dbr:Peter_Dayan
is foaf:primaryTopic of wikipedia-en:Q-learning