Markov decision process (original) (raw)

عملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل.

Property	Value
dbo:abstract	عملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل. (ar) Markovovy rozhodovací procesy jsou pojmenovány po ruském matematikovi Andreji Markovovi. Poskytují matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky zčásti náhodné a zčásti pod kontrolou uživatele. Markovovy rozhodovací procesy se využívají pro studium mnoha typů optimalizačních problémů, řešených prostřednictvím dynamického programování a zpětnovazebního učení. Markovovy rozhodovací procesy jsou známy od 50. let 20. století (viz Bellman 1957). Mnoho výzkumu v této oblasti bylo učiněno na základě knihy Dynamické programování a Markovovy procesy z roku 1960. Dnes jsou využívány v různých oblastech včetně robotiky, , ekonomie a průmyslové výroby. Přesněji řečeno je Markovův rozhodovací proces diskrétní, stochastický a proces. V každém časovém okamžiku je proces v určitém stavu a uživatel může vybrat jakoukoli akci , která je dostupná ve stavu . Proces na tuto akci v následujícím časovém okamžiku reaguje náhodným přesunutím do nového stavu a dává uživateli odpovídající užitek . Pravděpodobnost, že proces vybere jako nový stav, je ovlivněna vybranou akcí. Pravděpodobnost je určena funkcí přechodu stavu . Takže následující stav závisí na současném stavu a na uživatelově akci . Dané a jsou však podmíněně závislé na všech předchozích stavech a akcích. Jinými slovy má přechod stavu Markovova rozhodovacího procesu Markovovu vlastnost. Markovovy rozhodovací procesy jsou rozšířením Markovových řetězců; rozdíl je v přidání akcí (umožňují výběr) a užitků (motivace). Pokud by existovala pouze jedna akce, nebo pokud by byla daná uskutečnitelná akce stejná pro všechny stavy, Markovův rozhodovací proces by se zredukoval na Markovův řetězec. (cs) Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von . (de) En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. Un processus de décision markovien est un processus de contrôle stochastique discret. À chaque étape, le processus est dans un certain état et l'agent choisit une action . La probabilité que le processus arrive à l'état est déterminée par l'action choisie. Plus précisément, elle est décrite par la fonction de transition d'états . Donc, l'état dépend de l'état actuel et de l'action sélectionnée par le décideur. Cependant, pour un et un , le prochain état est indépendant des actions et états précédents. On dit alors que le processus satisfait la propriété de Markov. Quand le processus passe de l'état à l'état avec l'action , l'agent gagne une récompense . Les MDPs sont une extension des chaînes de Markov. La différence est l'addition des actions choisies par l'agent et des récompenses gagnées par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que les récompenses sont égales, le processus de décision markovien est une chaîne de Markov. (fr) In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains. At each time step, the process is in some state , and the decision maker may choose any action that is available in state . The process responds at the next time step by randomly moving into a new state , and giving the decision maker a corresponding reward . The probability that the process moves into its new state is influenced by the chosen action. Specifically, it is given by the state transition function . Thus, the next state depends on the current state and the decision maker's action . But given and , it is conditionally independent of all previous states and actions; in other words, the state transitions of an MDP satisfy the Markov property. Markov decision processes are an extension of Markov chains; the difference is the addition of actions (allowing choice) and rewards (giving motivation). Conversely, if only one action exists for each state (e.g. "wait") and all rewards are the same (e.g. "zero"), a Markov decision process reduces to a Markov chain. (en) I processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuale e in parte sotto il . Gli MDP sono utili per lo studio di una vasta gamma di problemi di ottimizzazione, risolti con la programmazione dinamica e l'apprendimento per rinforzo. Gli MDP sono noti fin dal 1950. Essi sono utilizzati in una vasta area di discipline in cui il processo di presa di decisione avviene in un intorno dinamico, tra cui la robotica, l'automazione, l'economia, e la produzione industriale. Più precisamente, un processo decisionale di Markov è un processo di controllo stocastico a tempo discreto. Se gli spazi degli stati e delle azioni sono finiti, allora il problema è chiamato MDP finito. Gli MDP finiti sono particolarmente importanti per la teoria dell'apprendimento per rinforzo (reinforcement learning). (it) マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 (ja) 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, , 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과정은 적어도 1950년대에 처음 고안되었으며, 마르코프 결정 과정에 대한 가장 핵심적인 연구는 1960년에 출판된 의 책 《동적 계획법과 마르코프 과정》(Dynamic Programming and Markov Processes)이다. 더 정확히는, 마르코프 결정 과정은 확률 제어 과정(discrete time stochastic control process)이다. 어떤 시점에, 마르코프 결정 과정은 어떤 상태 에 존재한다. 의사결정자는 해당 상태 에서 어떤 행동 를 취할 수 있으며, 다음 시점에서 마르코프 결정 과정은 확률적으로 새로운 상태 로 전이한다. 이 때 의사결정자는 상태 전이에 해당하는 보상 을 받는다. 기존의 상태 에서 새로운 상태 로 전이하는 확률은 의사결정자의 행동에 영향을 받는다. 즉, 전이 확률 함수는 와 같이 주어진다. 따라서, 다음 상태 는 현재 상태 와 의사결정자의 행동 에만 영향을 받으며 이전의 모든 상태와는 확률적으로 독립적이므로, 마르코프 결정 과정의 상태 전이는 을 만족한다. 마르코프 결정 과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. (ko) Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero. (ru) 在數學中，馬可夫決策過程（英語：Markov decision process，MDP）是隨機控製過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知；一個對馬可夫決策過程的核心研究是於1960年出版的《動態規劃和馬可夫過程》。它們被用於許多領域，包括機器人學，自動化，經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫，因為它們是馬可夫鏈的推廣。在每個時間步驟中，隨機過程都處於某種狀態，決策者可以選擇在狀態下可用的動作。該隨機過程在下一時間步驟會隨機進入新狀態，並給予決策者相應的回饋。隨機過程進入新狀態的機率受所選操作影響。具體來說，它是由狀態轉換函數給出的。因此，下一個狀態取決於當前狀態和決策者的動作。但是給定和，它條件獨立於所有先前的狀態和動作；換句話說，MDP的狀態轉換滿足马尔可夫性质。马尔可夫决策过程是马尔可夫链的推广，不同之处在于添加了行动（允许选择）和奖励（给予动机）。反過來說，如果每个状态只存在一个操作和所有的奖励都是一样的，一个马尔可夫决策过程可以归结为一个马尔可夫链。 (zh) Ма́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор.). Основна маса досліджень марковських процесів вирішування стала результатом книги , опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом. Якщо точніше, то марковський процес вирішування є стохастичним процесом керування . На кожному кроці часу процес перебуває в якомусь стані , і ухвалювач рішення може обрати будь-яку дію , доступну в стані . Процес реагує на наступному кроці часу випадковим переходом до нового стану і наданням ухвалювачеві рішення відповідної винагороди (англ. reward) . Ймовірність переходу процесу до його нового стану знаходиться під впливом обраної дії. Конкретно, вона задається функцією переходу стану . Таким чином, наступний стан залежить від поточного стану та від дії ухвалювача рішення . Але для заданих та він є умовно незалежним від усіх попередніх станів та дій; іншими словами, переходи станів процесу МПВ задовольняють марковську властивість. Марковські процеси вирішування є розширенням марковських ланцюгів; різниця полягає в доданні дій (що дає вибір) та винагород (що дає мотивацію). І навпаки, якщо для кожного стану існує лише одна дія (наприклад, «чекати») та всі винагороди є однаковими (наприклад, «нуль»), то марковський процес вирішування зводиться до марковського ланцюга. (uk)
dbo:thumbnail	wiki-commons:Special:FilePath/Markov_Decision_Process.svg?width=300
dbo:wikiPageExternalLink	http://incompleteideas.net/sutton/book/the-book-2nd.html http://www.deeplearningitalia.com/wp-content/uploads/2018/03/Introduction-to-Stochastic-Dynamic-Programming-Ross.pdf https://books.google.com/books%3Fid=TpwKCAAAQBAJ%7Cisbn=9781461508052 https://books.google.com/books%3Fid=WibF8iVHaiMC%7Cisbn=9780470864289 http://www.eecs.umich.edu/~baveja/ http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps.gz https://www.springer.com/mathematics/applications/book/978-3-642-02546-4 https://www.springer.com/mathematics/applications/book/978-3-642-02546-4%7Ctitle=Continuous-Time https://netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html%7Carchive-url=https:/web.archive.org/web/20100619011046/https:/netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html%7Carchive-date=19 https://netfiles.uiuc.edu/meyn/www/spm_files/book.html%7Carchive-url=https:/web.archive.org/web/20121218173202/https:/netfiles.uiuc.edu/meyn/www/spm_files/book.html%7Carchive-date=18 http://ncatlab.org/nlab/show/Giry+monad
dbo:wikiPageID	1125883 (xsd:integer)
dbo:wikiPageLength	30887 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1124829194 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Bellman_equation dbr:Q-learning dbr:Quantum_finite_automata dbr:Robotics dbr:Mabinogion_sheep_problem dbr:Partially_observable_Markov_decision_process dbr:Decision_making dbc:Dynamic_programming dbr:Computable_function dbr:Generative_model dbr:Monte_Carlo_tree_search dbr:Ergodicity dbr:Andrey_Markov dbr:Lloyd_Shapley dbr:Machine_learning dbr:Stochastic dbr:Function_approximation dbr:Hamilton–Jacobi–Bellman_equation dbr:Kumpati_S._Narendra dbr:Markov_property dbr:Recursive_economics dbr:Tuple dbr:Linear_programming dbr:Ronald_A._Howard dbr:Dynamic_programming dbr:Economics dbr:Automatic_control dbr:Probability dbr:Randomness dbr:Regression_analysis dbr:Reinforcement_learning dbr:Relaxation_(iterative_method) dbr:Backward_induction dbc:Optimal_decisions dbc:Markov_processes dbr:Odds_algorithm dbc:Stochastic_control dbr:Markov_process dbr:Policy dbr:Free_monoid dbr:Algorithms dbr:Optimal_control dbr:Optimization_problem dbr:Ordinary_differential_equation dbr:Category_theory dbr:Set_(mathematics) dbr:Kleisli_category dbr:Markov_chain dbr:Manufacturing dbr:Stochastic_game dbr:Pseudocode dbr:Motion_planning dbr:Population_process dbr:Value_function dbr:Stochastic_games dbr:State_transition_function dbr:Set_of_real_numbers dbr:Finite_state_automata dbr:Optimal_control_theory dbr:Discrete-time dbr:Queueing_system dbr:Continuous_time dbr:Probabilistic_automata dbr:File:Markov_Decision_Process.svg
dbp:date	July 2018 (en)
dbp:reason	The derivation of the substituion is needed (en)
dbp:wikiPageUsesTemplate	dbt:Citation_needed dbt:Cite_book dbt:Cite_web dbt:Clarify dbt:Div_col dbt:Div_col_end dbt:Explain dbt:Harv dbt:Main dbt:Mvar dbt:Reflist dbt:Sfn dbt:What dbt:Harvnb
dcterms:subject	dbc:Dynamic_programming dbc:Optimal_decisions dbc:Markov_processes dbc:Stochastic_control
rdf:type	yago:WikicatMarkovProcesses yago:WikicatOptimalDecisions yago:WikicatStochasticProcesses yago:Abstraction100002137 yago:Act100030358 yago:Action100037396 yago:Activity100407535 yago:Choice100161243 yago:Cognition100023271 yago:Concept105835747 yago:Content105809192 yago:Decision100162632 yago:Event100029378 yago:Hypothesis105888929 yago:Idea105833840 yago:Model105890249 yago:Procedure101023820 yago:PsychologicalFeature100023100 yago:YagoPermanentlyLocatedEntity yago:StochasticProcess113561896
rdfs:comment	عملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل. (ar) Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von . (de) マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 (ja) Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero. (ru) 在數學中，馬可夫決策過程（英語：Markov decision process，MDP）是隨機控製過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知；一個對馬可夫決策過程的核心研究是於1960年出版的《動態規劃和馬可夫過程》。它們被用於許多領域，包括機器人學，自動化，經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫，因為它們是馬可夫鏈的推廣。在每個時間步驟中，隨機過程都處於某種狀態，決策者可以選擇在狀態下可用的動作。該隨機過程在下一時間步驟會隨機進入新狀態，並給予決策者相應的回饋。隨機過程進入新狀態的機率受所選操作影響。具體來說，它是由狀態轉換函數給出的。因此，下一個狀態取決於當前狀態和決策者的動作。但是給定和，它條件獨立於所有先前的狀態和動作；換句話說，MDP的狀態轉換滿足马尔可夫性质。马尔可夫决策过程是马尔可夫链的推广，不同之处在于添加了行动（允许选择）和奖励（给予动机）。反過來說，如果每个状态只存在一个操作和所有的奖励都是一样的，一个马尔可夫决策过程可以归结为一个马尔可夫链。 (zh) Markovovy rozhodovací procesy jsou pojmenovány po ruském matematikovi Andreji Markovovi. Poskytují matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky zčásti náhodné a zčásti pod kontrolou uživatele. Markovovy rozhodovací procesy se využívají pro studium mnoha typů optimalizačních problémů, řešených prostřednictvím dynamického programování a zpětnovazebního učení. Markovovy rozhodovací procesy jsou známy od 50. let 20. století (viz Bellman 1957). Mnoho výzkumu v této oblasti bylo učiněno na základě knihy Dynamické programování a Markovovy procesy z roku 1960. Dnes jsou využívány v různých oblastech včetně robotiky, , ekonomie a průmyslové výroby. (cs) In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains. (en) En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. (fr) 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, , 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과정은 적어도 1950년대에 처음 고안되었으며, 마르코프 결정 과정에 대한 가장 핵심적인 연구는 1960년에 출판된 의 책 《동적 계획법과 마르코프 과정》(Dynamic Programming and Markov Processes)이다. 마르코프 결정 과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. (ko) I processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuale e in parte sotto il . Gli MDP sono utili per lo studio di una vasta gamma di problemi di ottimizzazione, risolti con la programmazione dinamica e l'apprendimento per rinforzo. Gli MDP sono noti fin dal 1950. Essi sono utilizzati in una vasta area di discipline in cui il processo di presa di decisione avviene in un intorno dinamico, tra cui la robotica, l'automazione, l'economia, e la produzione industriale. (it) Ма́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор.). Основна маса досліджень марковських процесів вирішування стала результатом книги , опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом. (uk)
rdfs:label	قرارات عملية ماركوف (ar) Markovův rozhodovací proces (cs) Markow-Entscheidungsproblem (de) Processo decisionale di Markov (it) Processus de décision markovien (fr) Markov decision process (en) マルコフ決定過程 (ja) 마르코프 결정 과정 (ko) Марковский процесс принятия решений (ru) Марковський процес вирішування (uk) 馬可夫決策過程 (zh)
owl:sameAs	freebase:Markov decision process yago-res:Markov decision process wikidata:Markov decision process dbpedia-ar:Markov decision process dbpedia-cs:Markov decision process dbpedia-de:Markov decision process dbpedia-fa:Markov decision process dbpedia-fr:Markov decision process dbpedia-he:Markov decision process dbpedia-is:Markov decision process dbpedia-it:Markov decision process dbpedia-ja:Markov decision process dbpedia-ko:Markov decision process dbpedia-ru:Markov decision process dbpedia-simple:Markov decision process dbpedia-tr:Markov decision process dbpedia-uk:Markov decision process dbpedia-vi:Markov decision process dbpedia-zh:Markov decision process https://global.dbpedia.org/id/iN44
prov:wasDerivedFrom	wikipedia-en:Markov_decision_process?oldid=1124829194&ns=0
foaf:depiction	wiki-commons:Special:FilePath/Markov_Decision_Process.svg
foaf:isPrimaryTopicOf	wikipedia-en:Markov_decision_process
is dbo:knownFor of	dbr:Cyrus_Derman dbr:Michael_Katehakis
is dbo:wikiPageDisambiguates of	dbr:MDP
is dbo:wikiPageRedirects of	dbr:Algorithms_for_solving_Markov_decision_processes dbr:Methods_for_solving_Markov_decision_processes dbr:Markov_Decision_Process dbr:Policy_iteration dbr:Value_iteration dbr:Markov_Decision_Processes dbr:Markov_decision_problems dbr:Markov_decision_processes
is dbo:wikiPageWikiLink of	dbr:Bellman_equation dbr:Q-learning dbr:List_of_algorithms dbr:Monte_Carlo_POMDP dbr:Olog dbr:Online_optimization dbr:Partially_observable_Markov_decision_process dbr:Apprenticeship_learning dbr:Richard_Weber_(mathematician) dbr:Decentralized_partially_observable_Markov_decision_process dbr:Deep_reinforcement_learning dbr:Dynamic_discrete_choice dbr:Intrinsic_motivation_(artificial_intelligence) dbr:List_of_numerical_analysis_topics dbr:Thompson_sampling dbr:Proto-value_function dbr:Weighted_automaton dbr:Quantum_finite_automaton dbr:Game_theory dbr:Glossary_of_artificial_intelligence dbr:Thomas_Dean_(computer_scientist) dbr:Optimal_stopping dbr:Optimistic_knowledge_gradient dbr:Andrey_Markov dbr:Baum–Welch_algorithm dbr:Machine_learning dbr:Shlomo_Zilberstein dbr:State–action–reward–state–action dbr:Multi-armed_bandit dbr:Temporal_difference_learning dbr:Markov_model dbr:Markov_property dbr:Markov_reward_model dbr:Recursive_economics dbr:Drift_plus_penalty dbr:Gittins_index dbr:Cryptoeconomics dbr:Ionescu-Tulcea_theorem dbr:Learning_automaton dbr:Ronald_A._Howard dbr:Cyrus_Derman dbr:Dynamic_programming dbr:Eugene_A._Feinberg dbr:Diffusion_wavelets dbr:Directed_information dbr:Discrete_Poisson_equation dbr:Graph_isomorphism_problem dbr:PRISM_model_checker dbr:Reinforcement_learning dbr:Artificial_intelligence dbr:Artificial_neural_network dbr:Collaborative_filtering dbr:Transition_(computer_science) dbr:Model-free_(reinforcement_learning) dbr:Dialog_manager dbr:Automated_planning_and_scheduling dbr:Mark_E._Lewis_(engineer) dbr:Bulk_queue dbr:Zadeh's_rule dbr:Algorithms_for_solving_Markov_decision_processes dbr:Methods_for_solving_Markov_decision_processes dbr:Michael_Katehakis dbr:Oliver_Friedmann dbr:Catalog_of_articles_in_probability_theory dbr:Markov_chain dbr:MDP dbr:Multi-agent_reinforcement_learning dbr:List_of_statistics_articles dbr:List_of_things_named_after_Andrey_Markov dbr:Gijsbert_de_Leve dbr:Stochastic_game dbr:Multiscale_decision-making dbr:Planning_Domain_Definition_Language dbr:Secretary_problem dbr:Outline_of_artificial_intelligence dbr:Markov_Decision_Process dbr:Policy_iteration dbr:Stochastic_dynamic_programming dbr:Value_iteration dbr:Markov_Decision_Processes dbr:Markov_decision_problems dbr:Markov_decision_processes
is dbp:knownFor of	dbr:Cyrus_Derman dbr:Michael_Katehakis
is rdfs:seeAlso of	dbr:Bellman_equation
is foaf:primaryTopic of	wikipedia-en:Markov_decision_process