Eligibility Traces for Off-Policy Policy Evaluation (original) (raw)

Improving the Efficiency of Off-Policy Reinforcement Learning by Accounting for Past Decisions

ArXiv, 2021

View PDFchevron_right

META-Learning State-based Eligibility Traces for More Sample-Efficient Policy Evaluation

2020

View PDFchevron_right

Off-policy learning with recognizers

Advances in Neural …, 2006

View PDFchevron_right

Efficient Eligibility Traces for Deep Reinforcement Learning

2018

View PDFchevron_right

Using Eligibility Traces to Find the Best Memoryless Policy in Partially Observable Markov Decision Processes

1998

View PDFchevron_right

Conditional Importance Sampling for Off-Policy Learning

Anna Harutyunyan

2019

View PDFchevron_right

Stateful Offline Contextual Policy Evaluation and Learning

ArXiv, 2021

View PDFchevron_right

Variance-Aware Off-Policy Evaluation with Linear Function Approximation

2021

View PDFchevron_right

Off-policy learning with options and recognizers

Advances in Neural …, 2006

View PDFchevron_right

Off-Policy Temporal Difference Learning with Function Approximation

2001

View PDFchevron_right

On Minimax Optimal Offline Policy Evaluation

Csaba Szepesvari

View PDFchevron_right

Combining Off and On-Policy Training in Model-Based Reinforcement Learning

Arlindo Oliveira

ArXiv, 2021

View PDFchevron_right

Off-Policy Correction for Actor-Critic Methods without Importance Sampling

arXiv (Cornell University), 2022

View PDFchevron_right

Learning State Features from Policies to Bias Exploration in Reinforcement Learning

View PDFchevron_right

Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning

ArXiv, 2020

View PDFchevron_right

A convergent O (n) temporal-difference algorithm for off-policy learning with linear function approximation

2009

View PDFchevron_right

Model-free Monte Carlolike policy evaluation

Raphael Fonteneau

Proceedings of the …, 2010

View PDFchevron_right

Policy Learning and Evaluation with Randomized Quasi-Monte Carlo

arXiv (Cornell University), 2022

View PDFchevron_right

META-Learning State-based {\lambda} for More Sample-Efficient Policy Evaluation

arXiv: Learning, 2019

View PDFchevron_right

Inferring the Optimal Policy using Markov Chain Monte Carlo

ArXiv, 2019

View PDFchevron_right

Active Offline Policy Selection

Çağlar Gülçehre

arXiv (Cornell University), 2021

View PDFchevron_right

Guided Policy Exploration for Markov Decision Processes Using an Uncertainty-Based Value-of-Information Criterion

IEEE transactions on neural networks and learning systems, 2018

View PDFchevron_right

An incremental off-policy search in a model-free Markov decision process using a single sample path

Shalabh Bhatnagar

Machine Learning, 2018

View PDFchevron_right