This thesis is concerned with an infinite horizon optimal control problem for a pure jump Markov process with noise-free partial observation. We are given a pair of stochastic processes, named unobserved or signal process and observed or data process. The signal process is a continuous-time pure jump Markov process, taking values in a complete and separable metric space, whose controlled rate transition measure is known. The observed process takes values in another complete and separable metric space and is of noise-free type. With this we mean that its values at each time t are given as a function of the corresponding values at time t of the unobserved process. We assume that this function is a deterministic and, without loss of generality, surjective map between the state spaces of the signal and data processes. The aim is to control the dynamics of the unobserved process, i.e. its controlled rate transition measure, through a control process, taking values in the set of Borel probability measures on a compact metric space, named set of control actions. We take as admissible controls for our problem all the processes of this kind that are also predictable with respect to the natural filtration of the data process. The control process is chosen in this class to minimize a discounted cost functional on infinite time horizon. The infimum of this cost functional among all admissible controls is the value function. In order to study the value function a preliminary step is required. We need to recast our optimal control problem with partial observation into a problem with complete observation. This is done studying the filtering process, a measure-valued stochastic process providing at each time t the conditional law of the unobserved process given the available observations up to time t (represented by the natural filtration of the data process at time t). We show that the filtering process satisfies an explicit stochastic differential equation and we characterize it as a Piecewise Deterministic Markov Process, in the sense of Davis. To treat the filtering process as a state variable, we study a separated optimal control problem. We introduce it as a discrete-time one and we show that it is equivalent to the original one, i.e. their respective value functions are linked by an explicit formula. We also show that admissible controls of the original problem and admissible policies of the separated one have a specific structure and there is a precise relationship between them. Next, we characterize the value function of the separated control problem (hence, indirectly, the value function of the original control problem) as the unique fixed point of a contraction mapping, acting from the space of bounded continuous function on the state space of the filtering process into itself. Therefore, we prove that the value function is bounded and continuous. The special case of a signal process given by a finite-state Markov chain is also studied. In this setting, we show that the value function of the separated control problem is uniformly continuous on the state space of the filtering process and that it is the unique constrained viscosity solution (in the sense of Soner) of a Hamilton-Jacobi-Bellman equation. We also prove that an optimal ordinary control exists, i.e. a control process taking values in the set of control actions, and that this process is a piecewise open-loop control in the sense of Vermes.
La presente tesi tratta un problema di controllo ottimo su orizzonte temporale infinito per un processo di puro salto Markoviano e con osservazione parziale di tipo noise-free. È definita una coppia di processi stocastici, detti processo non osservato o segnale e processo osservato o dei dati. Il segnale è un processo di puro salto Markoviano a tempo continuo, a valori in uno spazio metrico completo e separabile, di cui è nota la misura controllata dei tassi di transizione. Il processo osservato prende valori in un ulteriore spazio metrico completo e separabile ed è di tipo noise-free. Con questa espressione si intende che i suoi valori a ogni tempo t sono funzione dei corrispondenti valori al tempo t del processo non osservato. Si fa l’ipotesi che tale funzione sia un’applicazione deterministica e, senza perdita di generalità, suriettiva tra gli spazi di stato dei processi non osservato e osservato. L’obiettivo è controllare la dinamica del processo non osservato, ossia la sua misura controllata dei tassi di transizione, attraverso un processo di controllo, il quale prende valori nell’insieme delle misure di probabilità di Borel su uno spazio metrico compatto, detto spazio delle azioni di controllo. I controlli ammissibili per il nostro problema sono i processi appena descritti che siano anche prevedibili rispetto alla filtrazione naturale del processo osservato. Il processo di controllo è scelto in questa classe al fine di minimizzare un funzionale costo con fattore di sconto su orizzonte temporale infinito. L’estremo inferiore di tale funzionale costo tra tutti i controlli ammissibili è la funzione valore. Per studiare la funzione valore è necessario un passo preliminare. Il problema di controllo ottimo a osservazione parziale deve essere espresso come problema a osservazione completa. Ciò è possibile grazie allo studio del processo di filtraggio, un processo a valori in misure che fornisce a ogni istante t la legge condizionale del processo non osservato data l’osservazione disponibile fino al tempo t (rappresentata dalla filtrazione naturale del processo osservato al tempo t). Si dimostra che il processo di filtraggio soddisfa un’equazione differenziale stocastica esplicita e si caratterizza tale processo come Piecewise Deterministic Markov Process, nel senso di Davis. Allo scopo di trattare il processo di filtraggio come variabile di stato, si studia un problema di controllo separato. Questo è definito come problema a tempo discreto e si mostra che è equivalente a quello originario, nel senso che le rispettive funzioni valore sono legate da una formula esplicita. Si dimostra, inoltre, che i controlli ammissibili per il problema originario e le strategie ammissibili di quello separato hanno una ben precisa struttura ed esiste una specifica relazione tra di essi. Si caratterizza, quindi, la funzione valore del problema di controllo separato (dunque, indirettamente, la funzione valore del problema originario) come unico punto fisso di un operatore di contrazione, il quale agisce dallo spazio delle funzioni continue e limitate sullo spazio di stato del processo di filtraggio in sé. Di conseguenza, si dimostra che la funzione valore è continua e limitata. Si studia anche il caso di un processo non osservato dato da una catena di Markov a stati finiti. In questo contesto, si mostra che la funzione valore del problema di controllo separato è uniformemente continua sullo spazio di stato del processo di filtraggio e che è l’unica soluzione viscosa vincolata (nel senso di Soner) di un’equazione di Hamilton-Jacobi-Bellman. Si dimostra, inoltre, che esiste un controllo ottimo ordinario, ossia un processo di controllo che prende valori nell’insieme delle azioni di controllo, e che tale processo è un piecewise open-loop control nel senso di Vermes.
(2018). Optimal control of pure jump Markov processes with noise-free partial observation. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2018).
Optimal control of pure jump Markov processes with noise-free partial observation
CALVIA, ALESSANDRO
2018
Abstract
This thesis is concerned with an infinite horizon optimal control problem for a pure jump Markov process with noise-free partial observation. We are given a pair of stochastic processes, named unobserved or signal process and observed or data process. The signal process is a continuous-time pure jump Markov process, taking values in a complete and separable metric space, whose controlled rate transition measure is known. The observed process takes values in another complete and separable metric space and is of noise-free type. With this we mean that its values at each time t are given as a function of the corresponding values at time t of the unobserved process. We assume that this function is a deterministic and, without loss of generality, surjective map between the state spaces of the signal and data processes. The aim is to control the dynamics of the unobserved process, i.e. its controlled rate transition measure, through a control process, taking values in the set of Borel probability measures on a compact metric space, named set of control actions. We take as admissible controls for our problem all the processes of this kind that are also predictable with respect to the natural filtration of the data process. The control process is chosen in this class to minimize a discounted cost functional on infinite time horizon. The infimum of this cost functional among all admissible controls is the value function. In order to study the value function a preliminary step is required. We need to recast our optimal control problem with partial observation into a problem with complete observation. This is done studying the filtering process, a measure-valued stochastic process providing at each time t the conditional law of the unobserved process given the available observations up to time t (represented by the natural filtration of the data process at time t). We show that the filtering process satisfies an explicit stochastic differential equation and we characterize it as a Piecewise Deterministic Markov Process, in the sense of Davis. To treat the filtering process as a state variable, we study a separated optimal control problem. We introduce it as a discrete-time one and we show that it is equivalent to the original one, i.e. their respective value functions are linked by an explicit formula. We also show that admissible controls of the original problem and admissible policies of the separated one have a specific structure and there is a precise relationship between them. Next, we characterize the value function of the separated control problem (hence, indirectly, the value function of the original control problem) as the unique fixed point of a contraction mapping, acting from the space of bounded continuous function on the state space of the filtering process into itself. Therefore, we prove that the value function is bounded and continuous. The special case of a signal process given by a finite-state Markov chain is also studied. In this setting, we show that the value function of the separated control problem is uniformly continuous on the state space of the filtering process and that it is the unique constrained viscosity solution (in the sense of Soner) of a Hamilton-Jacobi-Bellman equation. We also prove that an optimal ordinary control exists, i.e. a control process taking values in the set of control actions, and that this process is a piecewise open-loop control in the sense of Vermes.File | Dimensione | Formato | |
---|---|---|---|
phd_unimib_798503.pdf
accesso aperto
Descrizione: tesi di dottorato
Tipologia di allegato:
Doctoral thesis
Dimensione
1.5 MB
Formato
Adobe PDF
|
1.5 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.