Next: Temporal Difference Learning Up: l9 Previous: Passive Learning Agent

Two Methods For Updating Utility Values

Naive
- Least mean squares
- U[i] = RunningAverage(U[i], CumReward, N[i])
- N[i] is number of times visit state i
- Does not use transition probabilities constraints
- Converges slowly
Adaptive dynamic programming (ADP)
- $U(i) = R(i) + \sum_j M_{ij}*U(j)$
- = reward for being in state
- $M_{ij}$ is probability of transition from state to state
- Solve equations in unknowns, $n = \vert states\vert$
- Is this practical?