bellman equation 예제

따라서 Bellman 함수가 실제로 수행하는 일은 상태 값 함수 $V ^pi(들)$를 상태의 값과 후속 상태의 값 사이의 재귀 관계로 나타내는 방정식을 작성할 수 있다는 것입니다. 최적의 제어 이론을 사용하여 해결할 수 있는 거의 모든 문제는 적절한 Bellman 방정식을 분석하여 해결할 수도 있습니다. [왜?] [추가 설명 필요] 그러나 `Bellman 방정식`이라는 용어는 일반적으로 이산 시간 최적화 문제와 관련된 동적 프로그래밍 방정식을 나타냅니다. [3] 연속 시간 최적화 문제에서 유사한 방정식은 일반적으로 해밀턴-야코비-벨만 방정식이라고 하는 부분 미분 방정식입니다. [4] [5] 특정 시점에서 선택한 변수를 컨트롤 변수라고 도합니다. 예를 들어, 현재의 재산을 감안할 때, 사람들은 지금 소비하는 양을 결정할 수 있습니다. 이제 컨트롤 변수를 선택하는 것은 다음 상태를 선택하는 것과 같을 수 있습니다. 더 일반적으로, 다음 상태는 현재 컨트롤 이외에 다른 요인에 의해 영향을 받습니다. 예를 들어, 가장 간단한 경우, 오늘날의 부(주)와 소비(제어)는 내일의 부(새 상태)를 정확히 결정할 수 있지만 일반적으로 다른 요인도 내일의 부에영향을 미칩니다. Bellman 방정식은 함수 방정식으로 분류되는데, 이는 이를 해결하면 값 함수인 알 수 없는 함수 V를 찾는 것을 의미하기 때문입니다. 값 함수는 상태 x의 함수로 목표의 최상의 값을 설명합니다. 값 함수를 계산하여 최적 동작을 상태의 함수로 설명하는 함수 a(x)도 찾을 수 있습니다.

이를 정책 함수라고 합니다. 동적 프로그래밍 방법은 이 의사 결정 문제를 더 작은 하위 문제로 나눕니다. 리처드 벨만의 최적성 원칙은 이 작업을 수행하는 방법을 설명합니다: 동적 프로그래밍은 다기간 계획 문제를 여러 시점에서 더 간단한 단계로 나눕니다. 따라서 시간이 지남에 따라 의사 결정 상황이 어떻게 진화하고 있는지 추적해야 합니다. 올바른 결정을 내리는 데 필요한 현재 상황에 대한 정보를 “상태”라고 합니다. [6] [7] 예를 들어, 각 시점에서 소비하고 소비할 금액을 결정하려면 사람들은 초기 재산을 알아야 합니다.

This entry was posted in Uncategorized. Bookmark the permalink.