강화학습으로 훈련한 스토리지(experience replay)
전 방법으로 학습되지 않아, expirence replay를 끼워 넣었다. 한 state, action 세트를 학습하면 다른 케이스를 잘 학습하지 못했다. 대차가 뒤쪽에 […]
전 방법으로 학습되지 않아, expirence replay를 끼워 넣었다. 한 state, action 세트를 학습하면 다른 케이스를 잘 학습하지 못했다. 대차가 뒤쪽에 […]
스토리지에 강화 학습을 적용했다. 스토리지 상황은 2개 열 * 3개 행 = 6개 셀을 가지고 있다. 처음 셀(X1/Y2, X2/Y2, X3/Y2)에만