전 방법으로 학습되지 않아, expirence replay를 끼워 넣었다. 한 state, action 세트를 학습하면 다른 케이스를 잘 학습하지 못했다. 대차가 뒤쪽에 들어간 경우 문제를 풀지 못해, 매 reset 시점 typeA 대차를 뒤쪽에 있을 확률을 키워 학습했지만 잘 안되었다. batch로 한 번에 여러 케이스를 학습해야 잘 되었다. 역시 누군가 뚫은 길을 가는게 쉽다. experience repaly로 한번에 1,000개씩…… 강화학습으로 훈련한 스토리지(experience replay) 계속 읽기