전 방법으로 학습되지 않아, expirence replay를 끼워 넣었다. 한 state, action 세트를 학습하면 다른 케이스를 잘 학습하지 못했다. 대차가 뒤쪽에 들어간 경우 문제를 풀지 못해, 매 reset 시점 typeA 대차를 뒤쪽에 있을 확률을 키워 학습했지만 잘 안되었다. batch로 한 번에 여러 케이스를 학습해야 잘 되었다. 역시 누군가 뚫은 길을 가는게 쉽다. experience repaly로 한번에 1,000개씩…… 강화학습으로 훈련한 스토리지(experience replay) 계속 읽기
[태그:] 강화학습
강화학습으로 훈련한 스토리지
스토리지에 강화 학습을 적용했다. 스토리지 상황은 2개 열 * 3개 행 = 6개 셀을 가지고 있다. 처음 셀(X1/Y2, X2/Y2, X3/Y2)에만 대차를 넣고 뺄 수 있다. 스토리지7에서 스토리지3, 4, 5으로 대차를 이동할 때 putX라 하고, 스토리지 3, 4, 5에서 스토리지 6으로 대차를 이동할 때 getX라 했다. 스토리지 7에서 스토리지 6으로 바로 가는 조건을 getX3Y3로 했다. 종료…… 강화학습으로 훈련한 스토리지 계속 읽기
openai gym cart pole 설정
PC를 거실에 설치하고 docker로 tensorflow를 설정했다. docker가 쉽고 간편하여 다 좋은데 그래픽 사용자 인터페이스를 지원하지 않는다. gym을 설정하기 어렵다. 찾다보니 다음 순서로 진행하면 동영상 파일을 만든다. 아직 맛만 보아 뭔지 잘 모르겠으나, 일단 에러없는 화면을 보니 안심된다. pip로 gym 관련 모듈 설치python3-opengl 모듈 설치xvfb 모듈 설치jupyter notebook 설치python에서 wrappers로 실행. jupyter notebook을 xvfb-run 아래와 같이…… openai gym cart pole 설정 계속 읽기