기존 실험 환경에 문제 있음을 알고, 큰 결심으로 환경을 다시 설정했다. 총 Action은 getX1, getX2, getX3, putX1, putX2, putX3, getX3Y3(순환) 7개 였다.putX1, putX2, putX3는 2열로만 갈 수 있어, 깊게 들어가 있는 1열을 사용할 수 없었다.인공지능이 삽질로 getX1, getX3, getX3, getX3Y3 으로만 모든 문제를 해결한다!!(나는 몰랐던 사실. 이 사실로 환경이 잘못 디자인되었다고 알았다.) 수정한 환경. get(call)은…… A3C 샘플 테스트 결과(2/2) 계속 읽기
[태그:] 대차 스토리지
A3C 샘플 테스트 결과(1/2)
기존 네트웍을 좀 개선했다. 현재 상태를 입력 -> 현재 상태, 과거 상태 입력.네트웍 구조 단순화. 3개 층dropout 적용.환경설정에서 이번 행동이 의미있는 행동이라면 벌점을 상쇄하고 득점하도록 설정. 이렇게 하면 call만 학습한다!!최대 삽질 수량을 증가. 단순하게 하면 에피소드를 끝까지 보낼 수 없어 정확하게 판단할 수 없어 보임.global network 횟수 증가, 한번 업데이트 시 단위 에피소드 감소(100개에서 20개)성공…… A3C 샘플 테스트 결과(1/2) 계속 읽기