기존 실험 환경에 문제 있음을 알고, 큰 결심으로 환경을 다시 설정했다. 총 Action은 getX1, getX2, getX3, putX1, putX2, putX3, getX3Y3(순환) 7개 였다.putX1, putX2, putX3는 2열로만 갈 수 있어, 깊게 들어가 있는 1열을 사용할 수 없었다.인공지능이 삽질로 getX1, getX3, getX3, getX3Y3 으로만 모든 문제를 해결한다!!(나는 몰랐던 사실. 이 사실로 환경이 잘못 디자인되었다고 알았다.) 수정한 환경. get(call)은…… A3C 샘플 테스트 결과(2/2) 계속 읽기
[태그:] a3c
A3C 샘플 테스트 결과(1/2)
기존 네트웍을 좀 개선했다. 현재 상태를 입력 -> 현재 상태, 과거 상태 입력.네트웍 구조 단순화. 3개 층dropout 적용.환경설정에서 이번 행동이 의미있는 행동이라면 벌점을 상쇄하고 득점하도록 설정. 이렇게 하면 call만 학습한다!!최대 삽질 수량을 증가. 단순하게 하면 에피소드를 끝까지 보낼 수 없어 정확하게 판단할 수 없어 보임.global network 횟수 증가, 한번 업데이트 시 단위 에피소드 감소(100개에서 20개)성공…… A3C 샘플 테스트 결과(1/2) 계속 읽기
a3c global network update
하…. 이거 한다고 거의 며칠을 날렸다. A3C 성능이 좋다길래 따라 해 봤는데, 내가 가진 책은 tensorflow 1.x 버전 기준 코드가 실렸다. tensorflow 2.x대로 업데이트 되면서 과거 여러 능력자들이 구현한 fit 부분 코드를 사용할 수 없게 되었다. 대세는 gradienttape()로 네트웍을 업데이트 하는 방법이라고 한다. a3c에서는 local 모델을 global 모델과 똑같이 만들고, local model 경험으로 global network를…… a3c global network update 계속 읽기