콘텐츠로 바로가기

now0930 일지

이런저런 생각

  • 홈
  • 비공개
  • 강좌
  • 잔여 작업 조회
  • 위치

[카테고리:] tensorflow

tensorflow 테스트

A3C 샘플 테스트 결과(2/2)

기존 실험 환경에 문제 있음을 알고, 큰 결심으로 환경을 다시 설정했다. 총 Action은 getX1, getX2, getX3, putX1, putX2, putX3, getX3Y3(순환) 7개 였다.putX1, putX2, putX3는 2열로만 갈 수 있어, 깊게 들어가 있는 1열을 사용할 수 없었다.인공지능이 삽질로 getX1, getX3, getX3, getX3Y3 으로만 모든 문제를 해결한다!!(나는 몰랐던 사실. 이 사실로 환경이 잘못 디자인되었다고 알았다.) 수정한 환경. get(call)은…… A3C 샘플 테스트 결과(2/2) 계속 읽기

발행일 2020-12-22
카테고리 tensorflow, 생활코딩 태그 a3c, keras, reinforcementLearning, tensorflow, 대차 스토리지

A3C 샘플 테스트 결과(1/2)

기존 네트웍을 좀 개선했다. 현재 상태를 입력 -> 현재 상태, 과거 상태 입력.네트웍 구조 단순화. 3개 층dropout 적용.환경설정에서 이번 행동이 의미있는 행동이라면 벌점을 상쇄하고 득점하도록 설정. 이렇게 하면 call만 학습한다!!최대 삽질 수량을 증가. 단순하게 하면 에피소드를 끝까지 보낼 수 없어 정확하게 판단할 수 없어 보임.global network 횟수 증가, 한번 업데이트 시 단위 에피소드 감소(100개에서 20개)성공…… A3C 샘플 테스트 결과(1/2) 계속 읽기

발행일 2020-12-18
카테고리 tensorflow, 생활코딩 태그 a3c, keras, reinforcementLearning, tensorflow, 대차 스토리지

a3c global network update

하…. 이거 한다고 거의 며칠을 날렸다. A3C 성능이 좋다길래 따라 해 봤는데, 내가 가진 책은 tensorflow 1.x 버전 기준 코드가 실렸다. tensorflow 2.x대로 업데이트 되면서 과거 여러 능력자들이 구현한 fit 부분 코드를 사용할 수 없게 되었다. 대세는 gradienttape()로 네트웍을 업데이트 하는 방법이라고 한다. a3c에서는 local 모델을 global 모델과 똑같이 만들고, local model 경험으로 global network를…… a3c global network update 계속 읽기

발행일 2020-12-13
카테고리 tensorflow, 생활코딩 태그 a3c, keras, reinforcementLearning, tensorflow

keras-rl2

누군가 열심히 개발한 알고리즘을 개발했다면, 내가 처음 코드를 만든다면 할만하다. 그러나 인터넷에 시간이 남아도는 인간이 많고 그들을 다 제치고 내가 처음이 아닌 확률이 상당히 크다. 누군가 만든 고급진 코드를 충분하게 찾아 볼 필요가 있고, 만약 있다면 다시 할 필요는 없다. 다시해도 그 성능을 넘어설 수 없다. 찾아보니 강화학습을 쉽게 사용할 수 있는 keras-rl을 찾았다. 2.0…… keras-rl2 계속 읽기

발행일 2020-11-07
카테고리 tensorflow, 생활코딩 태그 keras, reinforcementLearning, tensorflow

A2C keras로 구현(updated, 완성)

a2c를 keras로 사용하려면 loss function을 새롭게 정의해야 한다. 보통 fit으로 넘어오는 인자가 input, output 각 한 개씩 사용한다. input이나 output으로 파라미터를 넘길 때 advantage를 같이 넘겨야 한다. tensorflow 1.x에서는 이게 꼼수로 되었는데, 2.x로 올라오면서 안된다. 아래 보면 actor loss가 0으로 고정되어 있다. 입력 파라미터를 넘길 때 리스트로 2개를 넘길 수 있다. input = [input, advantage]…… A2C keras로 구현(updated, 완성) 계속 읽기

발행일 2020-10-27
카테고리 tensorflow 태그 a2c, keras, reinforcementLearning, tensorflow

글 페이지 매김

페이지 1 … 페이지 7 이전 글
2025 5월
일 월 화 수 목 금 토
 123
45678910
11121314151617
18192021222324
25262728293031
4월    

최신 글

  • common mode, differential mode 2025-05-11
  • signal conditioner, 신호 처리기 2025-05-10
  • strain gage 2025-05-09
  • 칼만 필터 2025-05-01
  • positioner(I/P) 2025-04-26

카테고리

  • 산업계측제어기술사
  • 삶 자국
    • 책과 영화
    • 투자
  • 생활코딩
    • LEGO
    • ROS
    • tensorflow
  • 전기기사
  • 피아노 악보

메타

  • 로그인
  • 엔트리 피드
  • 댓글 피드
  • WordPress.org

페이지

  • 소개
  • 잔여 작업 조회
    • 작업 추가
    • 작업의 사진 조회
    • 작업 수정 페이지
  • 사진
    • GPS 입력된 사진
    • 사진 조회
  • 위치
    • 하기 휴가 방문지
    • 해외 출장

태그

android bash c docker driver FSM gps java kernel LEGO linux mysql network program opcua open62541 plc programmers python raspberry reinforcementLearning ros state space system program tensorflow transfer function 경제 미국 민수 삼국지 세계사 실기 에너지 역사 유전자 일본 임베디드 리눅스 전기기사 조선 중국 채윤 코딩 테스트 통계 한국사 한국어

팔로우하세요

  • Facebook
now0930 일지
WordPress로 제작.