openai gym을 사용하여 강화학습(reinforcement learning) 환경 만들기

강화 학습 알고리즘 공부를 위해 미리 openai gym을 사용하여 환경을 만들어 보았다.

[openai gym 설치]

- 'anaconda tensorflow-gpu 및 gym 설치' 포스트를 참조.

- 만약 위 설치 포스트로 부족하면 How to Install OpenAI Gym in a Windows Environment 참조

[Space Invaders 게임 환경]

import gym

import time # sleep(초) 사용을 위해

env = gym.make("SpaceInvaders-v0")

num_actions = env.action_space.n

for episode in range(10):

observation = env.reset()

for step in range(100000):

env.render()

time.sleep(0.01) # 화면 표시 딜레이를 위해

action = env.action_space.sample()

observation, reward, done, info = env.step(action)

if(done):

print('episode ',episode,' finished after ',step+1,'steps')

break

env.close()

[에이전트 환경 루프]

전형적인 강화 학습을 위한 환경으로 Agent는 action을 선택하고, 환경은 observation과 reward를 반환한다. 이를 이용해 높은 reward를 얻는 정책 선택을 학습하게 된다.

Agent ---------- action ----------v

^----observation, reward ---- Environment

ry.cl. blog