본문 바로가기

Machine Learning8

RL Course by David Silver - Lecture 4: Model Free Prediction This article summarizes RL Course by David Silver - Lecture 4: Model Free Prediction. This chapter will mainly discuss how to predict the value of each state. Monte Carlo and Time Difference is a two main streams algorithm. Chapter 3 was about known MDP. Here we deal with an unknown MDP. Model-free prediction updates the value function of unknown MDP, and Model control updates the policy based o.. 2022. 8. 4.
RL Course by David Silver - Lecture 3: Planning by Dynamic Programming This article summarizes RL Course by David Silver - Lecture 3: Planning by Dynamic Programming. This chapter will discuss policy evaluation, policy iteration, and value iteration. Each concept has an important role in reinforcement learning. Introduction Before we start, what is dynamic programming? A dynamic problem has a sequential or temporal component. Programming is optimizing a program(in .. 2022. 5. 18.
RL Course by David Silver - Lecture 2: Markov Decision Processes This article summarizes RL Course by David Silver - Lecture 2: Markov Decision Processes. Markov Property When we assume every data about the past is in the present state, that state has a Markov property. The state transition matrix $P$ contains all information about transition probability between states. Markov Process The sequence of states with Markov property (or Markov chain) is a Markov p.. 2022. 5. 3.
RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning This article summarizes RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning. Reinforcement learning has no supervisor. The reward signal guides the agent if things are going right or wrong. The feedback is delayed. Some feedback takes hours to obtain, such as go game. The data that the agent receives is sequential. So the action of the agent affects the information it r.. 2022. 4. 27.
Bagging, Boosting, Bootstrapping, Stacking 최근에 친구들과 대화를 나누다가 우연히 Boosting이라는 단어가 대화에 등장하였습니다. 제게는 이름은 많이 들어봤는데 정확히 뭔지는 모르는 알고리즘으로 느껴졌습니다. 그 자리에 있던 친구들 모두 정확한 정의를 몰라서 찾아보려 하는데, B로 시작하는 용어들이 또 있던 것 같은 느낌이 들었습니다. 그래서 이번 글에서는 공부할 겸 겸사겸사 각 단어의 의미에 대해 알아보려 합니다. 구글링 결과 비슷한 고민을 한 사람이 있음을 Quora에서 알게 되었습니다. What is the difference between boost, ensemble, bootstrap and bagging?이라는 글이었습니다. 해당 글의 답변을 바탕으로 정리해봅시다. 일단 boosting, bagging, stacking은 ensem.. 2022. 2. 12.
MinCutPool: 코드 분석 (MinCutPool: Understanding the Code) 이론편1은 여기, 이론편2는 여기에서 확인하실 수 있습니다. 이번 게시물에서는 MinCutPool의 code를 예시 데이터와 함께 분석해보겠습니다. 제가 사용한 데이터는 마이크로 모빌리티의 이동패턴 데이터인데, 실제 영업에서 사용된 데이터이므로 자세한 공개가 어려워 데이터 차원의 변화를 위주로 설명드리겠습니다. 전체 코드를 보기 전에 제가 정의한 x(feature matrix), adj(adjacecny matrix,), s(cluster assignment matrix)의 차원은 각각 다음과 같습니다. print(x.shape) # torch.Size([1, 500, 2]) print(adj.shape) # torch.Size([1, 500, 500]) print(s.shape) # torch.Size.. 2022. 2. 12.