본문 바로가기

분류 전체보기

(72)
Fighting game Player 1 Controls: t: up, b: down, h: left, f: right, e: attack Player 2 Controls: ↑: up, ↓: down, ←: left, →: right, i: attack ver 0.1. © 오호라마
[ROS] 여러개의 터미널 창을 동시에 띄울때 유용한 유틸 https://terminator-gtk3.readthedocs.io/en/latest/index.html Welcome to Terminator’s documentation! — Terminator 2.0 alpha documentation Docs » Welcome to Terminator’s documentation! View page source © Copyright 2017, Stephen Boddy, licensed under the CC-BY-SA.. Revision 10. Built with Sphinx using a theme provided by Read the Docs. terminator-gtk3.readthedocs.io 터미네이터! terminator-gtk3은 GTK3 기반의 ..
[Math] Linear algebra 의 데이터와 계산 선형 대수학이란? 벡터 공간, 벡터, 선형 변환, 행렬, 연립 선형 방정식 등을 연구하는 대수학의 한 분야 부연설명.. 벡터 공간 : 수학적 구조로, 벡터를 다루는 공간. 더하거나 곱할 수 있음 벡터 : 방향과 크기를 가지는 양. (속도, 힘) 선형 변환 : 벡터 공간에서의 벡터들의 연산 (회전, 확대/축소) 행렬 : 직사각형 형태의 숫자 배열 (2 x 3 행렬) 연립 선형 방정식 : 여러 개의 선형 방정식을 함께 풀어서 해를 찾는 과정 대수학 : 수의 연산을 다루는 수학 분야 선형대수학은, 해가 있거나, 없거나, 무한히 있거나 3가지중 하나이다. 예를 들어 두 이동 하는 물체가 만나는 순간이라고 하면, 출발 시간은 다르지만 뒤늦게 출발한 물체가 빨라서 결국 만나는 경우 해가 하나 이다. 하지만 똑같은 ..
[ROS] ROS2 Architecture ROS2는 DDS(Data Distribution Service)라는 중간 계층 기술을 사용하여 분산 시스템에서의 노드 간 통신을 담당한다. ROS2는 ROS1의 네트워크 인프라와 통신 패턴을 대부분 유지하면서도, 이전 버전과 다른 중요한 특징을 가진다 DDS 기술: ROS2에서는 DDS 기술을 사용하며, 이 기술을 사용하면 노드 간의 직접적인 통신이 가능하다. 이로 인해 통신 레이턴시가 줄어들고, 통신 대역폭이 향상된다. 다양한 DDS 구현체 지원: ROS2에서는 다양한 DDS 구현체를 지원한다. 이를 통해 사용자는 프로젝트 요구 사항에 맞게 DDS 구현체를 선택할 수 있다. Common core client library: ROS2에서는 DDS와 관련된 코드와 ROS2 고유의 코드가 분리되어 있으며,..
[ROS] 버전에 대하여 먼저 개인 의견을 드리자면, ROS2 의 최신 버전을 이용하라 다만 로봇 업계에서는 기존 ROS1 을 사용하고 있는 경우가 많음 (완전히 다른 프로토콜이라 하위 호환 없음) 버전별 설치가능한 환경이 있다. 예를들어 humble 은 우분투 22.04 밑으로는 안깔림 윈도우 환경 설치는 비추. 필요시 도커 사용 ROS2 의 경우 humble 에 와서는 그래도 안정성 측면에서 많이 개선 되었다고 하는 주장이 있습니다. distribution 은 보시게 되면, 알파벳 순으로 증가하는 걸 볼 수 있습니다. https://docs.ros.org/en/iron/index.html ROS 2 Documentation — ROS 2 Documentation: Iron documentation © Copyright 202..
[RL] Temporal Difference - 시간적 차이 What is temporal difference learning in Q-learning? Temporal difference learning is a method used in reinforcement learning that combines the Bellman equation with stochastic exploration to update the value function. In temporal difference learning, the value function is updated iteratively as the agent interacts with the environment. At each time step, the agent observes the current state, take..
[RL] Deterministic and stochastic exploration - 결정론적 탐색과 비결정론적 탐색 강화학습에서는 탐험과 이용 사이의 균형을 맞추는 것이 중요. 그래서 결정론적 탐색과 비결정론적 탐색을 적절히 조합하는 것이 좋다. 결정론적 탐색은 일정한 규칙에 따라 탐색을 진행하는데 이 방법은 매우 예측 가능하고 안정적이지만, 새로운 상황에 대처할 수 없음. 그래서 다양한 상황에서 최적 솔루션을 찾는 데 제한이 있다. 반면에, 비결정론적 탐색은 무작위성을 이용해 탐색을 진행하는 것. 이 방법은 새로운 상황에 대처하는 데 유용하며, 최적 솔루션을 찾는 데 있어서도 더 넓은 탐색 공간을 탐험할 수 있음. 하지만 불안정성과 무작위성으로 인한 부정확성이 있어, 최적 솔루션에 다다르는 데 시간이 오래 걸릴 수 있음. 그러니까, 강화학습에서는 결정론적 탐색과 비결정론적 탐색을 적절히 조합하여 탐색을 수행하는 게 ..
[RL] MDP Markov Decision Process action -> action -> action -> ... $S_{0}$ $\rightarrow$ $S_{1}$ $\rightarrow$ $S_{2}$ $\downarrow$ $ \downarrow$ $ \downarrow$ $a_{0}$ $a_{1}$ $a_{2}$ MDP란 무엇인가요? MDP는 강화학습의 기본적인 프레임워크입니다. 강화학습은 특정 환경에서 에이전트가 최대의 보상을 얻기 위해 행동을 취하는 것을 학습하는 것입니다. MDP는 이러한 강화학습의 프레임워크 중 하나로, 강화학습에서 에이전트가 어떤 환경에서 행동을 취해야 할지 결정하는 데 사용됩니다. MDP가 어떻게 작동하나요? MDP는 상태(state), 행동(action), 보상(reward),..