뉴로 심볼릭 서베이 정리
Neuro-Symbolic AI: An Emerging Class of AI Workloads and their Characterization
위 논문의 section3 model overview를 정리한다.
뉴로 심볼릭 모델의 성능을 평가하기 위해
두 가지 종류의 데이터셋을 사용할 수 있다.
1. CLEVR
2. CLEVRER
CLEVR
위와 같이 이미지의 샘플과 질문이 주어지고
이미지를 보고 질문에 적절한 대답을 하는지 평가할 수 있다.
CLEVR는 이미지에 등장할 수 있는 입체도형의 종류를 정육면체, 원통, 구 세가지로 제한하고 있고
각 물체들이 가질 수 있는 특성(attribute)도 제한되어있다.
물체들이 가질 수 있는 특성은 크기, 색깔, 재료이다.(재료는 금속과 고무 두 가지가 존재한다.)
CLEVRER
CLEVRER데이터셋은 COLLISION EVENTS FOR VIDEO REPRESENTATION AND REASONING의 약자이고
기존 CLEVR데이터셋을 비디오로 확장하였고
미래에 일어날 충돌같은 물리적인 현상을 예측하는 것을 평가할 수 있다.
아래 비디오를 통해서 CLEVRER의 예시를 볼 수 있다.
논문에서는 세 가지 유형의 뉴로 심볼릭 모델을 정리한다.
1. Neuro-Symbolic Concept Learner
2. Neuro-Symbolic Dynamic Reasoning
3. Neural Logic Machines
Neuro-Symbolic Concept Learner
NSCL이라고 축약할 수 있다.
NSCL은 세가지 파트들로 구성되어있다.
1. Image Parser
2. Question Parser
3. Symbolic program executor
Image Parser
목적 : 객체 마스크를 생성하는 것
아래 이미지에서 각 객체들마다 단색으로 칠해진 것을 볼 수 있는데
저렇게 칠해진 것을 객체 마스크라고 한다.
위의 작업은 Mask R-CNN이라는 모델을 사용해서 수행할 수 있다.
페이스북이 제공하는 디텍트론2의 사전학습된 R-CNN모델을 사용할 수 있다.
Question Parser
자연어로 되어있는 질문을 모델이 사용할 수 있도록
representations라는 형태로 변환한다.
서베이 논문의 저자들은 Transformer-based NMT모델을 사용하였다.
Symbolic program executor
추출된 image features와 토큰화된 question을 사용해서
예측을 출력하기 위해 사용한다.
quasi symbolic이고 데이터를 통해 논리적, 불리언 연산들을 수행한다.
이 파트는 미분불가능 함수를 확률적 방식으로 추정한다.
NSCL의 출력은 벡터인데
장면의 상응하는 객체가 출력셋에 존재할 확률을 나타낸다.
Neuro-Symbolic Dynamic Reasoning
NS-DR이라고 축약할 수 있다.
위에서 소개한 CLEVRER데이터셋은 이 모델을 위해 사용된다.
이미지 대신 비디오를 사용하면서
인과성이라는 새로운 도메인의 질문들이 추가 되었다.
이 모델은 다음과 같은 4개의 파트로 구성된다.
1. Video frame parser
2. Question parser
3. Dynamics predictor
4. Symbolic Program Executor
Video frame parser
비디오의 각 프레임을 처리한다.
Mask R-CNN을 사용할 수 있다.
Question parser
NSCL과 마찬가지로 transformer를 사용할 수 있다.
Dynamics predictor
PropNet은 학습된 물리엔진이다.
자세한 것은 다음 논문을 통해 참조할 수 있다. Propagation Networks for Model-Based Control Under Partial Observation
다중 객체들 사이의 힘의 전달을 정확하게 모델링하여
이전 작업을 좀 더 증강시킨다.
고정된 카메라 각으로부터 취해진 모든 비디오를 통해
Dynamics predictor는 위치, 궤적, 충돌 등을 예측한다.
Symbolic program execytor
이 파트가 진짜 심볼릭 모델이다.
NSCL과 다르게 미분가능하지 않은 계산을 사용한다.
미분가능하지 않은 계산의 단점은 역전파가 불가능한 것이다.
그래서 이 모델은 concept embeding을 학습하지 않는다.
concept는 frame parser를 통해 학습한다.
다음 그림이 이 파트에 대해 잘 설명한다.
Neural Logic Machines
NLM은 다음 그림이 잘 설명한다.