뉴로 심볼릭 서베이 정리

인공지능

뉴로 심볼릭 서베이 정리

ckhafter2023 2023. 1. 24. 16:43

Neuro-Symbolic AI: An Emerging Class of AI Workloads and their Characterization

위 논문의 section3 model overview를 정리한다.

뉴로 심볼릭 모델의 성능을 평가하기 위해

두 가지 종류의 데이터셋을 사용할 수 있다.

1. CLEVR

2. CLEVRER

CLEVR

위와 같이 이미지의 샘플과 질문이 주어지고

이미지를 보고 질문에 적절한 대답을 하는지 평가할 수 있다.

CLEVR는 이미지에 등장할 수 있는 입체도형의 종류를 정육면체, 원통, 구 세가지로 제한하고 있고

각 물체들이 가질 수 있는 특성(attribute)도 제한되어있다.

물체들이 가질 수 있는 특성은 크기, 색깔, 재료이다.(재료는 금속과 고무 두 가지가 존재한다.)

CLEVRER

CLEVRER데이터셋은 COLLISION EVENTS FOR VIDEO REPRESENTATION AND REASONING의 약자이고

기존 CLEVR데이터셋을 비디오로 확장하였고

미래에 일어날 충돌같은 물리적인 현상을 예측하는 것을 평가할 수 있다.

아래 비디오를 통해서 CLEVRER의 예시를 볼 수 있다.

https://youtu.be/6L1_kTopJSA

논문에서는 세 가지 유형의 뉴로 심볼릭 모델을 정리한다.

1. Neuro-Symbolic Concept Learner

2. Neuro-Symbolic Dynamic Reasoning

3. Neural Logic Machines

Neuro-Symbolic Concept Learner

NSCL이라고 축약할 수 있다.

NSCL은 세가지 파트들로 구성되어있다.

1. Image Parser

2. Question Parser

3. Symbolic program executor

Image Parser

목적 : 객체 마스크를 생성하는 것

아래 이미지에서 각 객체들마다 단색으로 칠해진 것을 볼 수 있는데

저렇게 칠해진 것을 객체 마스크라고 한다.

위의 작업은 Mask R-CNN이라는 모델을 사용해서 수행할 수 있다.

페이스북이 제공하는 디텍트론2의 사전학습된 R-CNN모델을 사용할 수 있다.

Question Parser

자연어로 되어있는 질문을 모델이 사용할 수 있도록

representations라는 형태로 변환한다.

서베이 논문의 저자들은 Transformer-based NMT모델을 사용하였다.

Symbolic program executor

추출된 image features와 토큰화된 question을 사용해서

예측을 출력하기 위해 사용한다.

quasi symbolic이고 데이터를 통해 논리적, 불리언 연산들을 수행한다.

이 파트는 미분불가능 함수를 확률적 방식으로 추정한다.

NSCL의 출력은 벡터인데

장면의 상응하는 객체가 출력셋에 존재할 확률을 나타낸다.

Neuro-Symbolic Dynamic Reasoning

NS-DR이라고 축약할 수 있다.

위에서 소개한 CLEVRER데이터셋은 이 모델을 위해 사용된다.

이미지 대신 비디오를 사용하면서

인과성이라는 새로운 도메인의 질문들이 추가 되었다.

이 모델은 다음과 같은 4개의 파트로 구성된다.

1. Video frame parser

2. Question parser

3. Dynamics predictor

4. Symbolic Program Executor

Video frame parser

비디오의 각 프레임을 처리한다.

Mask R-CNN을 사용할 수 있다.

Question parser

NSCL과 마찬가지로 transformer를 사용할 수 있다.

Dynamics predictor

PropNet은 학습된 물리엔진이다.

자세한 것은 다음 논문을 통해 참조할 수 있다. Propagation Networks for Model-Based Control Under Partial Observation

다중 객체들 사이의 힘의 전달을 정확하게 모델링하여

이전 작업을 좀 더 증강시킨다.

고정된 카메라 각으로부터 취해진 모든 비디오를 통해

Dynamics predictor는 위치, 궤적, 충돌 등을 예측한다.

Symbolic program execytor

이 파트가 진짜 심볼릭 모델이다.

NSCL과 다르게 미분가능하지 않은 계산을 사용한다.

미분가능하지 않은 계산의 단점은 역전파가 불가능한 것이다.

그래서 이 모델은 concept embeding을 학습하지 않는다.

concept는 frame parser를 통해 학습한다.

다음 그림이 이 파트에 대해 잘 설명한다.

Neural Logic Machines

NLM은 다음 그림이 잘 설명한다.