Neural Turing Machine

Neural Turing Machine

● 07 Feb 2019

Written by Youngrok Jang

이번 포스트에서 소개드릴 논문은 Google Deepmind에서 2014년에 발표한 Neural Turing Machine입니다. 아래 발표 영상 을 보고 질문 & 답변 글을 참고하시기 바랍니다.

질문 혹은 토론하고 싶은 사항이 있다면 댓글 부탁드립니다. :)

발표 영상

발표 자료 PDF

질문 & 답변

Read와 Write의 Weight은 다른 Vector 인가?

Read는 N개의 Head, Write는 M개의 Head를 갖을 수 있음 (N과 M은 Hyper parameter)
Head 별로 각각 따로 Weight 존재 / Read & Write 는 각각 Head가 다르므로 Weight도 다름

Previous Read Vector는 어떻게 Controller의 Input으로 넣어 주는가?

Open Source에 따르면 Controller의 Input은 External Input과 Previous read vector를 Concat하여 구성됨

Controller의 External Output은 어떻게 계산 되는가?

Open Source에 따르면 Controller의 Output을 목적에 따라 다르게 활용하는 2개의 Dense Layer가 존재
- O2P Layer - Controller의 Ouput을 Parameter로 변환
- O2O Layer - Controller의 Output을 external output으로 변환

Head의 의미는?

Turing Machine에서 Head란 Memory에서 특정 위치에 정보를 Write 혹은 Read 하는 장치
Neural Turing Machine에서도 유사하게 사용
- Write 혹은 Read 시 Attention을 위해 각 element에 가중치를 부여하는 Weight Vector (즉, Memory에서 접근할 위치를 결정)

Multiple Head는 어떻게 동작하는가?

Controller에서 Head 별로 Parameter가 Output으로 추출되고 이를 활용하여 각 Head는 Read와 Write를 진행
Read Operation
- Multiple Read heads는 각 Head의 Read Vector를 Concat하여 최종적으로 1개의 Read Vector 구성
Write Operation
- Multiple Write heads는 head 수 만큼 순차적으로 Memory에 Write operation을 수행

Multiple Head를 사용하는 이유?

복잡한 알고리즘을 수행하기 위해서 1번의 time step에서 여러번의 Read, Write Operation이 필요할 수 있음
예를 들어, Copy Task같은 단순한 알고리즘을 수행하기 위해서는 각 time step에서 Read 혹은 Write 1개의 Operation만 필요하지만 Sorting Task를 수행하기 위해서는 Write 했던 것을 메모리에서 다른 위치로 옮기고 등의 복잡한 Operation 필요
따라서, Task에 따라 Head 수를 Hyper-parameter로 결정

References

Deep Learning Research Article Attention