[산학협력 2팀]
김동하 김태헌 이상민 이승재 최우현 최정우
Diffusion model 이란, forward, backward process를 통해 원본 데이터들을 noise화하고 de-noise화 하는 과정을 통해 특정 input 데이터들을 통해 그에 맞는 데이터들을 생성하는 모델이다.
우리는 이러한 Diffusion Model을 이용하여, meta-midi sample이 pair로 있는 ComMU Dataset을 활용하여 midi sample을 noise하고 de-noise하는 방식으로 학습을 진행하여 meta data와 잘못생성된 midi sample의 상관관계를 이해하는 모델을 생성하여 최종적으로 잘못 생성된 midi sample을 meta정보에 맞는 midi sample로 수정해주는 모델을 만드는 것이 목표이다.
최근 diffusion model들은 vision, audio 등 continuous domain에서 많은 발전을 이뤘다. 그래서 우리는 discrete domain에서 token 자체에 diffusion process(corruption)를 곧바로 적용하는 것이 아닌, discrete data를 continuous domain으로 변환하여 diffusion process를 진행하고자 하였다.

[ Fig 1. ComMU data representation ]
meta data만을 이용해 control할 수 있는 music을 만들어내려면, meta data에 따라서 distinguishable한, note sequences의 distribution을 얻어야한다. ComMU Dataset은 meta 와 note sequence가 pair로 있고, 모두 token화 되어 있다.

Fig 2. track category에 따른 note density(a) and length(b)
note density(a) - bar 하나 당 음표의 평균 개수
note density는 멜로디 / 반주, bass / pad, 그리고 riff 그룹들간에 구별되는 distribution을 보인다.
note length(b) - sample 하나에 있는 모든 음표들의 평균 길이
멜로디와 반주(accompaniment)는 평균적으로 음표길이가 짧은 반면 bass와 pad는 상대적으로 음표길이가 길다.