피질뇌파 기반 음성합성 연구

May 2, 2019

UCSF의 Edward Chang 교수팀은 뇌피질의 활동으로부터 음성을 합성하는 연구결과를 2019년 4월 Nature에 발표[1]

 

언어장애환자들을 위하여 빰에 있는 근육을 기본으로 음성을 합성하는 현재의 기술은 글자를 한자씩 타이프하여야하므로 분당 10단어를 생성하는 것이 한계인데 이는 평균적으로 분당 150단어를 이야기하는 일반적인 소통에 비하여 너무 느린 속도

 

이를 개선하기 위하여 연구진은 피질뇌파 (electrocorticography, ECoG)를 사용. 인공지능을 활용하여 말을 할 때의 ECoG 데이타를 음성으로 변환하도록 하는 프로그램을 만든 후, 소리를 내지 않고 입만 움직일때의 ECoG 데이타를 음성으로 변환

 

이 음성을 들은 사람들이 평균 70%의 단어를 이해.  기존의 철자 기반 접근법에 비하여 새로 연구된 직접적인 음성 합성은 자연스러운 말하기 속도로 제한되지 않은 어휘를 전달할 수 있는 기능 외에도 피치, 인토네이션 정보도 포함할 수 있는 장점이 있어서 향후 활용이 증가할 것으로 기대됨

[1] Anumanchipalli, Gopala K., Josh Chartier, and Edward F. Chang. "Speech synthesis from neural decoding of spoken sentences." Nature 568.7753 (2019): 493.

Share on Facebook
Share on Twitter
Please reload