뉴스레터내용
목소리가 남긴 증거
보이스피싱 음성 검색 기술

 사람의 음성, 즉 성문은 제 2의 지문이라고 불린다. 사람마다 각기 다른 지문처럼 음성 또한 개개인을 식별할 수 있을 뿐 아니라 무늬로 시각화할 수 있기 때문이다. 그러한 분석 기법을 ‘성문분석’이라고 한다. 그 성문분석이 기계학습에 힘입어 최근 보이스피싱 범인 검거와 예방에서도 활약하고 있다. 금융감독원과 국립과학수사연구소가 협력한 ‘바로 그 목소리’가 그 주인공이다.
 2006년 국내 최초의 보이스피싱 사건이 발생한 지 10년이 경과하면서 보이스피싱 전자통신금융사기는 나날이 조직 범죄화되고 지능화되고 있다. 보이스피싱 전과자가 출소 후 다시 보이스피싱 사기로 검거된 사례도 늘고 있다. 2015년 공개된 ‘그놈 목소리’는 이러한 보이스피싱 피해 예방 차원에서 시작됐다. 국민들이 녹음해 신고한 사기범의 전화 목소리를 공개해 보이스피싱 실제 사례를 간접 체험하게 한 것이었다. 다만 단순히 사기범의 목소리를 공개하는 것만으로는 예방 효과가 미비했다. 이에 금융감독원은 국립과학수사연구원과 손잡고 기계학습 방법을 이용한 성문분석을 활용해 사기범의 전화 목소리를 과학적, 체계적으로 분석해 ‘바로 이 목소리’란 이름으로 공개했다. 신고 받은 사기범의 전화 목소리를 성문분석을 통해 동일 사기범의 목소리를 적출함으로써 예방 효과를 높이고자 한 것이었다.
 최근 중국에서 활동한 보이스피싱 조직검거에 활용된 “보이스피싱 음성 검색 기술”과 같이 목소리가 강력범죄의 수사에 활용하는 범죄자의 지문과 DNA처럼 범죄수사에 활용되고 있다.
 사람의 목소리는 지문처럼 고유할까? 목소리만으로 동일인이라고 판단할 수 있을까? 지금부터는 인공지능의 주요 연구 분야 중 하나인 성문분석이란 무엇이고, ‘바로 이 목소리’에는 어떤 기술이 쓰였는지 살펴본다.

사람 목소리 고유 파형의 특징 추출 원리
 목소리는 사람을 구별할 수 있는 또 다른 지문이라고 한다. 성별뿐 아니라 사람을 구별 지을 수 있는 요소들이 목소리에 있기 때문이다. 남성과 여성의 음성이 다르게 느껴지는 것은 1초당 성대의 떨림 특징인 ‘피치(Pitch)’ 정보의 분포가 다르기 때문이다. 같은 크기, 같은 높이의 소리를 내도 사람에 따라 느낌이 다른 것처럼 사람마다 음색이 다르다. 포먼트(Formant) 정보가 개개인마다 다르기 때문이다. 포먼트는 발성된 음성이 나타내는 주파수 분포다. 포먼트는 성대의 공명주파수와 발성 당시 성도의 구조, 조음기관의 영향을 받는다.

 

<그림 1> 음성의 발생 원리

 

<그림 2> 시간에 따라 관찰되는 음성의 주파수 분포 예

 허파에서 나온 공기가 성대(Vocal Folds)의 진동을 거쳐 성도(Vocal Tract)를 통과할 때까지의 과정은 수학적으로 모델링 가능하다. 유성음의 경우 백색 잡음(White Noise)의 주파수 분포를 보이는데 성대의 떨림으로 인해 주기적인 신호(피치 정보)로 변화된다. 이 신호가 성도를 통과하는 과정에 성도의 공명주파수에 의해 세기분포가 변화하면서 화자(Speaker)의 음성이 발생한다.

 

<그림 3> 사람의 발성 기관

 발성 기관의 구조는 튜브(tube)와 비슷하다. 튜브의 구조는 물리학적 관점에서 길이에 따라 공명주파수가 달라진다. 길이에 따라 발생되는 주파수가 정해져 있는데, 관악기뿐 아니라 현악기 또한 이러한 원리가 적용된다. 성대부터 입술까지를 뜻하는 성도의 길이에 따라서도 발생되는 공명주파수는 사람마다 제각각이다. 성대에서도 성대의 길이에 따라 공명주파수가 발생되는데, 사람이 발성할 때 성대에서 발성된 주파수 분포는 성도를 따라 진행할 때 성도의 공명주파수에 영향을 받는다. 성도를 튜브로 바라보면 발성 방법에 따라 성도의 각 부위별 단면의 형태가 변화해 여러 개의 튜브가 연결된 것으로 수학적 근사를 한다. 이러한 고려를 성도의 튜브모델(Tube-model)이라고 한다.

<그림 4> 사람의 성대(출처 : www.voicedoctorla.com/voice-disorders /

vocal-nodules-nodes)

 특히 성도를 튜브모델 기반으로 선형 예측(Linear Prediction)하면 포먼트 정보를 얻을 수 있다. 원래 신호와 선형 예측된 신호의 차이 신호(여과신호)로부터는 피치정보를 획득할 수 있다.

  

<그림 5> 성도의 튜브모델(출처: L.R. Rabiner and R.W.Schafer,

Introduction to Digital Signal Processing, Now Publishers Inc., 2007,

ISBN:978-1-60198-070-0)

 실제 음성인식이나 화자 인식에는 피치와 포먼트 정보를 쓰지 않고, 음성특징벡터(Mel-Frequency Cepstral Coefficient)를 사용한다. 음성특징벡터는 단구간 신호의 파워스펙트럼을 표현하는 방법 중 하나다. 음성특징벡터는 비선형적인 Mel 스케일의 주파수 도메인에서 로그파워스펙트럼에 코사인 변환(Cosine Transform)을 취해 얻을 수 있다.

대량의 음성데이터 중 서로 매칭되는 특징점을 찾는 방법
 화자 인식(Speaker Recognition)은 크게 화자 식별(Speaker Identification)과 화자 검증(Speaker Verification)으로 나뉜다. 화자 식별은 N개의 목소리 DB 중 입력 음성과 동일한 음성이 있는지 찾는 시스템이다. 화자 검증은 2개의 입력 음성이 서로 동일한지 상이한지 판단하는 시스템을 의미한다.
 화자 식별 알고리즘에 가장 많이 사용되는 방법은 UBM-GMM(Universal Background Model – Gaussian Mixture Model) 및 i-vector기반의 접근이다. 특히, i-vector 기반의 화자 인식 알고리즘은 배경화자 모델을 기반으로 전체 변이성(Total variablity)을 고려하여 각 화자가 지닌 음성 특징의 기저 벡터를 활용한 것으로 음성 특징의 차원을 기존 UBM-GMM 기반 화자 식별 알고리즘 보다 축소시킬 수 있다는 장점을 가지고 있다.

 먼저 N명의 등록된 목소리가 있다고 가정하자. 각각 목소리에서 전처리를 통해 잡음을 제거하고 음성 구간에 대해서는 음성특징벡터를 추출한다. 추출된 데이터 전체로 하나의 화자 모델을 생성하고, 다시 각각의 화자에 대한 적응훈련을 통해 N명에 대한 i-vector를 추출한다.
 입력 음성 데이터도 이와 마찬가지로 전처리 과정을 거쳐 음성특징벡터에 대한 i-vector를 추출한다. 이 특징과 N명의 i-vector간의 코사인 유사로가 높은 화자를 선택하는 것으로 특정 목소리를 선택할 수 있다.

‘바로 이 목소리’ 분석에 쓰인 기술들
 과학 기술을 범죄수사에 활용할 때에는 과학적 추론과 통계적 분석의 결과로 도출된 값들을 단순히 수치로서 직접 적용하는 데 조심스러운 면이 없지 않다. 이러한 결과가 무고한 사람을 만들 수 있기 때문에 가능한 많은 데이터를 이용해 충분히 검증해야 한다. 보이스피싱 신고 데이터에 대한 분석도 이러한 접근에서 시도됐다. 앞서 살펴본 대량 음성 데이터에 대한 화자식별은 화자 정보를 아는 경우였다. 반면 ‘바로 이 목소리’에서 분석한 음성 정보는 화자 정보를 모른다. 그렇기 때문에 각 음성 데이터로부터 추출한 특징 정보에서 각 화자의 확률모델 간의 유사도를 교차 검증 혼동 행렬(Cross-Validation Confusion Matrix)로 나타내 유사도가 높은 화자들끼리 군집화한 것을 기반으로 분석했다. 추후 다양한 음성 정보에 의한 데이터 분석이 보강된다면 인공지능을 활용한 법과학적 음성 분석은 법과학적 화자 분석의 한 방법으로 자리매김할 수 있을 것이다.

마치며
 일부 범죄에서는 음성자료가 존재하지만 성문분석 결과를 도출하기 어려운 경우도 있다. 현재까지 가장 정확한 방법은 발성된 음성의 주파수 분포(Spectrogram, 스펙트로그램)을 분석하는 거이다. 그러나 녹음 조건에 따라 성문에서 포먼트를 측정할 수 없을 수도 있고, 발성된 음성 정보가 많지 않아 분석할 수 없을 때도 있다.
 음성 정보는 자료도 많지만, 기존 방법으로 이러한 자료를 모두 활용하는 데 한계가 있다. 기계학습을 이용한 성문분석 연구는 이처럼 성문분석 결과를 도출하지 못한 사례를 해소하고자 하는 열망으로 시작됐다. 과거에는 하드웨어 장벽으로 어려웠던 일이 최근 들어 점차 사라지고 있다. 머지않은 시일 내에 성문분석의 실패의 원인이 하나 둘 해결될 것으로 기대된다. 그러기 위해서는 국립과학수사연구원뿐 아니라 학계에서도 관련 연구가 지속적으로 병행돼야 할 것이다. 단기적인 성과 중심의 연구보다는 장기적이고 반드시 필요한 것들이 연구되는 분위기가 널리 퍼지길 바란다.

--------------------------------------------------------------------------------
참고자료
1. L.R. Rabiner and R.W.Schafer, Introduction to Digital Signal Processing, Now Publishers Inc., 2007, ISBN:978-1-60198-070-0
2. 음성신호처리, 한진수, 오성미디어, 2003, ISBN : 898946430793560.
3. 최근 화자인식 기술 동향, 서영주, 김회린, 대한전자공학회지, 41(3), pp.40-49 (2014).
--------------------------------------------------------------------------------