APPARATUS AND METHOD FOR VARYING TONE AND ACCELERATION OF AUDIO SIGNAL BY USING IMDCT INPUT SIGNAL

10-04-2014 дата публикации

Номер:

WO2014054918A1

Автор: PARK, Jusung, LEE, Donghoon, XU, Jingzhe, JUNG, Seungpyo

Принадлежит: 부산대학교 산학협력단

Контакты:

Номер заявки: KR89-00-201305

Дата заявки: 04-10-2013

ＩＭＤＣＴ 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법

[1]

본 발명은 오디오 신호의 음정 및 속도가변에 관한 것으로, 구체적으로 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간영역의 신호로 변환하기 전에 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 하여 계산량 및 메모리의 사용을 줄일 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법에 관한 것이다.

[2]

일반적으로 많은 양의 오디오 데이터를 CD, 하드디스크, 이동저장매체에 저장하거나 유무선 방식으로 전송하기 위해서 오디오 데이터를 압축한다. 오디오 데이터 압축방법에는 시간영역에서 압축하는 방식과 주파수 영역에서 압축하는 방식이 있다.

[3]

주파수 영역에서 압축하는 방식은 압축율이 높을 뿐만 아니라 음질도 좋으므로 시간영역의 오디오 신호를 주파수영역으로 변환하여 심리음향모델과 기타의 방식을 이용하여 압축한다.

[4]

MP3(MPEG 3)나 AAC(Advanced Audio Coding) 방식은 오디오 신호를 주파수 영역에서 압축하는 방식을 사용하고 있다. 사람이 오디오 신호를 청취하기 위해서는 압축된 데이터를 풀어서 압축되기 전 주파수영역의 신호로 복원하고 다시 시간영역의 신호로 변환해야 한다.

[5]

시간영역으로 변환된 오디오 신호를 정상속도보다 빨리 재생하면 음정(tone)이 높아지고, 느리게 재생하면 음정이 낮아진다. 따라서 음정변화 없이 정상속도보다 빠르거나 느리게 재생하기 위하여 SOLA(Synchronous Overlap and Add)와 같은 방법을 이용하여 음정을 변화시킨다. 음정이 변환된 신호를 정상속도로 재생하면 변환된 음정이 그대로 재생된다. 음정이 변환된 오디오 신호를 재생속도에 따라 음정변화 없이 재생 시키거나, 음정과 재생속도를 동시에 가변시킬 수 있다.

[6]

종래 기술의 경우 주파수영역에서 압축된 오디오 신호의 음정이나 속도를 가변시키고자 하는 경우에는 도 1에서와 같이, 시간영역의 신호로 일단 변환시킨 후 음정이나 속도를 가변 시킨다. 이러한 과정에서 시간영역에서 음정이나 속도를 가변 시키기 때문에 추가적인 계산이 요구되고 계산과정의 데이터를 저장하기 위하여 많은 메모리가 필요하게 된다.

[7]

MP3와 AAC방식에서 시간영역의 오디오 신호를 주파수영역의 신호로 압축하는 과정은 도 2에서와 같다.

[8]

이 방식들에서 오디오 신호는 필터 뱅크(filter bank)(21)를 통하여 여러 대역의 주파수 성분으로 분해되고, 필터 뱅크(21)에서 분해된 성분은 MDCT 블록(22)에서 MDCT(Modified Discrete Cosine Transform)을 통하여 시간영역에서 주파수영역으로 변환된다.

[9]

주파수영역으로 변환된 신호는 양자화부(23)에서 양자화(quantization)되고 코딩부(24)에서 코딩(coding)을 통하여 노이즈가 적고 손실이 적은 형태로 압축된다. 압축된 데이터는 비트스트림 엔코딩부(25)에서 사이드 정보(side information)와 함께 비트스트림(bitstream)으로 만들어져 저장되거나 전송된다.

[10]

주파수영역으로 압축된 신호를 시간영역으로 변환하는 일반적인 과정은 도 3에서와 같다.

[11]

비트스트림 디코딩부(31)에서 부호화된 비트스트림으로부터 사이드 정보와 압축된 데이터를 분리한다.

[12]

사이드 정보는 복호화 방법에 대한 정보를 포함하고 있으므로 주파수 영역으로 압축된 데이터를 IMDCT 블록(32)에서 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간 영역으로 변환할 수 있다.

[13]

MP3나 AAC 방식으로 압축된 오디오 데이터는 여러 주파수 대역으로 나누어 압축하고 복원하므로 복원된 데이터를 합성 필터 뱅크(33)를 통하여 재구성하여 시간영역의 오디오 신호로 변환된다. 종래 기술의 경우에는 도 3에서와 같은 과정을 통하여 시간영역의 신호로 완전하게 변환시킨 후 오디오 신호의 음정 변화와 속도를 변화시키는 단계를 거치게 된다.

[14]

시간영역의 오디오 신호 x(n)를 MDCT과정을 거쳐 주파수 정보 X(k)로 변환시켜는 과정은 수학식 1과 같다. 수학식 1에서 w(n)은 윈도우 함수(window function)이고 수학식 2과 같이 표시되며, 수학식 1, 2에서 N은 분석하는 윈도우 크기를 의미한다. (이하 모든 수학식에서 N은 분석 윈도우의 크기를 의미한다.) 분석 윈도우 내에 있는 시간영역의 신호 x(n)에 MDCT을 하면 수학식 1과 같은 주파수 영역의 데이터 X(k)를 얻을 수 있다.

[15]

주파수 영역으로 변환된 정보 X(k)를 시간 영역의 오디오 신호로 변환하는 IMDCT 과정은 수학식 3과 같다. 이러한 과정에서 주파수 정보 X(k)를 가공하여 오디오 신호의 주파수를 변화시켜 음정을 변화시키는 효과를 얻을 수 있다.

[16]

수학식 1

[17]

수학식 2

[18]

수학식 3

[19]

종래기술에서는 주파수영역의 오디오 신호를 시간영역의 신호로 변환시킨 후 음정이나 속도를 변화시키기 때문에 많은 계산량이 요구되고 계산과정의 데이터를 저장하기 위하여 많은 메모리가 필요하게 된다.

[20]

본 발명은 종래의 기술에서 주파수 영역으로 변환된 오디오 신호의 음정과 음정 변화없이 재생속도를 가변시키는 과정에서 많은 계산량과 메모리가 요구되는 문제점을 해결하기 위한 것으로, IMDCT 과정에서 오디오 신호의 음정을 용이하게 변화시키기 위해서 IMDCT 입력 데이터 X(k)에서 다양한 주파수성분, 각 주파수의 진폭과 위상을 추출하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.

[21]

본 발명은 주파수 영역의 신호를 시간영역의 신호를 변환하는 단계인 IMDCT(Inverse Modified Discrete Cosine Transform) 과정의 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.

[22]

본 발명은 주파수 영역으로 변환된 오디오 신호의 음정 및 속도가변 방법에 있어, IMDCT 과정에서 주파수 변환이 가능하게 IMDCT 입력신호를 적절하게 변환시키는 전처리 장치 및 방법, IMCDT를 통하여 시간영역의 신호로 변환된 오디오의 재생속도를 IMDCT 입력신호 전처리 단계와 연동시켜 음정과 음정변화 없이 재생속도를 변화시킬 수 있게 보간(Interpolation)하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 목적이 있다.

[23]

본 발명은 MDCT를 통하여 주파수영역으로 변환된 오디오 신호의 주파수 영역 데이터를 IMDCT를 통하여 시간영역의 신호로 변환하기 전에 다양한 주파수 성분을 추출하고 각 주파수 성분의 진폭과 위상을 이용하여 주파수 변환이 가능하게 IMDCT 입력 데이터를 재생성하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.

[24]

본 발명은 오디오 신호의 압축율을 높이기 위하여 주파수영역으로 변환된 신호의 주파수 정보를 활용하여 음정과 속도를 변화시키는 방법으로 시간영역에서 음정 변환시키는 과정을 생략할 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.

[25]

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

[26]

이와 같은 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치는 처리할 샘플의 윈도우 크기를 결정하는 윈도우부;상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;상기 추출된 주파수를 변환하는 주파수 변환부;상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;IMDCT를 통하여 상기 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록; 상기 IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;를 포함하는 것을 특징으로 한다.

[27]

여기서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성하는 데 필요한 윈도우를 결정하기 위하여, 분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 한다.

[28]

그리고 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여, 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고, 분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(k_in)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 한다.

[29]

다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법은 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여, 주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계;IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계;를 포함하는 것을 특징으로 한다.

[30]

여기서, 상기 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,IMDCT 입력 데이터 X(k)의 주파수를 정수부(k_in)와 소수부(ε)로 나누어 f = k_in+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(k_in-1), X(k_in), X(k_in+1)을 이용하여 분석하는 윈도우 내에 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(S_k)을 만드는 k_in를 정수부 주파수 성분(k_in)으로 하는 것을 특징으로 한다.

[31]

그리고 상기 주파수 성분의 소수부분 ε을,

[32]

라고 두면,

[33]

인 경우에 대해서

[34]

라고 두면,

[35]

인 경우에 대해서

[36]

2 종류를 구하고, α와 β 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(k_in)의 절대값과 k_in의 스펙트럼 값(S_k)의 비율을 로 정의하고, 그 비율이 특정 문턱값(threshold) λ₀과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 한다.

[37]

그리고 IMDCT 데이터 X(k)의 위상 를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(k_in)을 이용하여 계산하는 것을 특징으로 한다.

[38]

그리고 상기 진폭을 추출하는 단계에서, 정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 A_k를 구하는 것을 특징으로 한다.

[39]

그리고 상기 IMDCT 입력 데이터를 재구성하는 단계에서, 상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = k_in+ε), 위상(), 변환된 주파수 f_shift = f(1+R_f)을 이용하여 IMDCT 입력 X'(k)를 재구성하는 것을 특징으로 한다.

[40]

또 다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치는 처리할 샘플의 윈도우 크기를 결정하는 윈도우부;상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;상기 추출된 주파수를 변환하는 주파수 변환부;상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;상기 합성 필터뱅크에서 출력되는 오디오 신호의 샘플링 간격을 조절하여 재생속도와 음정을 변화시키는 보간부(Interpolator);를 포함하는 것을 특징으로 한다.

[41]

여기서, 상기 IMDCT 블록에서 오디오 신호의 음정을 변화시키기 위하여 IMDCT 입력 데이터 X(k)로 부터 정현파 성분으로 분해하여 추출한 후, 원하는 만큼 주파수를 변환하여 IMDCT 입력을 재구성하는 것을 특징으로 한다.

[42]

그리고 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여, 분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 한다.

[43]

그리고 상기 윈도우부에서의 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하는 데 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고, 분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(k_in)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 한다.

[44]

또 다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법은 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여, 주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계;를 포함하는 것을 특징으로 한다.

[45]

여기서, 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 그 방정식을 look-up 테이블 형태로 저장해두고 사용하는 과정을 포함하는 것을 특징으로 한다.

[46]

그리고 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서, IMDCT 입력 데이터 X(k)의 주파수를 정수부(k_in)와 소수부(ε)로 나누어 f = k_in+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(k_in-1), X(k_in), X(k_in+1)을 이용하여 분석하는 윈도우 내 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(S_k)을 만드는 k_in를 정수부 주파수 성분(k_in)으로 하는 것을 특징으로 한다.

[47]

그리고 상기 주파수 성분의 소수부분 ε을,

[48]

라고 두면,

[49]

인 경우에 대해서

[50]

라고 두면,

[51]

인 경우에 대해서

[52]

2 종류를 구하고, α와 β중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(k_in)의 절대값과 k_in의 스펙트럼 값(S_k)의 비율을 로 정의하고, 그 비율이 특정 문턱값(threshold) λ₀과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 한다.

[53]

그리고 IMDCT 데이터 X(k)의 cosine 함수의 위상 를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(k_in)을 이용하여 계산하는 것을 특징으로 한다.

[54]

그리고 상기 진폭을 추출하는 단계에서,정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 A_k를 구하는 것을 특징으로 한다.

[55]

그리고 음정변화 없이 재생속도를 변화시키기 위하여, 상기 IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계와 연계하여 원래 속도를 1로 할 때 가변속도, 원신호의 샘플링 간격(t_s), 새롭게 만들 신호의 샘플링 간격(t'_s), (원래속도/가변속도) = t_s/t'_s = R_t관계를 이용하여 R_t를 구한 후 (R_fx R_t) = 1 되게 R_f를 결정한 다음, 상기 추출한 IMDCT 입력 데이터 X(k)의 주파수 성분(k)을 f_shift = f(1+R_f) 변화시키는 것을 특징으로 한다.

[56]

그리고 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = R_t로부터 R_t를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 R_final= (1±0.06ⁿ)을 결정하고, R_final= R_fx R_t관계로부터 IMCDT 전처리 단계의 주파수 변화율 R_f를 결정하여 f_shift = f(1+R_f)을 이용하여 주파수를 변화시키는 것을 특징으로 한다.

[57]

그리고 상기 IMDCT 입력 데이터를 재구성하는 단계에서, 상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = k_in+ε), 위상(), 변환된 주파수 f_shift = f(1+R_f), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 한다.

[58]

그리고 가변속도에 따라 주파수 변환부의 주파수 변화량을 조절하고, 주파수 변화량에 따라 보간 단계의 샘플링 간격을 조절하는 것을 특징으로 한다.

[59]

그리고 상기 샘플링 간격의 조절은, 원래속도/가변속도, 원 신호의 샘플링 간격(t_s), 보간에 의해 재생성되는 오디오 신호의 샘플링 간격(t'_s) 사이에 R_t=(원래속도/가변속도)= t_s/t'_s 관계식이 성립하고, IMDCT 전 단계의 주파수 변환부의 주파수 변화량이 R_f 이라면 최종 음정이 가변속도와 (R_fx f)x R_t로 결정되는 것을 특징으로 한다.

[60]

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법은 다음과 같은 효과를 갖는다.

[61]

첫째, 주파수 영역에서 압축된 오디오 신호를 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 주파수 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있다.

[62]

둘째, 시간영역의 신호로 변환하기 전에 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킴으로써 계산량을 줄이게 되어 시스템의 CPU 부담을 줄여줄 수 있을 뿐만 아니라 소비전력을 줄일 수 있다.

[63]

셋째, 시간영역의 음정변환 과정이 불필요하게 됨에 따라 데이터를 저장하는 메모리를 줄일 수 있어 하드웨어 시스템을 값싸게 구성할 수 있다.

[64]

넷째, 입력 데이터 X(k)의 주파수 성분 및 위상과 진폭을 분리하여 방정식 형태로 표시하여 IMDCT 과정에서 주파수 변환이 용이하여 계산량을 줄일 수 있다.

[65]

다섯째, 시간영역의 신호를 주파수 영역의 신호로 변환하는 과정에서 주파수 영역의 신호에 포함되는 정보를 활용하여 음정을 변화시키는 방법으로 시간영역에서 음정 변환하는 과정을 생략할 수 있다.

[66]

여섯째, 주파수 추출 윈도우 크기를 변화시킴으로써 다양한 주파수를 세밀하게 추출할 수 있어 음정변환 음질을 높일 수 있다.

[67]

일곱째, 스펙트럼성분이 큰 주파수를 중심으로 윈도우를 구성함으로써 불필요한 윈도우를 제거할 수 있어 계산량을 줄일 수 있다.

[68]

여덟째, 서버밴드나 프레임 가장자리에서 윈도우를 중첩시킴으로써 그들 가장자리에 있는 주파수를 추출할 수 있어 음질을 개선할 수 있다.

[69]

아홉째, IMDCT 앞 단계에서의 주파수 변환비율과 보간부의 샘플링 간격을 연동함으로써 오디오신호의 음정변화, 속도변화, 음정과 속도를 동시에 변화시킬 수 있다.

[70]

도 1은 종래 기술의 주파수영역에서 압축된 오디오 신호의 음정이나 속도를 가변 시키기 위한 구성도

[71]

도 2는 종래 기술의 시간영역의 오디오 신호를 주파수 영역의 신호로 변환하기 위한 구성도

[72]

도 3은 종래 기술의 주파수 영역으로 변환된 신호를 시간영역으로 변환하는 과정을 나타낸 구성도

[73]

도 4는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치의 구성도

[74]

도 5는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치의 구성도

[75]

도 6은 IMDCT 입력 데이터 X(k)의 한 프레임 내에서 주파수 대역에 따른 윈도우 구성 개념도

[76]

도 7은 본 발명에 따른 윈도우에서 주파수 성분, 위상, 진폭 추출과정을 나타내는 플로우 차트

[77]

도 8 내지 도 10은 보간(interpolation) 주파수에 따른 원신호의 음정변환 개념도

[78]

이하, 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

[79]

본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

[80]

도 4는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치의 구성도이고, 도 5는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치의 구성도이다.

[81]

본 발명은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정과 속도를 가변시키는 것으로, 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치는 도 4에서와 같이, 처리할 샘플의 윈도우 크기(처리할 샘플의 개수)를 결정하는 윈도우부(41)와, 상기 윈도우부(41)에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부(42) 및 위상 추출부(43), 진폭을 추출하는 진폭 추출부(44)와, 상기 추출된 주파수를 변환하는 주파수 변환부(45)와, 상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부(46)와, IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록(47)와, IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크(48)를 포함한다.

[82]

그리고 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치는 도 5에서와 같이, 처리할 샘플의 윈도우 크기(처리할 샘플의 개수)를 결정하는 윈도우부(41)와, 상기 윈도우부(41)에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부(42) 및 위상 추출부(43), 진폭을 추출하는 진폭 추출부(44)와, 상기 추출된 주파수를 변환하는 주파수 변환부(45)와, 상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부(46)와, IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록(47)와, IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크(48)와, 오디오 신호의 샘플링 간격을 조절하여 재생속도를 변화시키는 보간부(Interpolator)(49)를 포함한다.

[83]

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정을 가변시키기 위하여, 주파수 성분을 세밀하게 추출하기 위하여 분석 윈도우의 크기를 조절하는 단계와, IMDCT 입력 데이터 X(k)의 주파수를 추출하는 단계와 위상을 추출하는 단계, 진폭을 추출하는 단계와, 음정변화 비율에 따라 추출된 주파수를 변환하는 단계와, 추출된 주파수, 위상, 진폭을 이용하여 IMDCT 입력을 재생성하는 단계와, 주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계와, IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계를 포함한다.

[84]

그리고 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 방법은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정과 속도를 가변시키기 위하여, 주파수 성분을 세밀하게 추출하기 위하여 분석 윈도우의 크기(처리할 샘플의 개수)를 조절하는 단계와, IMDCT 입력 데이터 X(k)의 주파수를 추출하는 단계와 위상을 추출하는 단계, 진폭을 추출하는 단계와, 음정변화 비율에 따라 추출된 주파수를 변환하는 단계와, 추출된 주파수, 위상, 진폭을 이용하여 IMDCT 입력을 재구성하는 단계와, 주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계와, IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계와, 재생속도 변화비율에 따라 샘플링 간격을 조절하여 재생속도를 변화시키는 단계를 포함한다.

[85]

여기서, IMDCT 과정에서 원하는 만큼 주파수를 변화시키는데 있어, 계산량을 줄이고 주파수 변화량에 비례하게 IMDCT 전 단계에서 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 룩업(look-up) 테이블 형태로 저장하는 과정을 포함한다.

[86]

그리고 IMDCT를 이용하여 압축된 데이터를 음정 변환 없이 단순히 복호화하는 경우에는 본 발명에서 제안하는 윈도우 과정, 주파수 추출, 진폭 추출, 입력 데이터 재구성, 주파수 변환 과정을 거치지 않고 부호화된 주파수 영역의 데이터 X(k)를 IMDCT 과정과 합성필터뱅크를 거쳐 복호화하면 된다.

[87]

윈도우부(41)의 윈도우잉(windowing) 과정은 다음과 같다.

[88]

입력신호의 음정을 변화시키기 위해서는 주파수 영역의 IMDCT 입력 데이터 X(k)의 주파수 성분을 가능한 세밀하게 추출하여 주파수 성분의 손실을 줄여야 한다. 추출의 정확도는 몇(N) 개의 X(k) 샘플을 모아서 추출할 것인가를 결정하는 윈도우의 크기(N)에 의하여 결정된다.

[89]

주파수 성분을 추출하는 방식은 N개의 샘플 윈도우 내에서 가장 큰 주파수 성분을 추출하는 방식이다. 추출하는 주파수가 중복되지 않은 범위 내에서 가능한 윈도우를 크게 잡는 것이 계산량을 줄이는 측면에서 좋다. 윈도우 크기를 작게 하면 주파수 성분을 세밀하게 추출할 수 있으나 계산량이 많아지는 문제점이 있다.

[90]

오디오 신호의 주파수 대역은 20 KHz로 알려져 있으나, 오디오 신호의 주파수 특성을 분석해보면 저주파 영역의 주파수 성분이 고주파 영역의 주파수 성분보다 많다. 계산량도 줄이고 세밀하게 주파수 성분을 추출하기 위하여 도 6에서와 같이 IMDCT 입력 데이터 X(k)에서 주파수 추출할 때 저주파 영역의 윈도우 크기를 작게 하고 고주파 영역의 윈도우를 크게 한다.

[91]

상기 IMDCT 단계에서 사용되는 입력 데이터 X(k)는 수학식 1과 같이 복잡한 형태이지만, 본 발명은 을 사용하며, 여기서, f와 는 IMDCT 입력 데이터로부터 추출한 특정 주파수와 위상을 의미하며, k는 MDCT에서 주파수 인덱스, A_k는 주파수 인덱스의 진폭(amplitude)이다.

[92]

그리고 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수 성분과 그 주파수의 진폭과 위상을 분리하여 간단한 방정식 형태로 표시하는 과정을 포함한다.

[93]

그리고 상기 주파수 추출단계에서, IMDCT 입력 데이터의 주파수 성분을 f = k_in+ε 으로 하여 주파수 f를 정수부(k_in)와 소수부(ε)로 나누고, 윈도우 내에서 이웃하는 세 개의 주파수 성분 X(k-1), X(k), X(k+1)을 이용하여 스펙트럼 값을 수학식 4를 이용하여 구하여 윈도우 내에서 가장 큰 스펙트럼 값을 가지는 X(k)의 k를 정수 주파수 성분 k_in으로 한다.

[94]

수학식 4

[95]

보다 정확한 주파수 성분의 값을 알기 위해 소수부 주파수 성분을 정수부 주파수(k_in) 성분의 절대값과 스펙트럼 값의 비를 문턱 값(λ₀)과 비교하여 X(k_in±1) 이나 X(k_in±2) 를 사용하여 소수부를 계산한다.

[96]

그리고 상기에서 추출한 주파수의 위상을 정수부 주파수(k_in)와 정수부 주파수 성분 X(k_in)과 이웃하는 주파수 성분 X(k_in-1)을 이용하여 구하고, 상기 단계에서 추출한 주파수(f = k_in+ε), X(k_in), X(k_in-1), 소수부 주파수 (ε), 윈도우 크기(N)을 이용하여 추출한 주파수의 진폭을 구한다.

[97]

그리고 상기와 같이 추출한 IMDCT 입력 데이터를 구성하는 각 주파수와 그 주파수의 위상과 진폭을 사용하여 음정을 가변하기 위해서 음정변화에 대응되게 주파수 f를 변화시켜 변환주파수(f_shift)를 f_shift = f(1+R_f) 으로 표시하고, 여기서 R_f은 주파수 변환비율이며 양의 값은 음정을 높이고 음의 값은 음정을 낮추는 경우이다.

[98]

본 발명은 IMDCT 앞 단계에서의 주파수 변환을 통한 음정 변화와 보간부의 샘플링 간격을 연동시켜 속도가변, 음정가변, 음정과 재생속도 동시가변을 수행할 수 있다.

[99]

그리고 윈도우를 구성함에 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에 존재하는 정수주파수 성분을 추출하기 위해서 서버밴드와 프레임을 중첩시켜 윈도우를 설정한다.

[100]

서버밴드나 프레임에서 수학식 4를 이용하여 스펙트럼을 계산하여 정수주파수 성분을 찾아 그 값이 큰 몇 개의 정수주파수(k_in)를 중심으로 일정수의 샘플로 구성된 분석 윈도우를 구성한다.

[101]

그리고 하나의 프레임이나 서브밴드에서 몇 개의 정수주파수 성분을 선택할 것인가 하는 문제는 프레임이나 서브밴드를 구성하는 샘플의 수에 따라 다르다.

[102]

MP3 방식과 같은 경우에는 하나의 서브밴드 내에서 5개 이내의 정수주파수 k_in로 윈도우를 결정한다.

[103]

시간영역의 오디오 신호를 MDCT를 통하여 주파수 영역의 신호로 변환하면 IMDCT 입력으로 사용될 X(k)는 수학식 1과 같이 윈도우 크기(N) 만큼의 항들의 합으로 표현된다. MP3나 AAC와 같은 방식과 같이 윈도우가 클 경우 수학식 5와 같은 단일 주파수(f)의 정현파를 MDCT 하면 수학식 6과 같이 X(k)는 하나의 항으로 근사화 할 수 있다.

[104]

수학식 6를 분석해보면 IMDCT 입력은 MDCT 주파수 인덱스(k)와 그 주파수 인덱스의 위상()과 진폭(A_k), MDCT의 입력으로 사용된 신호의 단일 주파수(f)로 표현됨을 알 수 있다. 시간영역의 복잡한 모양의 오디오 신호도 결국 여러 주파수의 정현파 합으로 생각할 수 있으므로 IMDCT 입력으로 사용될 X(k)의 각 주파수 성분 즉 인덱스(k)에 대한 정보(진폭, 주파수, 위상)를 추출하여 추출된 주파수를 변화 시켜 IMDCT 단계를 거치면 음정을 변화시킬 수 있다.

[105]

수학식 5

[106]

수학식 6

[107]

그리고 주파수 추출부(42) 및 위상 추출부(43), 진폭 추출부(44) 에서의 주파수, 위상, 진폭 추출과정은 도 7에서와 같다.

[108]

IMDCT 입력 데이터 X(k)의 주파수를 정수부(k_in)와 소수부(ε)로 나누어 f = k_in+ε 으로 표시할 수 있다. 이웃하는 세 개의 주파수 성분 X(k_in-1), X(k_in), X(k_in+1)을 이용하여 분석할 윈도우 내 존재하는 모든 스펙트럼 값(61)을 구하여 그 중 가장 큰 스펙트럼 값(S_k)을 만드는 주파수 인덱스 k를 정수부 주파수 성분 k_in으로 한다.(62)

[109]

소수부 주파수 성분을 정수부 주파수 성분 X(k_in)의 바로 이웃하는 성분 X(k_in±1)을 이용하여 구할 것인가, 아니면 그 다음 성분 X(k_in±2)를 이용하여 구할 것인 가를 정하기 위하여 정수부 주파수 인덱스 k_in과 k_in을 중심으로 한 스펙트럼 값의 비 를 구한다.(63)

[110]

정수부 주파수 성분과 바로 인접한 성분 X(k_in±1)을 이용하여 수학식 7을 이용하여 소수부 주파수성분(ε₁)을 계산한다.(64, 65) 정수부 주파수 성분 X(k_in)에서 2만큼 떨어진 주파수 성분 X(k_in±2)를 이용하여 수학식 8을 이용하여 또 다른 소수부 주파수 성분(ε₂)를 구한다. (66, 67)

[111]

수학식 7

[112]

수학식 8

[113]

정수부 주파수 k_in과 k_in을 중심으로 한 스펙트럼 값의 비 가 특정 문턱 값보다 작으면 수학식 7을 이용하여 구한 소수부 주파수성분(ε₁)을 선택하고, 클 경우는 수학식 8을 이용하여 구한 소수부(ε₂)를 선택한다. (68, 69)

[114]

IMDCT 입력 데이터 X(k)의 추출된 정수부 주파수(k_in)와 소수부 주파수(ε)을 이용하여 주파수(f)를 f = k_in+ε 와 같이 구한다. (71)

[115]

정수부 IMDCT 입력 데이터 X(k)의 cosine 함수의 위상()은 정수부 주파수 성분 X(k_in)과 바로 인접한 성분 X(k_in±1)과 소수부 주파수 성분(ε)을 이용하여 수학식 9를 이용하여 구한다. (70)

[116]

수학식 9

[117]

그리고 본 발명에 따른 진폭 추출부에서의 진폭 추출 과정은 다음과 같다. (72) 수학식 6의 X(k)에 k_in과 k_in-1을 각 각 대입하여 수학식 10, 수학식 11을 얻는다. 수학식 10과 수학식 11을 이용하여 간단한 조작을 통하여 수학식 12와 같은 진폭(A_k)를 얻을 수 있다. 수학식 10, 11에서 f는 추출된 주파수 정보 (k_in+ε)를 사용한다.

[118]

수학식 10

[119]

수학식 11

[120]

수학식 12

[121]

이상의 과정은 하나의 윈도우에서 그 윈도우를 대표하는 주파수, 위상, 진폭을 구하였다. MDCT 방식을 이용하는 MP3, AAC, AC-3 방식에 따라 하나의 프레임에는 위와 같은 분석이 필요한 윈도우가 여러 개 있다. 본 발명의 개념을 활용하여 방식에 따라 분석 윈도우의 크기를 적절하게 조절하여 하나의 프레임을 구성하는 다양한 주파수(f), 위상(), 진폭(A_k)을 분석할 수 있다.

[122]

하나의 프레임에 대한 주파수 성분의 추출이 완료되면, 재생속도 변화 없이 음정을 변화시키는 경우 즉 원래 오디오 신호의 샘플링 간격과 보간부의 샘플링 간격이 동일한 경우에는 추출된 주파수를 f_shift = f(1+R_f)와 같이 변화시킨다. 여기서 R_f는 주파수 변화율이다. 일반적으로 반음을 올리거나 내릴 경우 원래 주파수의 6% 만큼 주파수의 변화가 있으므로 n-반음정을 올리거나 내리기 위해서는 f_shift = f{1±(0.06)ⁿ}와 같이 주파수를 변화시키면 된다.

[123]

음정과 재생속도를 동시에 가변 시켜는 경우는 재생속도로부터 (원래속도/가변속도) = R_t로 부터 R_t를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 R_final= (1±0.06ⁿ)을 결정하고, R_final = R_fx R_t로 부터 주파수 변화율 R_f= (1±0.06ⁿ)/ R_t결정하여 최종적으로 f_shift = f(1+R_f)을 구한다.

[124]

그리고 입력 데이터 재구성부(46)의 입력 데이터 재구성(regenerating IMDCT input data) 과정은 다음과 같다.

[125]

상기 과정을 거쳐 추출한 주파수 성분(f = k_in+ε), 음정변화에 따른 주파수 변화율(R_f), 위상(), 정수 주파수 성분(k_in), 진폭 정보(A_k)를 이용하여 수학식 13과 같이 IMDCT 입력 데이터 X'(k)를 다시 생성한다. 수학식 13에서 k는 IMDCT 영역의 주파수 성분이다.

[126]

수학식 13

[127]

여기서

[128]

상기 수학식 13을 이용하여 여러 윈도우로 구성된 프레임을 각 각의 윈도우에 대하여 IMDCT 과정을 거치면 그 프레임에 대하여 음정이 변화된 시간영역의 오디오신호를 얻을 수 있다. 이러한 개념을 사용하여 시간영역의 오디오신호를 필요에 따라 적절하게 보간을 하면 음정가변, 속도 가변, 음정 및 속도 동시가변 효과를 얻을 수 있다.

[129]

보간 단계에서 속도 및 음정변화 변화 개념을 도 8 내지 도 10을 이용하여 상세히 설명하면 다음과 같다.

[130]

도 8을 음정 변화가 안된 원래의 신호라고 가정한다.

[131]

도 9는 상기 IMDCT 과정을 통하여 주파수변환 즉 음정변환이 된 신호이다.

[132]

도 8과 도 9에서 T₀/T_sh를 주파수 변환비율 R_f라고 한다. R_f가 1보다 크게 되면 원래 오디오 신호보다 주파수가 올라가 음정이 높아진다.

[133]

도 9와 도 10에서 신호를 샘플링 하는 간격 t_s와, t'_s의 비 t_s/ t'_s를 샘플링 간격의 비 R_t라고 정의한다. 샘플링 간격의 비 R_t는 재생속도의 비 (원래속도/가변속도)와 같이 생각해도 된다.

[134]

여기서 재생속도가 느린 경우는 (원래속도/가변속도)가 1보다 큰 경우이다.

[135]

샘플링 간격을 짧게 하면 주어진 시간에 많은 샘플 데이터를 얻을 수 있어, 음정을 변화시키지 않은 신호에 대하여 샘플링 간격의 비 R_t를_{1보다 크게하면_{느리게 재생되고 음정이 낮아진다. 이러한 개념을 사용하면 샘플링 간격의 비를 조절함으로써 재생속도와 음정을 바꿀 수 있다.}}

[136]

원래의 주파수(f)가 상기 IMDCT 전처리과정과 IMDCT를 통하여 R_f 비율로 주파수 변환이 일어났다면 보간단계 전의 주파수는 (R_f x f)가 된다. 변환된 신호의 샘플링 간격과 보간 단계의 샘플링 간격의 비가 R_t 이라면 보간 단계를 거친 최종 신호의 주파수는 (R_f x f) x R_t가 된다.

[137]

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정변화 없이 재생속도를 변화시켜려면 (원래속도/가변속도) = t_s/t'_s= R_t로 부터 R_t를 구한 후 (R_fx R_t) = 1 되게 IMDCT 전처리 단계의 주파수 변화율 R_f를 정하면 된다. 그리고 원신호의 샘플링 간격 t_s는 이미 알고 있는 값이므로 음정변화 없이 재생속도를 변화시킬 수 있는 t'_s를 구할 수 있다.

[138]

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정을 변화시키고자 하는 경우에는 음정변화비율 R_f를 IMDCT 전처리 단계의 주파수 변화율 R_f로 정하고 샘플링 간격 비율은 변화시키지 않고 재생하면 된다.

[139]

R_f가 1보다 크면 음정이 높아지고 1보다 작으면 음정이 낮아진다. 일반적으로 반음은 주파수 측면에서 ±6% 변화를 가져오므로 변화시키려는 반음의 수(n)에 따라 주파수 변환율을 R_f= (1±0.06ⁿ) 형태로 결정하여 수학식 13을 이용하여 IMDCT 입력 X'(k)을 재생성한다.

[140]

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = R_t로부터 R_t를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 R_final= (1±0.06ⁿ)을 결정하고 R_final = R_fx R_t로부터 IMCDT 전처리 단계의 주파수 변화율 R_f를 결정하여 수학식 13을 이용하여 IMDCT 입력 X'(k)을 재생성하고 재생성할 신호의 샘플링 간격(t'_s)은 (원래속도/가변속도) = t_s/t'_s = R_t을 이용하여 구한다.

[141]

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법은 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간의 영역의 신호로 변환하기 전에 입력되는 주파수 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 한 것으로, IMDCT 과정에서 원하는 만큼 주파수를 용이하게 변화시키기 위해서는 입력 데이터 X(k)의 주파수 성분과 진폭을 분리하여 방정식 형태로 표시하는 과정을 포함하고, IMDCT 과정을 거쳐 시간영역으로 변화된 오디오 신호의 샘플링 간격을 조절하여 음정, 재생속도, 음정 및 재생속도 동시 가변이 가능하게 하는 보간 과정을 포함하여, 계산량 및 메모리의 사용을 줄일 수 있도록 한 것이다.

[142]

상기 개념을 이용하면 음정변화뿐만 아니라 임의의 주파수와 임의의 재생속도를 얻을 수 있다.

[143]

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

[144]

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

[145]

본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법은 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간의 영역의 신호로 변환하기 전에 입력되는 주파수 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 한 것으로, IMDCT 과정을 거쳐 시간영역으로 변화된 오디오 신호의 샘플링 간격을 조절하여 음정, 재생속도, 음정 및 재생속도 동시 가변이 가능하다.

[1]

The present invention relates to an apparatus and a method for varying the tone and the acceleration of an audio signal by using an inverse modified discrete cosine transform (IMDCT) to reduce the amount of computation and memory use by processing input data X (k) before converting into a time domain signal through the IMDCT, so that the tone and the acceleration of the audio signal can be changed, when varying the tone and the acceleration of the audio signal. The method comprises the steps of: determining the size of a window for determining the number of samples for extracting a frequency; extracting the frequency (k), phase, and amplitude of the input data X (k) needed in the IMDCT process from the window size that is selected; converting the extracted frequency, and reconfiguring the IMDCT input data by using the converted frequency and the extracted phase and amplitude; and outputting a coded audio signal by IMDCT processing and interpolating.

[2]

처리할 샘플의 개수를 결정하는 윈도우부;

상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;

상기 추출된 주파수를 변환하는 주파수 변환부;

상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;

IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 상기 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;

상기 IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.

제 1 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성하는 데 필요한 윈도우를 결정하기 위하여,

분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.

제 1 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여,

서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고,

분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(k_in)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.

IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여,

주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;

선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;

추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;

주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계;

IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

제 4 항에 있어서, 상기 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,

IMDCT 입력 데이터 X(k)의 주파수를 정수부(k_in)와 소수부(ε)로 나누어 f = k_in+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(k_in-1), X(k_in), X(k_in+1)을 이용하여 분석하는 윈도우 내 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(S_k)을 만드는 k_in를 정수부 주파수 성분(k_in)으로 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

제 5 항에 있어서, 상기 주파수 성분의 소수부분 ε을,

라고 두면,

인 경우에 대해서

라고 두면,

인 경우에 대해서

2 종류를 구하고, α와 β 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(k_in)의 절대값과 k_in의 스펙트럼 값(S_k)의 비율을 로 정의하고, 그 비율이 특정 문턱값(threshold) λ₀과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

제 4 항에 있어서, IMDCT 데이터 X(k)의 위상 를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(k_in)을 이용하여 계산하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

제 4 항에 있어서, 상기 진폭을 추출하는 단계에서,

정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 A_k를 구하는 것을 특징으로 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

제 4 항에 있어서, 상기 IMDCT 입력 데이터를 재구성하는 단계에서,

상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = k_in+ε), 위상(), 변환된 주파수 f_shift = f(1+R_f), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.

처리할 샘플의 윈도우 크기를 결정하는 윈도우부;

상기 추출된 주파수를 변환하는 주파수 변환부;

상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;

IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;

IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;

상기 합성 필터뱅크에서 출력되는 오디오 신호의 샘플링 간격을 조절하여 재생속도를 변화시키는 보간부(Interpolator);를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.

제 10 항에 있어서, 상기 IMDCT 블록에서 오디오 신호의 음정을 변화시키기 위하여 IMDCT 입력 데이터 X(k)로 부터 정현파 성분으로 분해하여 추출한 후, 원하는 만큼 주파수를 변환하여 IMDCT 입력을 재구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.

제 10 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여,

분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.

제 10 항에 있어서, 상기 윈도우부에서의 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하는 데 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고,

분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(k_in)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.

IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여,

주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;

선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;

추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;

IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 14 항에 있어서, 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 그 방정식을 look-up 테이블 형태로 저장해두고 사용하는 과정을 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 14 항에 있어서, IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,

제 16 항에 있어서, 상기 주파수 성분의 소수부분 ε을,

라고 두면,

인 경우에 대해서

라고 두면,

인 경우에 대해서

2 종류를 구하고, α와 β중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(k_in)의 절대값과 k_in의 스펙트럼 값의 비율을 로 정의하고, 그 비율이 특정 문턱값(threshold) λ₀과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 14 항에 있어서, IMDCT 데이터 X(k)의 위상 를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(k_in)을 이용하여 계산하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 14 항에 있어서, 상기 진폭을 추출하는 단계에서,

정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 A_k를 구하는 것을 특징으로 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 14 항에 있어서,

가변속도와 주파수 변화량에 따라 주파수 변환부와 보간부를 연동하여, 주파수 변화량과 샘플링 간격을 조절하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 20 항에 있어서, 음정변화 없이 재생속도를 변화시키기 위하여,

상기 IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계와 연계하여 원래 속도를 1로 할 때 가변속도, 원신호의 샘플링 간격(t_s), 새롭게 만들 신호의 샘플링 간격(t'_s), (원래속도/가변속도) = t_s/t'_s = R_t관계를 이용하여 R_t를 구한 후 (R_fx R_t) = 1 되게 R_f를 결정한 다음,

상기 추출한 IMDCT 입력 데이터 X(k)의 주파수 성분(k)을 f_shift = f(1+R_f) 변화시키는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 20 항에 있어서, 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = R_t로부터 R_t를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 R_final= (1±0.06ⁿ)을 결정하고, R_final= R_fx R_t관계로부터 IMCDT 전처리 단계의 주파수 변화율 R_f를 결정하여 f_shift = f(1+R_f)을 이용하여 주파수를 변화시키는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법.

제 20 항에 있어서, 상기 IMDCT 입력 데이터를 재구성하는 단계에서,

상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = k_in+ε), 위상(), 변환된 주파수 f_shift = f(1+R_f), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

제 20 항에 있어서, 상기 샘플링 간격의 조절은,

원래속도/가변속도, 원 신호의 샘플링 간격(t_s), 보간에 의해 재생성되는 오디오 신호의 샘플링 간격(t'_s) 사이에 R_t=(원래속도/가변속도)= t_s/t'_s 관계식이 성립하고, IMDCT 전 단계의 주파수 변환부의 주파수 변화량이 R_f 이라면 최종 음정이 가변속도와 (R_fx f)x R_t로 결정되는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.

CPC - классификация

G G1 G10 G10L G10L1 G10L19 G10L19/G10L19/0 G10L19/00 G10L2 G10L21 G10L21/G10L21/0 G10L21/04 G11 G11B G11B2 G11B20 G11B20/G11B20/1 G11B20/10

IPC - классификация

G G0 G01 G01L G01L1 G01L19 G01L19/G01L19/0 G01L19/00 G1 G11 G11B G11B2 G11B20 G11B20/G11B20/1 G11B20/10

Получить PDF