広告
WAVEファイルのいじり方が段々分かってきたので今回は歌入り楽曲データのボーカルを抜くプログラムを作成してみる。環境はLinux(CentOS7)、言語はC言語。
はじめに
音楽プレーヤー等にイヤホンを半挿しにするとボーカルが消える(音が小さくなる)現象をご存じの方は多いと思う。楽曲用のソフトウェアをいじる方は位相反転というワードのほうがしっくりくるかもしれない。
この現象は左右の音声波のどちらか一方が位相反転(プラスとマイナスが入れ替わる)して合成されることで発生している。大抵ボーカルの音声は真ん中(左右とも同程度の成分量)なので波の打消しによって波が小さく(音が小さく)なるという理屈。説明は下記を参考とさせていただく。
対象の楽曲
著作権とか色々あるので下記の楽曲を使わせていただくことにした。
ボーカル素材|著作権フリーの無料音楽素材ダウンロードサイト「ミュージックノート」
ソースコード
ボーカル消去は下記の処理で実現する。合算値のオーバーフローを考慮してないので所々で変な音になるかもしれない。
1 2 3 4 5 6 7 8 9 10 |
for(t = 0; t < wave->data.chunk_size/sizeof(wave_stereo_t); t++) { wave_stereo_t* val = (wave_stereo_t* )&wave->data.dat[t * sizeof(*val)]; /* 片方を位相反転して合算する */ val->right = val->right + val->left * (-1); /* 左右とも同値にする */ val->left = val->right; } |
ソースコード全体(vo_cancel.c)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 |
#include <stdio.h> #include <stdlib.h> #include <string.h> #include <stdint.h> #include <unistd.h> /* RIFFチャンク */ typedef struct { char chunk_id[4]; /* チャンク識別子('RIFF'固定) */ uint32_t chunk_size; /* チャンクサイズ */ char format_type[4]; /* フォーマットタイプ('WAVE'固定) */ } RIFF_chunk_t; /* fmt チャンク */ typedef struct { char chunk_id[4]; /* チャンク識別子('fmt '固定) */ uint32_t chunk_size; /* チャンクサイズ */ uint16_t format_type; /* フォーマットタイプ */ uint16_t channel; /* チャンネル数 */ uint32_t sample_per_sec; /* サンプリング周波数 */ uint32_t byte_per_sec; /* 1秒あたりバイト数 */ uint16_t block_size; /* ブロックサイズ */ uint16_t bit_per_sample; /* 量子化精度 */ } fmt_chunk_t; /* dataチャンク */ typedef struct { char chunk_id[4]; /* チャンク識別子('data')固定 */ uint32_t chunk_size; /* チャンクサイズ(データ長) */ uint8_t dat[0]; /* データ(可変長) */ } data_chunk_t; typedef struct { RIFF_chunk_t riff; fmt_chunk_t fmt; data_chunk_t data; } wave_format_t; typedef struct { int16_t left; int16_t right; } wave_stereo_t; static int revertAndSynthsisWave(char* input_file, char* output_file); int main(int argc, char*argv[]) { if (argc != 3) { fprintf(stderr, "usage:%s <input file> <output file>\n", argv[0]); exit(EXIT_FAILURE); } int rc = revertAndSynthsisWave(argv[1], argv[2]); if (0 != rc) { fprintf(stderr, "revertAndSynthsisWave() failed(%d)\n", rc); exit(EXIT_FAILURE); } return 0; } static int revertAndSynthsisWave(char* input_file, char* output_file) { int rc = -1; FILE* ifp = NULL; FILE* ofp = NULL; char buff[sizeof(wave_format_t)] = {0}; wave_format_t* wave = NULL; int t = 0; if (access(input_file, R_OK) != 0) { perror("access"); goto error_end; } ifp = fopen(input_file, "rb"); if (NULL == ifp ) { perror("fopen"); goto error_end; } if (fread(buff, 1, sizeof(buff), ifp) <= 0) { perror("fread"); goto error_close_end; } wave = (wave_format_t* )malloc(((wave_format_t* )buff)->riff.chunk_size); if (NULL == wave) { goto error_close_end; } *wave = *((wave_format_t* )buff); if (fread(wave->data.dat, 1, wave->data.chunk_size, ifp) <= 0) { perror("fread"); goto error_free_end; } for(t = 0; t < wave->data.chunk_size/sizeof(wave_stereo_t); t++) { wave_stereo_t* val = (wave_stereo_t* )&wave->data.dat[t * sizeof(*val)]; /* 片方を位相反転して合算する */ val->right = val->right + val->left * (-1); /* 左右とも同値にする */ val->left = val->right; } ofp = fopen(output_file, "wb"); if (NULL == ofp) { perror("fopen"); goto error_free_end; } fwrite((void*)wave, 1, sizeof(*wave)+wave->data.chunk_size, ofp); rc = 0; fclose(ofp); error_free_end: free(wave); error_close_end: fclose(ifp); error_end: return rc; } |
実行結果
加工前のnoise.wavからボーカルを消去したnoise_vocancel.wavを作成する。
1 2 3 4 |
[user@localhost vo_cancel]$ gcc -o vo_cancel vo_cancel.c [user@localhost vo_cancel]$ ./vo_cancel noise.wav noise_vocancel.wav [user@localhost vo_cancel]$ ls noise_vocancel.wav noise.wav vo_cancel vo_cancel.c |
再生してみると下記のようになる。(wavだと都合が悪いのでmp3に変換しています)
ボーカル消去前
ボーカル消去後
広告
広告