SMVとは - わかりやすく解説 Weblio辞書 (original) (raw)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2015/12/19 01:43 UTC 版)

SMV(_selectable mode vocoder_)は CDMA2000 ネットワークで利用される可変ビットレート音声符号化方式である。それ以前から CDMA ネットワークで使われている符号化方式の EVRC のように通話中に音声の内容によりビットレートを変えることができることに加え、モード指定により基地局側から音質と平均ビットレートの制御を行うことができる特徴がある。

この特徴はその後に規格化された CDMA2000 ネットワーク用の音声符号化方式である VMR-WBEVRC-B 以降の仕様などにも引き継がれている。

目次

概要

SMV は CDMA ネットワークのために提案された音声符号化方式で、1999年に CDMA 方式の業界団体である CDG(_CDMA Development Group_)が要求仕様を作成し [1]、 その後様々な評価を経て 2001年6月に 3GPP2 の標準規格 C.S0030-0 として採用された [2]

ビットレートは入力となる音声信号の種類(有声音/無声音/無音状態など)と指定されているモードとの組み合わせにより動的に変わる。音声信号の内容に応じて8.55 kbps(フルレート)、4.0 kbps(ハーフレート)、2.0 kbps(1/4レート)0.8 kbps(1/8レート)のいずれかのビットレートに符号化する。1/8レートは無音状態(しゃべっていない状態)のみで使われる。

これらの符号化データはそれぞれ CDMA2000 ネットワークのレートセット1(9.6 Kbps を基準とする通信レート)でのフレームレート 9600 bps、4800 bps、2400 bps、1200 bps を使い送受信される。CDMA2000 ネットワークで使われている CDMA 方式は、各利用者のビットレートが下がるほど多くの利用者が同時接続できる特性があり、コーデックのビットレートを可変にして平均ビットレートを下げることは1基地局あたりの収容数(同時に通話可能な利用者数)の向上に役立っている。

平均ビットレートは基地局側が指示する「符号化モード」(パラメータ名 "RATE_REDUC")で制御する。符号化モードは、基地局当たりの収容数や携帯電話基地局との間の無線状態など通信ネットワーク側の状態と、要求される通信品質(QoS)により決められる。平均ビットレートは符号化モード 0 が最も高く 1、2 と順次低くなり、また音声の品質も同様に低下する。

符号化モードは 0 から 3 までの4モードがあり、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれる。加えて、最大ビットレートをハーフレート(4.0 kbps)に抑えるハーフレートマックスモード(half-rate max mode)があり、モード 0 とモード 1 に適用できる。

平均ビットレートは音声の内容により変わるが、符号化モードと平均的な会話での想定平均ビットレート(符号化のレート)との関係は以下のようになる [3]

SMV の符号化レート

RATE_REDUC (binary) 符号化モード 想定平均ビットレート 説明
‘000’ 0 7.95 kbps プレミアムモード
‘001’ 1 5.82 kbps スタンダードモード
‘010’ 2 4.50 kbps エコノミーモード
‘011’ 3 3.95 kbps キャパシティセービングモード
‘100’ 4 4.00 kbps モード0 + ハーフレートマックスモード
‘101’ 5 3.67 kbps モード1 + ハーフレートマックスモード
‘110’ 将来のために予約
‘111’ 将来のために予約

SMV で使うアルゴリズムは、CELPの一種である eX-CELP(_eXtended CELP_)を用いる。これは1つの技術ではなく、EVRC で使用されている RCELP アルゴリズムなど様々なアイデアを組み合わせ選択して使うものである [4]

また、それ以前に開発された EVRC と同様の雑音抑制の機能が仕様に組み込まれており、フロントエンドとして使われる。

SMV の特徴は以下の通りである。

CDMA2000 ネットワークでのサービス種別を表すサービスオプションとしては SO56(Service Option 56)が割り当てられている。

SMV の符号化データを RTP を用いインターネット上で送るためのデータ形式は、IETF標準の RFC 3558 で定義されている [5]

SMV は 3GPP2 でのマルチメディア用ファイルフォーマットである 3G2 でも使うことができる。携帯電話での音声通信用以外に、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなどの 3GPP2 で定義された各種マルチメディアサービスで使用することができる。

eX-CELP

SMV では CELP の一種である eX-CELP(_eXtended CELP_)と呼ばれる技術を用いる。

一般的な CELP は人間の音声を声道に相当する線形予測フィルターと声帯に相当する適応型と固定型のコードブックとでモデル化し、「合成による分析」(_analysis-by-synthesis_)の手法を用いてコードブックから誤差が最小になるものを探索する。

eX-CELP の基本的となる考え方は、通常の CELP が固定的なアルゴリズムを使い入力信号とできるだけ同じ波形になるように符号化しようとするのに対し、様々なアルゴリズムを組み合わせて知覚上重要な部分を強化した符号化を行うことである [6]

具体的には、 CELP をベースとしながら、以下のような方法で聴感上の音質を落とすことなくビットレートの低減を行っている [6] [7] [4]

合成による分析でのクローズドループだけでなく、完全な一致が必要ないパラメータはオープンループで符号化するなど、柔軟に切り替える

入力信号を細かくカテゴリー分けして処理を切り替え

(定常的な有声音、非定常的な有声音、発声の開始、定常的な無声音、非定常的な無声音、背景雑音のみ、など)

EVRC で使われる RCELP アルゴリズムのように、入力信号を知覚上影響が無い範囲で効率的に符号化できるよう修正する

CELP での固定コードブックを入力信号の分類に合わせた複数のサブコードブックに分け、それぞれの信号を適切に表現できるようにする

定常的な有声音(ほぼ同じ波形の繰り返し)とそれ以外とで符号化処理の全体構成を変える(Type 1/0 の2種類の構成が存在)

SMV と CDMA2000 ネットワークで長く使われている EVRC(EVRC revision 0)の、MOS 値は以下のようになる[4]MOS 値は、総合的な音質を表す主観評価値で1から5の値をとり、5が最も音質が高く1が最も低い。

コーデック MOS (Clean) MOS (Noisy) 説明
EVRC 3.581 3.346 EVRC revision 0 での値
SMV (モード0) 3.900 3.569 EVRC と同じ平均ビットレート
SMV (モード1) 3.636 3.528
SMV (モード2) 3.464 3.526

ここで "MOS (Clean)" は背景雑音が無い時の、"MOS (Noisy)" は背景雑音がある時の MOS 値である。同じ平均ビットレートでの総合的な音質は EVRC より高く、7 割程度の平均ビットレート(モード1)でも EVRC とさほど変わらない。

脚注

  1. ^ S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder (PDF)”. 2010年7月14日閲覧。
  2. ^3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems (PDF)”. 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
  3. ^3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems (PDF)”. 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
  4. ^ a b c Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
  5. ^ IETF (2003年7月). “RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)”. IETF Network Working Group.. 2010年7月14日閲覧。
  6. ^ a b Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. pp.381-382, Springer, 2007. ISBN 978-3540491255.
  7. ^ Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.

参考文献

関連項目

外部リンク

・話・ マルチメディア圧縮フォーマット
動画ファイルフォーマット ISO/IEC MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 MPEG-4 Part 2 Part 10/AVC MPEG-H (Part 2/HEVC) ITU-T H.120 H.261 H.262 H.263 H.264 H.265 その他 AMV AVS Bink CineForm Cinepak Daala Dirac DivX DV GIFアニメーション Huffyuv Indeo Microsoft Video 1 MS-MPEG4 MSZH OMS Video Pixlet ProRes 422 RealVideo RMP4 RTVideo SheerVideo Smacker Snow Sorenson Video Theora VC-1 VP3 VP6 VP7 VP8 VP9 WebM WMV XVD Xvid ZLIB
音声ファイルフォーマット ISO/IEC MPEG MPEG Audio Layer-1 MPEG Audio Layer-2 MPEG Audio Layer-3(MP3) AAC HE-AAC TwinVQ MPEG-4 ALS MPEG-4 SLS MPEG-4 DST MPEG-4 HVXC MPEG-4 CELP MPEG-4 HILN ITU-T G.711 G.718 G.719 G.721 G.722 G.722.1 G.722.2 G.723 G.723.1 G.726 G.728 G.729 G.729.1 その他 AC-3 ADPCM AMR AMR-WB AMR-WB+ Apple Lossless ATRAC CELT Cook DRA DTS EVRC FLAC GSM-FR GSM-EFR GSM-HR iLBC La Monkey's Audio MT9 μ-law Musepack Nellymoser OptimFROG Opus PASC PCM Original Sound Quality RealAudio RTAudio Shorten SILK Siren SMV Speex TAK True Audio VMR-WB Vorbis WavPack WMA
画像ファイルフォーマット ISO/IEC/ITU-T JPEG JPEG 2000 JPEG XR Lossless JPEG JBIG JBIG2 PNG WBMP その他 APNG BMP DjVu EXR GIF JPEG Network Graphics ICER ILBM MNG PCX PGF QTVR TGA TIFF DNG WebP
マルチメディアコンテナフォーマット 汎用 3GP 3G2 ASF AVI Bink DMF DPX DSM EVO FLV GXF Matroska MPEG-2システム MP4 MXF Ogg MOV RealMedia RIFF Smacker VOB WebM 音声専用 AU AIFF WAV