スピーカー

現状

  • 部屋で音楽を流したい時、以下の2通りがある
    • 「アレクサ、◯◯を流して」
    • PCやスマホでSpotifyを開き、出力デバイスをEcho Studioにする
  • その他スマートスピーカーとしてもちょこちょこ活用してる
    • 毎朝の目覚まし
    • 昼寝の時「15分後にアラームかけて」
    • 二度寝中の時「いま何時?」

課題

  • 自分の曲と、他のアーティストの曲を、モニタースピーカーで聴き比べたい
    • そんで自分の曲の足りないところとかをちゃんと把握したい
  • ↑をできるだけ楽に実現したい
    • 前にモニタースピーカー持ってた時、接続が面倒で気軽に使えず、使用頻度が低かった

解決法?

  • 無線接続できるモニタースピーカーを買って、PCからもスマートスピーカーからも接続できるようにすれば、めちゃくちゃ良いんじゃないか?

調査

「無線接続のモニタースピーカー」というのはあるのか?

結論

無いと言って良い。あっても眉唾もの。
無線接続という仕組みは、プロモニターに必要な要素を保つことと相性が悪い。

プロモニタースピーカーに求められる条件

  • 中で勝手な音の加工や味付けをしていないこと(DSPが最小限)
  • なるべく音が遅れず、遅れ方がいつも同じであること(レイテンシが低く、一定)
  • 入れた音が、そのまま出てくること (入力信号に忠実)
  • 特定の音域だけ急に強くなったり弱くなったりしないこと(周波数特性が安定・予測可能)

無線再生で起こる構造的問題

1️⃣ 時間がズレる(タイミングを信用できない)
無線通信では、音を安定して再生するために「すぐ鳴らす」より「途切れず鳴らす」ことが優先される。その結果、再生までの時間やタイミングが不安定になる。
主な原因
  • バッファリング
    • 通信の乱れに備えて、音声データを一度ためてから再生する
    • ためる量は状況によって変わるため、再生開始のタイミングが毎回微妙にズレる
  • レイテンシーの非固定
    • ネットワーク状況や同期処理の影響で、遅延量が一定にならない
    • 「常に同じ遅れ」で鳴る保証がない
  • 無線同期処理
    • 複数デバイスやサービスとタイミングを合わせるための調整が入る
    • これも再生タイミングの揺らぎにつながる
結果として起きること
  • 音の出だしやリズムの感じ方が安定しない
  • タイミングを基準にした判断がブレやすくなる
2️⃣ 音が書き換えられる
無線再生では、再生の成立に関わる多くの要素(入力フォーマットの違い、ネットワーク由来の揺らぎ、再生環境の差)を、スピーカー単体で吸収・調整する必要がある構造になっている。
そのため、モニター用途を意識して設計された製品であっても、再生の安定性や一貫性を確保するために、内部で一定の信号処理を行わざるを得ない場合が多い。
主な原因
  • 内部DSP処理
    • 低音の強調、高音の補正、音量の自動調整などが行われる
    • これらの処理はユーザーから見えないブラックボックス
  • ラウドネス補正・音質最適化
    • 小音量でも良く聴こえるように音が加工される
  • フォーマットの自動変換
    • サンプルレートやビット深度が内部で変換されることがある
    • 制作者が意図した状態がそのまま再生されるとは限らない
結果として起きること
  • 音が良くなったのか、スピーカーが良く聴かせているのか分からない
  • 音の違いや弱点を冷静に見極めにくくなる

ここまで調べてみて

イコライザで周波数帯の操作をしたりとか、そういう音の微妙な調整を無線でやるのは厳しいことは分かった。
ただおれが今やりたいのは、「完成した自分の曲と、完成した他の人の曲を聴き比べ、違いや弱点を知る」こと。この用途の場合、どういうスピーカーが良いかを考えてみる。

現状の問題点

Amazon Echo Studioで音楽を流す環境だと
  • スピーカー側が音の鳴り方を判断している
    • 曲内容・音量・再生状況に応じて内部処理が変わる
    • 情報量の少ない曲は盛られ、多い曲は整理されやすい
    • 荒さ・濁り・耳に痛い帯域が目立ちにくくなる
    • その結果、曲同士の差や自分の曲の弱点を 同じ基準で比較・判断することが難しくなる
  • 再生経路が複数あり、判断の再現性が保てない
    • 音声操作と、iPhone / Macbook からの再生でデコード・音量制御・内部処理が同一にならない可能性がある

今のおれに必要なスピーカー環境の条件

✅ 必須 (音)

加工が「固定」されている(最重要)
  • 内部処理(EQ / 補正 / ラウドネス / フォーマット変換など)が毎回同じ
  • 曲ジャンル・音量・再生状況によって勝手に挙動が変わらない
  • 曲内容・音量・状況に応じて、内部処理を動的に変えない
  • 曲の違いとスピーカーの違いを切り分けられる
 
操作端末は指示役に徹し、どの端末を使っても同じ経路を通る
  • 操作する端末は、再生の開始や停止といった指示だけを行う
    • 端末側では音の評価や補正を行わず、音の内容には関与しない
  • 再生元や操作方法が違っても、最終的に通る音の経路が固定化されている
  • 音量・音質・フォーマットに関する判断や制御は、再生経路の特定の箇所に集約されている

✅ 必須 (実用面)

「Macbook」「iPhone」「スマートスピーカー」から再生できる
  • 面倒だと使わなくなっちゃうので

👍 あるとうれしい(音)

音の加工が少ない
  • 完全フラットである必要はない
  • 他環境へ判断を持ち出しやすい
 
情報量が「適切」にある
  • 音域・定位・分離・ニュアンスが最低限把握できる
  • 曲や状況によって情報量の出方が変わらない
  • 自動補正や演出で水増しされた情報量ではない

👍 あるとうれしい(実用面)

短い呼びかけで済む
  • × 「アレクサ、xxのスピーカーで、Spotifyで、PUNPEE流して」
  • ◯「アレクサ、PUNPEE流して」

❌ 無いほうが良い

自動音質最適化・AIサウンド
  • 曲解析による最適化
  • 音量連動ラウドネス
  • 状況依存で音を変える仕組み
 
情報量を売りにした派手な演出
  • 過度な低音強調
  • 空間拡張・立体音響の強調
  • 「常に気持ちよく聴かせる」思想

条件を満たす構成

  • 再生経路・条件が単純であること
  • 「Macbook」「iPhone」「スマートスピーカー」から再生できる
を両立させるには、再生ハブを使って経路を一本化するしかない。

「音をどう鳴らすかを決めるレイヤー」をApple系の技術で固めるのが良さそうかも

  • 再生の判断
  • 音量管理
  • フォーマット変換
  • 再生経路の統一
  • 音声操作の入口
といった「音をどう鳴らすかを決めるレイヤー」をApple系で統一するのが良さそう。
Apple系で再生環境をまとめても、音が「良くなる」わけではない。
だけど、音の挙動が変わりにくくなる。どこで・何が・どのように音を決めているかが把握しやすくなる。結果として、曲の違いと、再生装置による違いを切り分けて判断しやすくなる。

理由① 再生の責任が一箇所に集約されやすい

Apple系の再生環境では、
  • デバイス(iPhone / Mac / Apple TV)
  • 通信方式(AirPlay)
  • 音量制御
  • フォーマット変換
といった要素が、同一思想・同一設計の延長線上で設計されている。そのため、
  • アプリごとに音の性格が変わりにくい
  • 端末を変えても挙動が大きく変わりにくい
  • 「音がどこで決まっているか」を追いやすい
という特徴がある。再生の判断が分散しにくい、という点が音の固定化に大きく寄与している。

理由② AirPlayは音を「良くしよう」としない

AirPlayは、音質向上を目的とした仕組みではない。
なので曲解析に基づく音質最適化も、音量連動のラウドネス補正もジャンルや状況に応じたDSP切替も行われない。
再生を成立させるための処理は行うが、「曲をより良く聴かせる」ための判断は極力行われないようになっている。
そのため曲が変わっても、音量を変えても、再生方法が変わっても音の性格が大きく変わりにくい。

理由③ Apple TVは「音を良く鳴らす役割」を持たない

再生ハブとして見たとき、Apple TVは少し特殊な立ち位置にある。
スピーカーではない、アンプでもない、音質を売りにしたデバイスでもない。
役割はあくまで「再生エンジンとして音を出力すること」に限定されている。
この「音を良く鳴らそうとしない設計」が、結果として音の挙動を安定させている。

※ スピーカーはApple製である必要はない

音の固定化に寄与しているのは「再生ハブ側の構造」であって、スピーカーがApple製かどうかではない。
スピーカーに求められる役割は、入ってきた信号を余計な判断をせずそのまま出すこと。
なので
  • プロ用モニタースピーカー
  • 有線接続
  • 内部DSPが固定、もしくは最小限
という条件を満たしていれば、 メーカーはどこでも良い。
また、Apple TVは音をアナログ信号にして鳴らすことができない(HDMI出力しかできない)ので、別途DAC等を用意する必要がある。

モニタースピーカーの選び方

「完成曲どうしの差が分かる」「自分の曲の弱点が隠れない」「再生条件が変わっても印象が変わらない」ってのを求める場合の条件は
  • 入力は XLRが無難
    • ノイズの混入が少なく、安定しやすい
  • 内部DSPがない or OFFにできる
  • 音の設計思想が評価向き
    • 音量を変えても音のキャラクターが大きく変わらない
    • 情報量を“盛らない”設計
      • 音数の少ない曲を勝手に成立させない
    • 情報を過度に整理しない
      • 音が多い曲を自動的に聴きやすくまとめない
    • 低音を誇張しない
  • その他個人的な希望
    • サイズが小さめ(高さ20cm以下、横幅は多少あっても平気)
    • 色は黒系
→ GENELEC ( ジェネレック ) / 8010AMとか良さそう。

HTML音声抽出機、DACの選び方

  • 一体型商品は、あんまいいのがない
    • 役割が根本的に異なる機能を1台にまとめる設計がそもそも成立しにくい
    • 商品自体はいくつかあるけど、どれも音の挙動を固定、把握しづらい
      • 音質にこだわる人が使うように設計されてない
  • HDMI音声抽出器(デエンベッダー)を選ぶポイント
    • S/PDIF(光 or 同軸)で“デジタルのまま”出せる
    • 2ch PCMを確実に通せる/固定しやすい
      • 2chは「音そのものを評価するための仕組み」
      • 5.1chは「音を成立させるための仕組み」
    • EDID/HDCP/フォーマット交渉で事故りにくい
    • 余計な“便利機能”が主役じゃない
    • (できれば)スイッチ類が少ない/設定項目が少ない
    • 「安いけど多機能」なやつほど地雷。「業務用途っぽく地味」なやつほど安全
→ エレコム hdmi 音声分離ASC-HDAV121BKとか良さそう
  • DACを選ぶポイント
    • 入力にS/PDIF(光/同軸)がある
    • ライン出力を“固定”できる(Fixed / DAC mode / Preamp OFF)
    • バランス出力(XLR/TRS)がある
    • DSP/フィルター/ラウドネス系を完全にOFFできる(または搭載しない)
    • 操作で設定が変わりにくい
    • 出力レベルの基準が明確(+4dBu / −10dBV など)
    • 電源・動作が安定している(常設運用前提)
    • 音色切替・キャラクター選択を売りにしていない
→ FOSTEX USB DAC HP-A3mk2とか良さそう?
↑ XLR出力できないかも

Apple TV本当に必要?

ここまで書いて、Apple TVを使って「一度HDMI出力に変えてから」「それを再度音声データに変換する」方式、すごい無駄が多い気がしてきた。
「音をどう鳴らすかを決めるレイヤー」をApple系の技術で固める、ってのを実現するのに、Apple TVは本当に必要なんだろうか?
「各Apple系デバイスから」「AirPlayで」「1つの同じ、ハブ的な製品を経由して」再生すればそれで良いんじゃないか?と思った。
AirPlay受信ハブとDACが一体になった製品あるといいな。

AirPlay受信ハブとDACが一体になった製品

ざっくり比較表

評価項目Bluesound NODEMarantz NR1200Denon DRA-900H-SPWiiM UltraWiiM Pro Plus
AirPlay 2 の安定性
内蔵DACの精度○〜◎
音の再現性
再生経路の一貫性
長期安定性 / ソフト成熟度
見た目
本体寸法(W×H×D)220×46×146440×105×378434×151×339135×42×140140×42×140
本体重量1.09kg7.9kg8.6kg0.45kg0.4kg
参考価格(国内)約¥83,000約¥57,000約¥59,000約¥55,000約¥36,000
メルカリ相場¥25,000〜¥50,000¥25,000〜¥45,000
公式サイトBluesound NODEWiiM Pro Plus
価格.com価格.com NODE価格.com DRA-900H
総合評価(あなた向け)✅良さそう❌ デカすぎる❌ デカすぎる✅良さそう❌ Ultraのが良い
どれも出力がRCA(XLRじゃない)から、GENELEC 8010AMと「RCA→XLR変換ケーブル」で繋ぐ必要がある。でもXLR出力が必須なのは
  • ケーブルが3m以上必要
  • 機材が多くてノイズが出やすい
  • 電源環境が荒い
  • 将来、別のプロ機材(ミキサー・アウトボード)と組む予定
とかの時だから、大きな問題じゃなさそう。
Bluesound NODEとWiiM Ultraで迷う。

「Bluesound NODE」vs「WiiM Ultra」

WiiMのが
  • 値段安い
  • リセールバリュー高め
  • 見た目好き
だし、ASRとか測定重視のレビューで高評価受けてるし、WiiM Ultraにしよう。

ケーブルは何が良いか?

WiiM UltraとGENELEC 8010AMを繋ぐケーブルが必要。
WiiM Ultraと、左右のGENELEC 8010AMそれぞれを繋ぐので、同じケーブルを2本用意する。
必要な条件は
  • RCA(アンバランス) → XLR(オス)
  • 配線は「アンバランス → バランス変換用」
  • 変な変換回路・トランスなし
  • プロオーディオ用途メーカー
  • 長さは(デスク上での配置を考えて)30cm程度
この条件で考えると↓とか良さそう。

Homepodの出力先を外部スピーカーにできない問題

HomePod は「自分 or Apple TV」以外を既定の出力先にできない。
だからHomePodに指示してWiiM Ultra→モニタースピーカーから音を出すのは無理。
(iPhoneをSiriで操作したり、HomePodで再生した後にiPhoneのSpotifyアプリで出力先を切り替えることはできる)
それでもこの構成を作るメリット、デメリットは以下。

メリット

  • 自分の曲、他の人の曲を聴き比べる環境が手に入る
  • モニタースピーカーを、家にあるオーティオインターフェース経由で繋げば、制作にも使える
  • スピーカーをモニター下に配置できるサイズにできる

デメリット

  • スピーカーがモニター用になるから、観賞用としての音楽体験の質は下がる
  • 音声操作で音楽再生した時の出力先が、homepodsになる
    • スピーカーで流すには、iPhone側での操作が必要
  • デスク上の端末が1つ増える。ケーブルも計3本増える(電源×1、XLR×2)

まとめ

  • 「音楽制作用のモニタースピーカー」は、無線での実現はキツい
    • 音の遅延、バッファリングがある
    • 音の味付けを無くすのがむずい
      • 「入力フォーマットの違い」「ネットワーク由来の揺らぎ」「再生環境の差」等をスピーカー単体で吸収・調整する必要があるから
  • 俺の目的は、完成曲を聴き比べて、自分の曲の長所/短所を把握すること
  • ↑の目的の場合、遅延や音の味付けを無くす必要はない
  • 必要なのは
    • 音の味付けが「固定」されている(曲によって変わらない)こと
    • 音の味付けが強すぎないこと
    • 操作端末は指示役に徹し、どの端末を使っても同じ経路を通ること
  • 無線通信の規格の中で、AirPlayが今回の用途に向いている
    • AirPlay
      • 再生の主導権(再生開始タイミング、サンプルレート、音量の基準値、同期の基準クロック、再生フォーマットの決定権)が送信側にある
      • Appleエコシステム内で仕様が閉じているので、サードパーティが勝手な最適化を挟みにくい
      • 「高音質化する仕組み」ではなく「安定して同じ音を届ける仕組み」として設計されている
    • Chromecast
      • 再生の主導権が受信側にあり、安定性は高いが、内部処理(バッファ・補正・変換)がブラックボックス化しやすい。
      • そのため音の変化理由を追いにくく、比較用途では挙動が読みにくい
    • Bluetooth
      • 使用されるコーデック(SBC / AAC / aptX / aptX Adaptive など)が機器・OS・接続状況で変わる
      • 電波状況によってリアルタイムにビットレートが上下する
  • AirPlayに対応したスピーカーで、音の味付けが固定されていて、味付けが控えめなものがあれば一番良いんだけど、めぼしい製品は無さそう
    • 前述したように、そもそも無線のスピーカーは各種ゆらぎを吸収できるように、音の味付けをしがち
    • 内部処理がブラックボックスになりがち
    • そもそも俺みたいな目的を持ってる人が少ない
  • 代替案として「DAC一体型のAirPlay受信ハブ」+「有線のモニタースピーカー」の組み合わせがある
    • DACが再生に必要な情報(曲データ、再生開始タイミング、サンプルレート、音量の基準、同期クロック、再生フォーマットなど)をAirPlayで受け取り、アナログ変換し、有線でモニタースピーカーへ送る
    • モニタースピーカーは、有線で受け取ったアナログデータを再生する
  • 具体的には、以下の構成が良さそう
 
残タスク
  • 音声操作の時、サービス名(spotify)や接続方法(WiiM Ultra)を言わずに「Hey Siri、PUNPEEのRenaissanceを流して」で再生できるか?