WEB会議システムはその構造上、どうしても映像と音声が遅れて伝わる。アナログからデジタルへ変換してネットワークを通じてデータを送り出し、デジタルからアナログへと変換して受け取る。ネットワークは十分に早くなったものの、このAD/DAシグナルを変換する際の遅れ(レイテンシー)についてはなかなか手が打てない。
テレビ会議では、信号処理を行う映像のコーデックなどに注意を払わないと300msくらいす ぐに遅れてしまいます。某メーカーさんのテレビ会議システムを調べたんですが、遅延はだいたい6~8フレームくらいでした。8フレームは240msです。 遅延の減少に努力はしていると思いますが、それでもすぐに遅れてしまうんです。
ネットワークをいくら速くしても解決できない問題である。しかし、少しでも違和感なく使えるようシステム側はたくさんの工夫をしている。中でももっとも大事なことは、映像と音声のタイミングを合わせるここと。これは内部的にはシンクロ信号を使って合わせているので利用者側は気づかない。「リップシンク(Lip Sync)」と呼ばれている。
上記参考記事の論文によると、声と口の動きのズレについて実験がなされています。
アナウンスの場合は、音声の方が速い場合の検知限が50msくらい(約1.5フレーム)、音声が遅れ る場合は130msくらい(約4フレーム)です。音声の方が遅い分には気が付きにくくて、これも視線の不一致の場合と同様に非対称という結果が出ています。
ZoomとTeamsを使う機会が多いのですが、だんぜんZoomのほうが使いやすい。画面の口の動きがよく見えることもあるのですが、相手の話している声と画面で見える口の動きにズレがないのです。Teamsはズレが大きく、またそのズレ方にも幅がある。
Temasだとやたらと相手と発言がぶつかってしまい、譲り合いが起こるのでとてもストレスが高い。音質の悪さと重なってとても使いづらいな、と個人的に思っています。
では、Zoomを使えばリアルタイムで合唱ができるかというと、現実的には難しい。
というのも、システム内部で0.3秒位の遅れが生じているから。これはアップテンポの曲(100BPM)だと8分音符一つ、つまり半拍のズレが生じる。試しに1拍ずつ手拍子を回す実験をしたらグダグダになった。カエルの歌の輪唱もブレブレ。
最近、Youtubeなどでギャラリービュー上で合奏しているような映像を目にするが、これはリアルタイムでやっているわけではなく、後で編集して凝縮感を出す演出をしているだけ。
ただできる範囲で、ブラスバンドの練習でうまく利用している例がありました。素晴らしい。
本格的にリアルタイムジャムをしたいのなら、専用のシステムを使うほうが得策だ。
ナンデモカンデモ、ZOOMに頼らないことですね。
コメント