空間共有通信における透過型ビデオアバタ

See-Through Video Avatar for Shared Space Communication

松下剛士¹ 新田拓哉¹ 苗村健² 原島博¹

¹Takeshi Matsushita ¹Takuya Nitta ²Takeshi Naemura ¹Hiroshi Harashima

東京大学工学部¹ スタンフォード大学²

¹School of Eng., The Univ. of Tokyo ²Stanford Univ.

目次

Abstract
1. はじめに
2. 従来の研究
3. 提案手法
4. 実験結果
5. まとめ
参考文献
連絡先

動画

pdf版はこちら

Abstract

△文頭へ戻る

The concept of shared space communication has been attracting much attention in the field of virtual reality. A person in the real world can appear in the shared virtual space as his/her avatar. The concept of video avatar is one of the promising approaches to realize a photo-realistic avatar of a real person. For this purpose, the authors have proposed and developed the ``See-Through Video Avatar'' system, which is a kind of clipping/composition method using alpha-blending technique. The alpha value is designed to relate with the probability of each pixel to belong the regions those correspond to human face and body. Our implementation has been a thermal-vision based system, in which the alpha value is controlled by the temperature of human region. In this paper, some improvements for our system are presented. First, the background subtraction technique is applied to thermal images in order to improve the quality of synthesized images. Secondly, a new capturing system, which can avoid the parallax between thermal and color images, is introduced. Thirdly, we propose some new applications of the translucent video avatar by considering how to control the transparency. Experimental results show that the proposed method is effective and useful for the shared space communication.

Keywords

video avatar, shared space communication, thermal vision, alpha blending, translucent and transparent expression

△文頭へ戻る

1. はじめに

△文頭へ戻る

昨今，大画面表示装置(IPT:Immersive Projection Technology)などを用いた空間共有通信が関心を呼んでいる．筆者らは，実世界の人物を仮想空間に登場させる技術として「透過型ビデオアバタ」を提案し，サーマルビジョンカメラを用いるシステムを開発してきた[1-3]．本研究ではそのシステムを改良し，撮影環境の温度分布等の影響を受けにくい，より良好な合成結果を得ることに成功した．また，視差を解消して被写体の奥行き方向の移動に影響されない合成結果を得ることができたので報告する．さらに本稿では，「透過型」であることを利用した，効果的かつ簡便な，新しいコミュニケーションの提案を行う．

△文頭へ戻る

2. 従来の研究

△文頭へ戻る

空間共有通信とは，例えば相互接続したIPTに同じ仮想空間を構築するなど，様々なレベルにおける空間の共有を実現する通信システムのことである．この際には，ユーザの代わりにアバタを分身として登場させる．文献[4]や文献[5]などはCGをベースとしたアバタの例であり，立体表現を比較的容易に実現できるという特長がある．

一方，より高い写実性を求める観点からビデオアバタが注目され，その実現のために実写画像から人物を切り出し仮想空間内に合成する技術が要求されている．これには，従来から2値判定に基づくものが多く研究され，最近ではクロマキーと距離画像を併用する手法[6]や同期式クロマキーを用いる手法[7]などが提案されている．しかし2値の切り出し手法では，精緻な切り出しと実時間性の両立が困難な問題や，撮影時の背景に制約がある問題などが存在する．

そこで筆者らは，あえて2値ではなく，例えば256階調の重み付けによる，多値の領域指定を行う「透過型ビデオアバタ」を提案している[1]．これは，「人物領域である確からしさ」に応じて実写画像と仮想空間画像を加重合成するものであり，人物であることが「確かな」領域は透過させずにはっきりと表現し，逆にあいまいな領域は半透明に，背景が透けて見えるように表現する．

「人物領域である確からしさ」としては，人間の体温に着目し，サーマルビジョンカメラで得られる熱画像を用いたシステムを提案している[1,2]．文献[2]のシステムでは，サーマルビジョンカメラと高感度のCCDカメラを並べて配置し，得られた熱画像にFig.1に表される階調処理（熱画像輝度値を入力，α値を出力とした写像）を施す．

Fig.1: From thermal data to alpha-value

この結果得られる画像をαマップとしたアルファブレンディングを，グラフィクスエンジンを用いて高速処理することによって実時間で行う．さらに，Fig.1の写像はプログラム上で変えることができるため，完全透過とする温度範囲やアバタのコントラストなどの設定が容易に可能である．

しかし，この従来システムには次のような問題点がある．

温度の高い領域を人物領域としているため
- 温度の高い物体(お湯の入ったポットなど)は映りこみ，温度が低い着衣の一部や眼鏡などは透けてしまう
- 撮影環境の気温が高い場合には人体との温度差が小さくなり，人物だけを切り出すことが困難になる
2台のカメラの光軸が一致していないため視差が生じ，奥行きの異なる被写体に対して αマップとカラー画像がずれてしまう
視点位置やアバタの登場位置が固定のため臨場感に乏しい

1.の問題は文献[2]の階調処理によってある程度改善されているが，まだ不十分である．

△文頭へ戻る

3. 提案手法

△文頭へ戻る

3.1 αマップの効果的な生成－熱画像背景差分

文献[2]の階調処理では画像全体に同じ写像を適用するため，暖かい物体や温度分布のむらがある場合には，人物領域のみの切り出しが困難になる．

そこで，熱画像に対して背景差分を適用することを考える．すなわち，無人状態における熱画像を背景熱画像として予め撮影しておき，現在の熱画像との差分値を求めてα値の設定に利用する．この手法を用いれば，背景の温度と異なる温度分布を持つ領域のみを容易に切り出すことができる．こうして得られる差分熱画像に対してさらに文献[2]同様に階調処理を適用することにより，アバタの透明度やコントラストも自由に設定することが可能である． Fig.2はそのブロック図である．

Fig.2: Block diagram

CCDカメラで撮影された画像は，1画素あたりRGBA4要素のデータ列として扱われる．入力熱画像・背景熱画像の輝度値差と Fig.1の写像とから得られる透過係数αをAの部分に1画素毎に挿入することで， α値に応じた混合処理がなされ目的の合成画像を得ることができる．

3.2 光軸一致の実現

一般のハーフミラーは赤外線の透過・反射特性が悪いため熱画像に充分なコントラストを得ることができず， 2つのカメラの光軸一致の用途には適していない．そこで，赤外反射ミラー(赤外光反射・可視光透過)とシリコンミラー(可視光反射・赤外光透過)とを用い，カメラの位置・姿勢の調節機構を備えた撮像系を構築した(Fig.3)．


Fig.3: Capturing system(Using Ir. mirror and Si mirror)

3.3 空間共有通信へ向けて

アバタは，観察者の高さにほぼ等身大で現れるように位置と大きさを調節した書割として，実物大で構築した仮想空間内に配置することで登場させる．より高い臨場感を得るために，本研究室所有の2面ディスプレイRICUEを用い，両眼立体視によって視点位置に応じた立体映像を提示する．

また，空間共有通信でのアプリケーションとして，「透過表現を用いたコミュニケーション支援」を提案する．

多くの場合，複合現実環境においては，現実世界で可能な(生じる)事象を忠実に再現する，あるいは状況の限定された空間を構築するというアプローチから臨場感を高め，それによってスムースなコミュニケーションを図っている．しかしここで提案したいのは，非現実的事象によって逆に表現力を増大させるという考え方であり，そのために透過表現が利用できると考えている．

ここでは，「関心・注目の度合い」をアバタをはじめとする仮想オブジェクトの透過率に対応させる．つまり，関心がある，あるいは注目すべきものははっきりと登場させ，関心の薄い，それほど重要でないものは半透明に登場させるのである．さらに，この透過率をインタラクティブに変化させることにより，参加者同士のコミュニケーションがスムースになると期待できる．

たとえば複数のアバタが登場する場面において，普段は半透明にしておき，動いたり喋ったりしているアバタだけをはっきりと登場させれば，どのアバタが動いたり喋ったりしているのかがよくわかる．あるいは指差し先や視線の先にあるオブジェクトのみをはっきり登場させれば，どれに注目して欲しいのかが相手に明確に伝わるであろう．

△文頭へ戻る

4. 実験結果

△文頭へ戻る

4.1 αマップの効果的な生成－熱画像背景差分

赤外反射ミラーを用いた場合の実験結果を， Fig.4からFig.7に示す． Fig.4はそれぞれ，背景熱画像，入力熱画像，入力カラー画像である． Fig.5は入力熱画像をそのままαマップとする文献[1]の手法， Fig.6は入力熱画像に対して適当な階調処理を施す文献[2]の手法，そしてFig.7は，入力熱画像と背景熱画像の差分をとり，さらに階調処理を施す本手法による合成結果である．それぞれ左側がαマップ，右側が合成画像である．また，Fig.8は入力画像と合成画像との関係を示した流れ図である．

(a) Thermal(bg.) (b) Thermal(input) (c) Color

Fig.4: Input Images

Fig.5: Synthesized by method of [1] Fig.6: Synthesized by method of [2]

Fig.7: Synthesized by proposed method Fig.8: Relation between Input and Synthesized Images

Fig.6においては，Fig.5に比べ人物領域を比較的良好に切り出し・合成しているが，画面下部は全体に温度が低く，透過してしまっている．また，画面左にあるお湯の入ったポットは温度が高く，はっきりと現れてしまっている．一方Fig.7においては，背景と温度の異なる部分のみに反応して，ポットを切り出すことなく人物のみを鮮明に合成することに成功している．さらに，背景熱差分画像によって僅かな温度の違いを検出できるので，温度の低い眼鏡部なども透過しないようにできる．

背景差分を行う場合は行わない場合に比べ更新周期が低下するが，実時間動作が確認できている．

動画：透過型ビデオアバタの動作..赤外反射ミラーを用いた合成結果

4.2 光軸一致の実現

カメラを光軸が平行になるように配置し拡大縮小・平行移動の補正を加える従来手法[1,2]と， Fig.3の撮像系を用いた本手法とで比較を行った．光軸あわせは手作業で，合成結果の目視で行った．また厳密には焦点位置も一致する必要があるが，ここではずれが目立たない程度まで調整した．

Fig.9: Synthesized from parallax capturing system

Fig.10: Synthesized from non-parallax capturing system

従来手法(Fig.9)では，手前の人物の切り出しがずれているが，本手法(Fig.10)では奥行きの異なる被写体も概ね正確に切り出すことに成功している．レンズ歪等の問題もあり，実際には画像が完全には一致しないが，原理的には光軸と焦点位置が一致していればソフトウェアによる補正が可能である．本実験では赤外反射ミラーを用いたが，シリコンミラーを用いた場合も同様の結果が得られる．

4.3 空間共有通信へ向けて

RICUE内でアバタを立体位置に表示させ，観察者が液晶シャッタ眼鏡を着用することによって立体視が可能となり，より高い臨場感が得られるようになった．

透過表現を用いたコミュニケーション支援については，プロトタイプとして動いているとき，喋っているとき，そして視線の先にあるときにアバタをはっきり登場させるシステムを実装した．

人物が大略どの程度動いているかを簡単に検出するため，熱画像のフレーム間の差分を利用した．熱画像の各画素毎に輝度値のフレーム間差分をとり，その絶対値の平均値をもってキー値とした．この値は，人物の大きく動けば大きく，小さな動きをすれば小さくなる．

音声の検出については，マイクを通してワークステーションに取り込まれた音声データから適当なサンプルを選び，その絶対値平均をキー値として用いた．

さらに，観察者が見ている方向を簡単に測るため，立体視用の液晶シャッタ眼鏡につけられたセンサを利用した．センサの姿勢から人物が向いている方向が得られるので，この方向と，アバタと人物の位置関係との差をキー値とした．


Fig.11 The direction of observer controls appearances of avatars

Fig.11は視線の先にあるアバタをはっきり表した例である．上記のように取得したキー値を用い，そのキー値によってアバタの最大αを決定することで実現した．さらにキー値と最大αの対応関係に時間遅れを持たせることで，人が動くなどすると次第にアバタが現れ，止まると次第に消えるいう振舞いを実現できた．

動画：半透明アバタによるコミュニケーション支援..非現実的な表現によるコミュニケーション

△文頭へ戻る

5. まとめ

△文頭へ戻る

本研究では，次のような成果を得た．

熱画像の背景差分を用いることにより，さらに良好な合成結果が得られるようになった
特殊なミラーを用いて光軸を一致させ，奥行きの異なる被写体に対応できるようになった．
IPT内での高度な表示を可能とし，半透明アバタによる簡便かつ効果的なコミュニケーション支援を提案し，その可能性を示した

今後の研究課題として以下の点を挙げる．

より正確で効果的な，撮影条件に左右されないαマップの生成
手間がかからず確実に光軸合わせを行うための装置や手順，カメラ個体の特性(レンズ歪みなど)を適切に補償する手段の開発
透過表現の適用対象をアバタだけでなく仮想オブジェクトに広げ，豊かな表現力を持たせるためのさらに高度なインタラクションを実現すること

△文頭へ戻る

参考文献

△文頭へ戻る

川原圭博, 苗村健, 原島博:サーマルビジョンカメラを用いた透過型ビデオアバタ, 電子情報通信学会総合大会論文集, A-16-22, 2000．
川原圭博, 松下剛士, 新田拓哉, 苗村健, 原島博:透過型ビデオアバタの提案と実装～熱画像を利用した実時間システム～, 日本バーチャルリアリティ学会大会論文集, Vol.5, pp333-336, 2000．
松下剛士, 新田拓哉, 苗村健, 原島博:透過表現を用いたビデオアバタの改良と応用, 電子情報通信学会総合大会論文集, A-16-17, 2001．
本田新九郎，木村尚亮，大沢隆治，太田憲治，岡田謙一，松下温:人間の現実動作の仮想空間への反映手法，日本バーチャルリアリティ学会論文誌，Vol.4，No.2，pp377-388，1999．
前田久大，岡田幹夫:ネットワーク型VRシステムによる協調動作環境の構築，日本バーチャルリアリティ学会大会論文集，Vol.5，pp267-268，2000．
廣瀬通孝, 小木哲朗, 玉川憲, 山田俊郎:没入型コミュニケーションのための高臨場感ビデオアバタ, ヒューマンインタフェース学会誌 Vol.2, No.2, pp161-168, 2000．
廣瀬通孝, 小木哲朗, 加納真, 山田俊郎:没入型ディスプレイ間通信のための同期式クロマキー手法, 映像情報メディア学会技術報告, Vol.24, No.34, pp49-52, 2000．

△文頭へ戻る

連絡先

△文頭へ戻る

苗村健
東京大学電子情報工学科
〒113-8656文京区本郷7-3-1
TEL	03-5841-6668
E-mail	naemura@hc.t.u-tokyo.ac.jp

△文頭へ戻る