Может конечно в данном случае и фэйк, но теоритически вполне возможно натренировать классификатор по короткому видеопотоку (но тогда у мужика дома походу неслабый кластер), а можно вообще запоминать кадры с изображением объекта, а когда показывают новый объект, то ресайзить кадры из памяти согласно информации от кинекта о расстоянии до объекта и считать корреляцию. Последний способ конечно не применим в реальных задачах, зато легко будет работать в реалтайме даже на не особо мощной видеокарте.
а идеи, что он с 3д картинкой от кинекта делает, есть? как обычный grayscale image использует? или просто для фильтра изображения с камеры по глубине?
while (true)
{
0) считываем данные
1) получаем собственное местоположение
2) получаем точки с карты глубины и текстуру с обычной камеры
3) рисуем точки в пространстве относительно собственного местополжения
}