探索將Sam與光流或Sam與GB圖像相結合,並能夠連續跟蹤同一對象的身份。
這個項目的目標是運動分割-發現和分割視頻中的運動對象。這是一個廣泛研究的領域,有許多仔細的,有時甚至是複雜的方法和訓練方案,包括:自監督學習,從合成數據集學習,以對象為中心的表示,非模態表示等等。本文的興趣在於確定Segment Anything Model(SAM)是否有助於完成這一任務。
研究了兩種將Sam與光流相結合的模型,它們利用了Sam的分割能力和光流發現和分組移動對象的能力。首先,我們調整了Sam,以接受流(而不是Ruby)作為輸入。在第二個模型中,Sam將Ruby作為輸入,並使用流作為分割提示。這些令人驚訝的簡單方法,無需任何進一步的修改,在單對象和多對象基準測試中都顯著優於所有之前的方法。我們還將這些幀級分割擴展到維護對象身份的序列級分割。同樣,這個簡單的模型在多個視頻對象分割基準上的表現優於之前的方法。
更多居間:
本文重點討論Segment Anything模型(Sam)在此任務中的作用。我們測試了兩種模型,將Sam與光流技術相結合,旨在利用Sam的分割能力和光流技術的移動對象識別和集群能力。
在第一個模型中,我們修改了Sam,以獲取光學流數據而不是Ruby圖像作為輸入。在第二個模型中,Sam使用Ruby圖像作為輸入,而光學流數據作為分割的輔助線索。
這些簡潔的方法,無需進行其他修改,其性能顯著優於所有之前的方法,並且在單對象和多對象基準測試中表現良好。
此外,我們還將這些幀級分割擴展到序列級,允許連續跟蹤同一對象的身份。這個簡單的模型在對多個視頻對象分割進行基準測試方面也優於所有之前的方法。
這項研究得到了英國EPSRC CDT在AIMS(EP/S 024050/1),克拉倫登獎學金和英國EPSRC視覺人工智慧項目資助(EP/T028572/1)的支持。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
項目地址:https://robots.ox.ac.uk/~vgg/research/flowsam/
視頻: