first commit

2026-06-05 16:53:03 +08:00
commit 06f1fd69a6
6047 changed files with 1895387 additions and 0 deletions
--- a/tests/models/sam3_video/test_modeling_sam3_video.py
+++ b/tests/models/sam3_video/test_modeling_sam3_video.py
@@ -0,0 +1,608 @@
+# Copyright 2025 The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Testing suite for the PyTorch SAM3 Video model."""
+
+import gc
+import unittest
+
+from transformers.testing_utils import (
+    backend_empty_cache,
+    is_torch_bf16_available_on_device,
+    is_torch_fp16_available_on_device,
+    slow,
+    torch_device,
+)
+from transformers.utils import is_torch_available
+from transformers.video_utils import load_video
+
+
+if is_torch_available():
+    import torch
+
+    from transformers import Sam3VideoModel, Sam3VideoProcessor
+
+
+def prepare_video():
+    video_url = "https://huggingface.co/datasets/hf-internal-testing/sam2-fixtures/resolve/main/bedroom.mp4"
+    raw_video, _ = load_video(video_url)
+    return raw_video
+
+
+@slow
+class Sam3VideoModelIntegrationTest(unittest.TestCase):
+    def setUp(self):
+        super().setUp()
+        checkpoint_path = "facebook/sam3"
+        self.video_model = Sam3VideoModel.from_pretrained(checkpoint_path).to(torch.float32)
+        self.processor = Sam3VideoProcessor.from_pretrained(checkpoint_path)
+        self.video_model.to(torch_device)
+        self.video_model.eval()
+
+    def tearDown(self):
+        super().tearDown()
+        # clean-up as much as possible GPU memory occupied by PyTorch
+        gc.collect()
+        backend_empty_cache(torch_device)
+
+    def test_inference_video_propagate_with_text_prompt(self):
+        raw_video = prepare_video()
+        inference_session = self.processor.init_video_session(
+            video=raw_video,
+            inference_device=torch_device,
+            processing_device="cpu",
+            video_storage_device="cpu",
+        )
+
+        # Add text prompt
+        text = "person"
+        inference_session = self.processor.add_text_prompt(
+            inference_session=inference_session,
+            text=text,
+        )
+
+        # Propagate through video frames
+        outputs_per_frame = {}
+        model_outputs_per_frame = {}
+        for model_outputs in self.video_model.propagate_in_video_iterator(
+            inference_session=inference_session,
+            max_frame_num_to_track=3,
+        ):
+            processed_outputs = self.processor.postprocess_outputs(inference_session, model_outputs)
+            outputs_per_frame[model_outputs.frame_idx] = processed_outputs
+            model_outputs_per_frame[model_outputs.frame_idx] = model_outputs
+
+        # Check we processed the expected number of frames
+        self.assertGreaterEqual(len(outputs_per_frame), 1)
+        self.assertLessEqual(len(outputs_per_frame), 4)  # frame 0 + up to 3 more
+
+        # Check output structure for each frame
+        for processed_outputs in outputs_per_frame.values():
+            self.assertIn("object_ids", processed_outputs)
+            self.assertIn("scores", processed_outputs)
+            self.assertIn("boxes", processed_outputs)
+            self.assertIn("masks", processed_outputs)
+
+            num_objects = len(processed_outputs["object_ids"])
+            if num_objects > 0:
+                self.assertEqual(processed_outputs["scores"].shape, (num_objects,))
+                self.assertEqual(processed_outputs["boxes"].shape, (num_objects, 4))
+                self.assertEqual(
+                    processed_outputs["masks"].shape, (num_objects, raw_video.shape[-3], raw_video.shape[-2])
+                )
+                # Check boxes are in XYXY format (absolute coordinates)
+                boxes = processed_outputs["boxes"]
+                self.assertTrue(torch.all(boxes[:, 2] >= boxes[:, 0]))  # x2 >= x1
+                self.assertTrue(torch.all(boxes[:, 3] >= boxes[:, 1]))  # y2 >= y1
+
+        # Check numeric values for first frame
+        if len(outputs_per_frame) > 0:
+            first_frame_idx = min(outputs_per_frame.keys())
+            first_outputs = outputs_per_frame[first_frame_idx]
+            num_objects = len(first_outputs["object_ids"])
+            if num_objects > 0:
+                # Move outputs to CPU for comparison (postprocess_outputs may return CPU tensors)
+                object_ids = (
+                    first_outputs["object_ids"].cpu()
+                    if isinstance(first_outputs["object_ids"], torch.Tensor)
+                    else torch.tensor(first_outputs["object_ids"])
+                )
+                scores = (
+                    first_outputs["scores"].cpu()
+                    if isinstance(first_outputs["scores"], torch.Tensor)
+                    else torch.tensor(first_outputs["scores"])
+                )
+                boxes = (
+                    first_outputs["boxes"].cpu()
+                    if isinstance(first_outputs["boxes"], torch.Tensor)
+                    else torch.tensor(first_outputs["boxes"])
+                )
+                masks = (
+                    first_outputs["masks"].cpu()
+                    if isinstance(first_outputs["masks"], torch.Tensor)
+                    else torch.tensor(first_outputs["masks"])
+                )
+
+                torch.testing.assert_close(
+                    object_ids,
+                    torch.tensor([0, 1], dtype=torch.int64),
+                )
+                torch.testing.assert_close(
+                    scores,
+                    torch.tensor([0.968647837638855, 0.9736108779907227], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    boxes[0],
+                    torch.tensor([146.0, 135.0, 291.0, 404.0], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    masks[0, :3, :3].float(),
+                    torch.tensor([[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+
+        # Check raw model_outputs mask values for first frame
+        if len(model_outputs_per_frame) > 0:
+            first_frame_idx = min(model_outputs_per_frame.keys())
+            first_model_outputs = model_outputs_per_frame[first_frame_idx]
+            num_objects = len(first_model_outputs.object_ids)
+            if num_objects > 0:
+                # Check raw mask from model_outputs (low-resolution, before post-processing)
+                first_obj_id = first_model_outputs.object_ids[0]
+                raw_mask = first_model_outputs.obj_id_to_mask[first_obj_id].cpu()
+                torch.testing.assert_close(
+                    raw_mask[:1, :3, :3].float(),
+                    torch.tensor(
+                        [
+                            [
+                                [-2.952317476272583, -5.94632625579834, -7.991223335266113],
+                                [-6.916913986206055, -10.058566093444824, -11.114638328552246],
+                                [-8.195585250854492, -9.787644386291504, -10.39273452758789],
+                            ]
+                        ],
+                        dtype=torch.float32,
+                    ),
+                    atol=5e-3,  # Higher tolerance for raw logits
+                    rtol=5e-3,
+                )
+
+        # Check numeric values for last frame (to verify propagation consistency)
+        if len(outputs_per_frame) > 1:
+            last_frame_idx = max(outputs_per_frame.keys())
+            last_outputs = outputs_per_frame[last_frame_idx]
+            num_objects = len(last_outputs["object_ids"])
+            if num_objects > 0:
+                # Move outputs to CPU for comparison
+                object_ids = (
+                    last_outputs["object_ids"].cpu()
+                    if isinstance(last_outputs["object_ids"], torch.Tensor)
+                    else torch.tensor(last_outputs["object_ids"])
+                )
+                scores = (
+                    last_outputs["scores"].cpu()
+                    if isinstance(last_outputs["scores"], torch.Tensor)
+                    else torch.tensor(last_outputs["scores"])
+                )
+                boxes = (
+                    last_outputs["boxes"].cpu()
+                    if isinstance(last_outputs["boxes"], torch.Tensor)
+                    else torch.tensor(last_outputs["boxes"])
+                )
+                masks = (
+                    last_outputs["masks"].cpu()
+                    if isinstance(last_outputs["masks"], torch.Tensor)
+                    else torch.tensor(last_outputs["masks"])
+                )
+
+                torch.testing.assert_close(
+                    object_ids,
+                    torch.tensor([0, 1], dtype=torch.int64),
+                )
+                torch.testing.assert_close(
+                    scores,
+                    torch.tensor([0.968647837638855, 0.9736108779907227], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    boxes[0],
+                    torch.tensor([157.0, 116.0, 295.0, 382.0], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    masks[0, :3, :3].float(),
+                    torch.tensor([[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+
+        # Check raw model_outputs mask values for last frame
+        if len(model_outputs_per_frame) > 1:
+            last_frame_idx = max(model_outputs_per_frame.keys())
+            last_model_outputs = model_outputs_per_frame[last_frame_idx]
+            num_objects = len(last_model_outputs.object_ids)
+            if num_objects > 0:
+                # Check raw mask from model_outputs (low-resolution, before post-processing)
+                first_obj_id = last_model_outputs.object_ids[0]
+                raw_mask = last_model_outputs.obj_id_to_mask[first_obj_id].cpu()
+                torch.testing.assert_close(
+                    raw_mask[:1, :3, :3].float(),
+                    torch.tensor(
+                        [
+                            [
+                                [-23.023313522338867, -27.02887535095215, -22.29985237121582],
+                                [-24.373233795166016, -31.428438186645508, -24.268810272216797],
+                                [-24.550016403198242, -32.607383728027344, -26.500947952270508],
+                            ]
+                        ],
+                        dtype=torch.float32,
+                    ),
+                    atol=5e-3,  # Higher tolerance for raw logits
+                    rtol=5e-3,
+                )
+
+    def test_inference_video_streaming_with_text_prompt(self):
+        raw_video = prepare_video()
+
+        # Initialize session for streaming (no video provided)
+        inference_session = self.processor.init_video_session(
+            inference_device=torch_device,
+            processing_device="cpu",
+            video_storage_device="cpu",
+        )
+
+        # Add text prompt
+        text = "person"
+        inference_session = self.processor.add_text_prompt(
+            inference_session=inference_session,
+            text=text,
+        )
+
+        # Process frames one by one (streaming mode)
+        outputs_per_frame = {}
+        model_outputs_per_frame = {}
+        max_frame_num_to_track = 3
+        for frame_idx, frame in enumerate(raw_video):
+            if frame_idx >= max_frame_num_to_track:
+                break
+
+            # Process frame using processor
+            inputs = self.processor(images=frame, device=torch_device, return_tensors="pt")
+
+            # Process frame using streaming inference
+            model_outputs = self.video_model(
+                inference_session=inference_session,
+                frame=inputs.pixel_values[0],  # Provide processed frame - this enables streaming mode
+                reverse=False,
+            )
+
+            # Post-process outputs with original_sizes for proper resolution handling
+            processed_outputs = self.processor.postprocess_outputs(
+                inference_session,
+                model_outputs,
+                original_sizes=inputs.original_sizes,  # Required for streaming inference
+            )
+            outputs_per_frame[frame_idx] = processed_outputs
+            model_outputs_per_frame[frame_idx] = model_outputs
+
+        # Check we processed the expected number of frames
+        self.assertEqual(len(outputs_per_frame), max_frame_num_to_track)
+
+        # Check output structure for each frame
+        for frame_idx, processed_outputs in outputs_per_frame.items():
+            self.assertIn("object_ids", processed_outputs)
+            self.assertIn("scores", processed_outputs)
+            self.assertIn("boxes", processed_outputs)
+            self.assertIn("masks", processed_outputs)
+
+            num_objects = len(processed_outputs["object_ids"])
+            if num_objects > 0:
+                self.assertEqual(processed_outputs["scores"].shape, (num_objects,))
+                self.assertEqual(processed_outputs["boxes"].shape, (num_objects, 4))
+                # For streaming, masks should be at original frame resolution
+                H_orig, W_orig = raw_video[frame_idx].shape[0], raw_video[frame_idx].shape[1]
+                self.assertEqual(processed_outputs["masks"].shape, (num_objects, H_orig, W_orig))
+                # Check boxes are in XYXY format (absolute coordinates)
+                boxes = processed_outputs["boxes"]
+                self.assertTrue(torch.all(boxes[:, 2] >= boxes[:, 0]))  # x2 >= x1
+                self.assertTrue(torch.all(boxes[:, 3] >= boxes[:, 1]))  # y2 >= y1
+
+        # Check numeric values for first frame
+        if len(outputs_per_frame) > 0:
+            first_frame_idx = min(outputs_per_frame.keys())
+            first_outputs = outputs_per_frame[first_frame_idx]
+            num_objects = len(first_outputs["object_ids"])
+            if num_objects > 0:
+                # Move outputs to CPU for comparison (postprocess_outputs may return CPU tensors)
+                object_ids = (
+                    first_outputs["object_ids"].cpu()
+                    if isinstance(first_outputs["object_ids"], torch.Tensor)
+                    else torch.tensor(first_outputs["object_ids"])
+                )
+                scores = (
+                    first_outputs["scores"].cpu()
+                    if isinstance(first_outputs["scores"], torch.Tensor)
+                    else torch.tensor(first_outputs["scores"])
+                )
+                boxes = (
+                    first_outputs["boxes"].cpu()
+                    if isinstance(first_outputs["boxes"], torch.Tensor)
+                    else torch.tensor(first_outputs["boxes"])
+                )
+                masks = (
+                    first_outputs["masks"].cpu()
+                    if isinstance(first_outputs["masks"], torch.Tensor)
+                    else torch.tensor(first_outputs["masks"])
+                )
+
+                torch.testing.assert_close(
+                    object_ids,
+                    torch.tensor([0, 1], dtype=torch.int64),
+                )
+                torch.testing.assert_close(
+                    scores,
+                    torch.tensor([0.9683944582939148, 0.9740181565284729], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    boxes[0],
+                    torch.tensor([146.0, 135.0, 291.0, 404.0], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    masks[0, :3, :3].float(),
+                    torch.tensor([[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+
+        # Check raw model_outputs mask values for first frame
+        if len(model_outputs_per_frame) > 0:
+            first_frame_idx = min(model_outputs_per_frame.keys())
+            first_model_outputs = model_outputs_per_frame[first_frame_idx]
+            num_objects = len(first_model_outputs.object_ids)
+            if num_objects > 0:
+                # Check raw mask from model_outputs (low-resolution, before post-processing)
+                first_obj_id = first_model_outputs.object_ids[0]
+                raw_mask = first_model_outputs.obj_id_to_mask[first_obj_id].cpu()
+                torch.testing.assert_close(
+                    raw_mask[:1, :3, :3].float(),
+                    torch.tensor(
+                        [
+                            [
+                                [-2.987567901611328, -5.944897651672363, -7.973854064941406],
+                                [-7.017378330230713, -10.088018417358398, -11.089308738708496],
+                                [-8.274458885192871, -9.851463317871094, -10.428947448730469],
+                            ]
+                        ],
+                        dtype=torch.float32,
+                    ),
+                    atol=5e-3,  # Higher tolerance for raw logits
+                    rtol=5e-3,
+                )
+
+        # Check numeric values for last frame (to verify propagation consistency)
+        if len(outputs_per_frame) > 1:
+            last_frame_idx = max(outputs_per_frame.keys())
+            last_outputs = outputs_per_frame[last_frame_idx]
+            num_objects = len(last_outputs["object_ids"])
+            if num_objects > 0:
+                # Move outputs to CPU for comparison
+                object_ids = (
+                    last_outputs["object_ids"].cpu()
+                    if isinstance(last_outputs["object_ids"], torch.Tensor)
+                    else torch.tensor(last_outputs["object_ids"])
+                )
+                scores = (
+                    last_outputs["scores"].cpu()
+                    if isinstance(last_outputs["scores"], torch.Tensor)
+                    else torch.tensor(last_outputs["scores"])
+                )
+                boxes = (
+                    last_outputs["boxes"].cpu()
+                    if isinstance(last_outputs["boxes"], torch.Tensor)
+                    else torch.tensor(last_outputs["boxes"])
+                )
+                masks = (
+                    last_outputs["masks"].cpu()
+                    if isinstance(last_outputs["masks"], torch.Tensor)
+                    else torch.tensor(last_outputs["masks"])
+                )
+
+                torch.testing.assert_close(
+                    object_ids,
+                    torch.tensor([0, 1], dtype=torch.int64),
+                )
+                torch.testing.assert_close(
+                    scores,
+                    torch.tensor([0.9683944582939148, 0.9740181565284729], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    boxes[0],
+                    torch.tensor([154.0, 117.0, 294.0, 395.0], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+                torch.testing.assert_close(
+                    masks[0, :3, :3].float(),
+                    torch.tensor([[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], dtype=torch.float32),
+                    atol=1e-4,
+                    rtol=1e-4,
+                )
+
+        # Check raw model_outputs mask values for last frame
+        if len(model_outputs_per_frame) > 1:
+            last_frame_idx = max(model_outputs_per_frame.keys())
+            last_model_outputs = model_outputs_per_frame[last_frame_idx]
+            num_objects = len(last_model_outputs.object_ids)
+            if num_objects > 0:
+                # Check raw mask from model_outputs (low-resolution, before post-processing)
+                first_obj_id = last_model_outputs.object_ids[0]
+                raw_mask = last_model_outputs.obj_id_to_mask[first_obj_id].cpu()
+                torch.testing.assert_close(
+                    raw_mask[:1, :3, :3].float(),
+                    torch.tensor(
+                        [
+                            [
+                                [-23.935535430908203, -27.967025756835938, -23.519914627075195],
+                                [-25.742399215698242, -32.65046310424805, -24.71213150024414],
+                                [-25.263212203979492, -33.807132720947266, -27.463823318481445],
+                            ]
+                        ],
+                        dtype=torch.float32,
+                    ),
+                    atol=5e-3,  # Higher tolerance for raw logits
+                    rtol=5e-3,
+                )
+
+    def test_inference_video_multi_prompt(self):
+        """Test multi-prompt tracking - detecting multiple object categories in one pass."""
+        raw_video = prepare_video()
+        inference_session = self.processor.init_video_session(
+            video=raw_video,
+            inference_device=torch_device,
+            processing_device="cpu",
+            video_storage_device="cpu",
+        )
+
+        # Add multiple text prompts
+        prompts = ["person", "bed"]
+        self.processor.add_text_prompt(
+            inference_session=inference_session,
+            text=prompts,
+        )
+
+        # Propagate through video frames
+        outputs_per_frame = {}
+        for model_outputs in self.video_model.propagate_in_video_iterator(
+            inference_session=inference_session,
+            max_frame_num_to_track=3,
+        ):
+            processed_outputs = self.processor.postprocess_outputs(inference_session, model_outputs)
+            outputs_per_frame[model_outputs.frame_idx] = processed_outputs
+
+        # Check we processed the expected number of frames
+        self.assertGreaterEqual(len(outputs_per_frame), 1)
+        self.assertLessEqual(len(outputs_per_frame), 4)
+
+        # Check output structure for each frame
+        for processed_outputs in outputs_per_frame.values():
+            self.assertIn("object_ids", processed_outputs)
+            self.assertIn("scores", processed_outputs)
+            self.assertIn("boxes", processed_outputs)
+            self.assertIn("masks", processed_outputs)
+            self.assertIn("prompt_to_obj_ids", processed_outputs)  # Multi-prompt specific
+
+            # Check prompt_to_obj_ids structure
+            prompt_to_obj_ids = processed_outputs["prompt_to_obj_ids"]
+            self.assertIsInstance(prompt_to_obj_ids, dict)
+            for prompt, obj_ids in prompt_to_obj_ids.items():
+                self.assertIsInstance(prompt, str)
+                self.assertIsInstance(obj_ids, list)
+                # Each object ID should be in the main object_ids list
+                for obj_id in obj_ids:
+                    self.assertIn(obj_id, processed_outputs["object_ids"].tolist())
+
+        # Check that we detected objects from multiple prompts
+        first_frame_outputs = outputs_per_frame[min(outputs_per_frame.keys())]
+        prompt_to_obj_ids = first_frame_outputs["prompt_to_obj_ids"]
+
+        # Should have at least one prompt with detections
+        self.assertGreater(len(prompt_to_obj_ids), 0)
+
+        # All prompts in prompt_to_obj_ids should be from our original prompts
+        for prompt in prompt_to_obj_ids.keys():
+            self.assertIn(prompt, prompts)
+
+    def test_custom_image_size(self):
+        """Test that custom image size can be set and propagates correctly to detector and tracker configs."""
+        from transformers import Sam3VideoConfig
+
+        config = Sam3VideoConfig.from_pretrained("facebook/sam3")
+        config.image_size = 560
+
+        self.assertEqual(config.image_size, 560)
+        self.assertEqual(config.detector_config.image_size, 560)
+        self.assertEqual(config.tracker_config.image_size, 560)
+        self.assertEqual(config.detector_config.vision_config.image_size, 560)
+        self.assertEqual(config.detector_config.vision_config.backbone_config.image_size, 560)
+
+        model = Sam3VideoModel.from_pretrained("facebook/sam3", config=config).to(torch_device).eval()
+        self.assertEqual(model.config.image_size, 560)
+
+    def test_inference_with_different_dtypes(self):
+        """Test that inference works correctly for float32, bfloat16, and float16 dtypes."""
+        raw_video = prepare_video()
+        dtypes_to_test = [
+            (torch.float32, None),  # float32 is always available
+            (torch.bfloat16, is_torch_bf16_available_on_device),
+            (torch.float16, is_torch_fp16_available_on_device),
+        ]
+
+        for dtype, availability_check in dtypes_to_test:
+            with self.subTest(dtype=dtype):
+                # Skip if dtype is not available on device
+                if availability_check is not None and not availability_check(torch_device):
+                    self.skipTest(f"{dtype} not supported on {torch_device}")
+
+                # Load model with specific dtype
+                video_model = Sam3VideoModel.from_pretrained("facebook/sam3", torch_dtype=dtype).to(torch_device)
+                video_model.eval()
+
+                # Initialize inference session
+                inference_session = self.processor.init_video_session(
+                    video=raw_video,
+                    inference_device=torch_device,
+                    processing_device="cpu",
+                    video_storage_device="cpu",
+                    dtype=dtype,
+                )
+
+                # Add text prompt
+                text = "person"
+                inference_session = self.processor.add_text_prompt(
+                    inference_session=inference_session,
+                    text=text,
+                )
+
+                # Run inference on first frame
+                outputs_per_frame = {}
+                model_outputs_per_frame = {}
+                max_frame_num_to_track = 2
+                for model_outputs in video_model.propagate_in_video_iterator(
+                    inference_session=inference_session,
+                    max_frame_num_to_track=max_frame_num_to_track,
+                ):
+                    processed_outputs = self.processor.postprocess_outputs(inference_session, model_outputs)
+                    outputs_per_frame[model_outputs.frame_idx] = processed_outputs
+                    model_outputs_per_frame[model_outputs.frame_idx] = model_outputs
+
+                    # Verify dtype is maintained in model outputs
+                    if len(model_outputs.object_ids) > 0:
+                        first_obj_id = model_outputs.object_ids[0]
+                        raw_mask = model_outputs.obj_id_to_mask[first_obj_id]
+                        self.assertEqual(raw_mask.dtype, dtype)
+
+                # Verify we processed frames
+                self.assertGreaterEqual(len(outputs_per_frame), 1)
+                self.assertLessEqual(len(outputs_per_frame), max_frame_num_to_track + 1)