update at 2026-06-05 15:55:39

This commit is contained in:
陈赣
2026-06-05 15:55:39 +08:00
parent 4603914e85
commit a0955d1393
2 changed files with 9 additions and 1 deletions

Binary file not shown.

View File

@@ -122,7 +122,9 @@ inputs = self.processor(images=image, return_tensors="pt")
- `pixel_values` 是送入模型的图像张量。 - `pixel_values` 是送入模型的图像张量。
- `pixel_mask` 用于告诉模型哪些区域是真实图像,哪些区域是 padding。 - `pixel_mask` 用于告诉模型哪些区域是真实图像,哪些区域是 padding。
这一步不是文本 token 化,不会产生 `input_ids``attention_mask` 这类 NLP tokenizer 输出 这一步还没有生成 DETR 的视觉 token。它只是把图像整理成模型可以接收的输入张量
它也不是文本 token 化,不会产生 `input_ids``attention_mask` 这类 NLP tokenizer 输出。
## 第 2 步ResNet-50 提取特征图 ## 第 2 步ResNet-50 提取特征图
@@ -174,6 +176,12 @@ ResNet 输出通道数通常是 `2048`,而 DETR Transformer 默认隐藏维度
这是“视觉 token 化”的核心步骤。 这是“视觉 token 化”的核心步骤。
当前项目代码中对应的是:
```python
tokens = projected_feature_map.flatten(2).permute(0, 2, 1)
```
投影后的特征图形状是: 投影后的特征图形状是:
```text ```text