update at 2026-06-05 15:55:39
This commit is contained in:
BIN
End-to-End Object Detection with Transformers.pdf
Normal file
BIN
End-to-End Object Detection with Transformers.pdf
Normal file
Binary file not shown.
10
tokenizer.md
10
tokenizer.md
@@ -122,7 +122,9 @@ inputs = self.processor(images=image, return_tensors="pt")
|
|||||||
- `pixel_values` 是送入模型的图像张量。
|
- `pixel_values` 是送入模型的图像张量。
|
||||||
- `pixel_mask` 用于告诉模型哪些区域是真实图像,哪些区域是 padding。
|
- `pixel_mask` 用于告诉模型哪些区域是真实图像,哪些区域是 padding。
|
||||||
|
|
||||||
这一步不是文本 token 化,不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
|
这一步还没有生成 DETR 的视觉 token。它只是把图像整理成模型可以接收的输入张量。
|
||||||
|
|
||||||
|
它也不是文本 token 化,不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
|
||||||
|
|
||||||
## 第 2 步:ResNet-50 提取特征图
|
## 第 2 步:ResNet-50 提取特征图
|
||||||
|
|
||||||
@@ -174,6 +176,12 @@ ResNet 输出通道数通常是 `2048`,而 DETR Transformer 默认隐藏维度
|
|||||||
|
|
||||||
这是“视觉 token 化”的核心步骤。
|
这是“视觉 token 化”的核心步骤。
|
||||||
|
|
||||||
|
当前项目代码中对应的是:
|
||||||
|
|
||||||
|
```python
|
||||||
|
tokens = projected_feature_map.flatten(2).permute(0, 2, 1)
|
||||||
|
```
|
||||||
|
|
||||||
投影后的特征图形状是:
|
投影后的特征图形状是:
|
||||||
|
|
||||||
```text
|
```text
|
||||||
|
|||||||
Reference in New Issue
Block a user