diff --git a/End-to-End Object Detection with Transformers.pdf b/End-to-End Object Detection with Transformers.pdf new file mode 100644 index 0000000..84bf950 Binary files /dev/null and b/End-to-End Object Detection with Transformers.pdf differ diff --git a/tokenizer.md b/tokenizer.md index b8a803c..ac1510e 100644 --- a/tokenizer.md +++ b/tokenizer.md @@ -122,7 +122,9 @@ inputs = self.processor(images=image, return_tensors="pt") - `pixel_values` 是送入模型的图像张量。 - `pixel_mask` 用于告诉模型哪些区域是真实图像,哪些区域是 padding。 -这一步不是文本 token 化,不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。 +这一步还没有生成 DETR 的视觉 token。它只是把图像整理成模型可以接收的输入张量。 + +它也不是文本 token 化,不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。 ## 第 2 步:ResNet-50 提取特征图 @@ -174,6 +176,12 @@ ResNet 输出通道数通常是 `2048`,而 DETR Transformer 默认隐藏维度 这是“视觉 token 化”的核心步骤。 +当前项目代码中对应的是: + +```python +tokens = projected_feature_map.flatten(2).permute(0, 2, 1) +``` + 投影后的特征图形状是: ```text