update at 2026-06-05 15:55:39

2026-06-05 15:55:39 +08:00
parent 4603914e85
commit a0955d1393
2 changed files with 9 additions and 1 deletions
--- a/Transformers.pdf
+++ b/Transformers.pdf
--- a/tokenizer.md
+++ b/tokenizer.md
@@ -122,7 +122,9 @@ inputs = self.processor(images=image, return_tensors="pt")
 - `pixel_values` 是送入模型的图像张量。
 - `pixel_mask` 用于告诉模型哪些区域是真实图像，哪些区域是 padding。
-这一步不是文本 token 化，不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
+这一步还没有生成 DETR 的视觉 token。它只是把图像整理成模型可以接收的输入张量。
 它也不是文本 token 化，不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
 ## 第 2 步：ResNet-50 提取特征图
@@ -174,6 +176,12 @@ ResNet 输出通道数通常是 `2048`，而 DETR Transformer 默认隐藏维度
 这是“视觉 token 化”的核心步骤。
 当前项目代码中对应的是：
 ```python
 tokens = projected_feature_map.flatten(2).permute(0, 2, 1)
 ```
 投影后的特征图形状是：
 ```text