diff --git a/End-to-End Object Detection with Transformers.pdf b/End-to-End Object Detection with Transformers.pdf
new file mode 100644
index 0000000..84bf950
Binary files /dev/null and b/End-to-End Object Detection with Transformers.pdf differ
diff --git a/tokenizer.md b/tokenizer.md
index b8a803c..ac1510e 100644
--- a/tokenizer.md
+++ b/tokenizer.md
@@ -122,7 +122,9 @@ inputs = self.processor(images=image, return_tensors="pt")
 - `pixel_values` 是送入模型的图像张量。
 - `pixel_mask` 用于告诉模型哪些区域是真实图像，哪些区域是 padding。
 
-这一步不是文本 token 化，不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
+这一步还没有生成 DETR 的视觉 token。它只是把图像整理成模型可以接收的输入张量。
+
+它也不是文本 token 化，不会产生 `input_ids`、`attention_mask` 这类 NLP tokenizer 输出。
 
 ## 第 2 步：ResNet-50 提取特征图
 
@@ -174,6 +176,12 @@ ResNet 输出通道数通常是 `2048`，而 DETR Transformer 默认隐藏维度
 
 这是“视觉 token 化”的核心步骤。
 
+当前项目代码中对应的是：
+
+```python
+tokens = projected_feature_map.flatten(2).permute(0, 2, 1)
+```
+
 投影后的特征图形状是：
 
 ```text