*This model was contributed to Hugging Face Transformers on 2026-02-27.* # PP-DocLayoutV2 ## Overview **PP-DocLayoutV2** is a dedicated lightweight model for layout analysis, focusing specifically on element detection, classification, and reading order prediction. ## Model Architecture PP-DocLayoutV2 is composed of two sequentially connected networks. The first is an RT-DETR-based detection model that performs layout element detection and classification. The detected bounding boxes and class labels are then passed to a subsequent pointer network, which is responsible for ordering these layout elements.

## Usage ### Single input inference The example below demonstrates how to generate text with PP-DocLayoutV2 using [`Pipeline`] or the [`AutoModel`]. ```python import requests from PIL import Image from transformers import pipeline image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout_demo.jpg", stream=True).raw) layout_detector = pipeline("object-detection", model="PaddlePaddle/PP-DocLayoutV2_safetensors") result = layout_detector(image) print(result) ``` ```python import requests from PIL import Image from transformers import AutoImageProcessor, AutoModelForObjectDetection model_path = "PaddlePaddle/PP-DocLayoutV2_safetensors" model = AutoModelForObjectDetection.from_pretrained(model_path, device_map="auto") image_processor = AutoImageProcessor.from_pretrained(model_path) image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout_demo.jpg", stream=True).raw) inputs = image_processor(images=image, return_tensors="pt").to(model.device) outputs = model(**inputs) results = image_processor.post_process_object_detection(outputs, target_sizes=[image.size[::-1]]) for result in results: print(result["scores"]) print(result["labels"]) print(result["boxes"]) for idx, (score, label_id, box) in enumerate(zip(result["scores"], result["labels"], result["boxes"])): score, label = score.item(), label_id.item() box = [round(i, 2) for i in box.tolist()] print(f"Order {idx + 1}: {model.config.id2label[label]}: {score:.2f} {box}") ``` ### Batched inference Here is how you can do it with PP-DocLayoutV2 using [`Pipeline`] or the [`AutoModel`]: ```python import requests from PIL import Image from transformers import pipeline image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout_demo.jpg", stream=True).raw) layout_detector = pipeline("object-detection", model="PaddlePaddle/PP-DocLayoutV2_safetensors") result = layout_detector([image, image]) print(result[0]) print(result[1]) ``` ```python import requests from PIL import Image from transformers import AutoImageProcessor, AutoModelForObjectDetection model_path = "PaddlePaddle/PP-DocLayoutV2_safetensors" model = AutoModelForObjectDetection.from_pretrained(model_path, device_map="auto") image_processor = AutoImageProcessor.from_pretrained(model_path) image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout_demo.jpg", stream=True).raw) inputs = image_processor(images=[image, image], return_tensors="pt").to(model.device) target_sizes = [image.size[::-1], image.size[::-1]] outputs = model(**inputs) results = image_processor.post_process_object_detection(outputs, target_sizes=target_sizes) for result in results: print("result:") for idx, (score, label_id, box) in enumerate(zip(result["scores"], result["labels"], result["boxes"])): score, label = score.item(), label_id.item() box = [round(i, 2) for i in box.tolist()] print(f"Order {idx + 1}: {model.config.id2label[label]}: {score:.2f} {box}") ``` ## PPDocLayoutV2Config [[autodoc]] PPDocLayoutV2Config ## PPDocLayoutV2ForObjectDetection [[autodoc]] PPDocLayoutV2ForObjectDetection ## PPDocLayoutV2Model [[autodoc]] PPDocLayoutV2Model ## PPDocLayoutV2ReadingOrder [[autodoc]] PPDocLayoutV2ReadingOrder ## PPDocLayoutV2ImageProcessor [[autodoc]] PPDocLayoutV2ImageProcessor - preprocess