对于字体密集且小的PDF页最终解析结果会出现文字重复 #4134

Xiaochaomeng · 2025-12-05T06:34:00Z

Xiaochaomeng
Dec 5, 2025

想问下如何避免重复的问题，即使解析不准确也不要重复的效果

2025-12-05T06:36:17Z

字体密集且小的PDF页出现文字重复，是MinerU已知的问题，尤其在使用VLM后端时，主要原因是模型本身和分块/去重逻辑不完善导致的。即使牺牲部分准确率，也有几种方式可以有效减少重复：

强制OCR模式：对于字符坐标错乱或加粗字体导致的重复，建议在magic_pdf/filter/__init__.py中将return SupportedPdfParseMethod.TXT改为return SupportedPdfParseMethod.OCR，这样可以避免因坐标重叠导致的重复（但OCR可能带来识别错误，不建议全量PDF都用，仅用于问题页）参考参考。
使用pipeline后端提取文本：官方推荐用pipeline后端（lang="en"）提取文本，VLM后端只用于表格抽取，然后按需合并结果，这样能兼顾准确率和去重效果参考。
后处理去重：如果无法修改代码，可以用脚本对输出做后处理，比如去除相邻重复的句子或段落参考。
调整去重逻辑：MinerU pipeline内部有多步去重，包括字符级去重、重叠span去除（低置信度/小面积），如需更激进去重可考虑调整相关阈值（如remove_overlaps_low_confidence_spans、remove_overlaps_min_spans等）参考。
升级到最新版：近期版本对表格合并和布局分析有优化，升级后可能会有改善参考。

如果只追求“不要重复”，即使部分内容丢失或识别不准，强制OCR和激进去重是最直接的方案。需要更细致的代码修改或合并流程可以补充说明。

To reply, just mention @dosu.

0 replies