You are currently viewing قابل جستجو کردن PDF در لینوکس

قابل جستجو کردن PDF در لینوکس

خیلی از مواقع شده است که یک فایل پی دی اف دارید که همه صفحات آن اسکن شده هستند و می خواهید یک متن را در این فایل جستجو کنید و با مشکل مواجه شده اید. در سیستم عامل لینوکس می‌توانید برای قابل جستجو کردن یک فایل PDF از بسته OCRmyPDF استفاده نمایید.

معرفی بسته OCRmyPDF

قابل جستجو کردن PDF در لینوکس با بسته OCRmyPDF

OCRmyPDF یک لایه متنی با تشخیص کاراکتر نوری (OCR) را به فایل‌های PDF اسکن شده اضافه می‌کند و به آنها امکان جستجو می‌دهد.

نصب OCRmyPDF در Ubuntu

برای نصب بسته در سیستم عامل اوبونتو می توانید از کد زیر استفاده نمایید:


sudo apt install ocrmypdf

افزودن زبان فارسی به موتور Tesseract

OCRmyPDF از موتور Tesseract برای تشخیص لایه متنی استفاده می‌نماید. برای اینکه متون فارسی توسط این موتور شناسایی شود، بایستی بسته زبان فارسی این موتور را نصب نمایید. بسته زبان فارسی این موتور در اوبونتو با استفاده از کد زیر قابل نصب می‌باشد.


sudo apt-get install tesseract-ocr-fas

قابل جستجو کردن فایل PDF

حالا می‌توانید با استفاده از OCRmyPDF لایه متنی را به فایل PDF خود اضافه نمایید و آنرا قابل جستجو نمایید. برای اینکار می توانید از کد زیر استفاده نمایید.


ocrmypdf -l fas  input.pdf output.pdf

توجه داشته باشید کیفیت متون استخراجی به کیفیت عکس‌هایی که در فایل PDF گنجانده شده است بستگی دارد.

استخراج متن از فایل PDF

با استفاده از کد زیر می‌توانید فایل PDF را قابل جستجو کنید و متن را در فایل output.txt ذخیره نمایید.


ocrmypdf -l fas --sidecar output.txt input.pdf output.pdf

دیدگاهتان را بنویسید