خیلی از مواقع شده است که یک فایل پی دی اف دارید که همه صفحات آن اسکن شده هستند و می خواهید یک متن را در این فایل جستجو کنید و با مشکل مواجه شده اید. در سیستم عامل لینوکس میتوانید برای قابل جستجو کردن یک فایل PDF از بسته OCRmyPDF استفاده نمایید.
معرفی بسته OCRmyPDF
OCRmyPDF یک لایه متنی با تشخیص کاراکتر نوری (OCR) را به فایلهای PDF اسکن شده اضافه میکند و به آنها امکان جستجو میدهد.
نصب OCRmyPDF در Ubuntu
برای نصب بسته در سیستم عامل اوبونتو می توانید از کد زیر استفاده نمایید:
sudo apt install ocrmypdf
افزودن زبان فارسی به موتور Tesseract
OCRmyPDF از موتور Tesseract برای تشخیص لایه متنی استفاده مینماید. برای اینکه متون فارسی توسط این موتور شناسایی شود، بایستی بسته زبان فارسی این موتور را نصب نمایید. بسته زبان فارسی این موتور در اوبونتو با استفاده از کد زیر قابل نصب میباشد.
sudo apt-get install tesseract-ocr-fas
قابل جستجو کردن فایل PDF
حالا میتوانید با استفاده از OCRmyPDF لایه متنی را به فایل PDF خود اضافه نمایید و آنرا قابل جستجو نمایید. برای اینکار می توانید از کد زیر استفاده نمایید.
ocrmypdf -l fas input.pdf output.pdf
توجه داشته باشید کیفیت متون استخراجی به کیفیت عکسهایی که در فایل PDF گنجانده شده است بستگی دارد.
استخراج متن از فایل PDF
با استفاده از کد زیر میتوانید فایل PDF را قابل جستجو کنید و متن را در فایل output.txt ذخیره نمایید.
ocrmypdf -l fas --sidecar output.txt input.pdf output.pdf
بیشتر بخوانید
مسیر فایل در اکسل | نمایش اطلاعات پوشه و نام فایل فعلی در سلول اکسل
مشکل network unreachable در اوبونتو
ویرایشگر VBA | چگونه ویرایشگر کد ویژوال بیسیک را باز نمایم؟
اتصال VBA به MYSQL | انتقال داده ها از MYSQL به اکسس و اکسل
Developer tab در اکسل | چگونه سربرگ توسعه دهنده را در اکسل فعال نمایم؟
افزودن متغیر به رشته | چگونه متغیر را به یک رشته ثابت اضافه نمایم؟