PythonでPDFのOCRを実装する

PythonでPDFのOCRを実装します．

ライブラリのインストール
OCRの実行
まとめ
参考サイト

全国630店舗以上！もみほぐし・足つぼ・ハンドリフレ・クイックヘッドのリラクゼーション店【りらくる】

# ライブラリのインストール

! pip install fitz
! pip install PyMuPDF==1.16.14

! apt install tesseract-ocr
! apt install libtesseract-dev
! pip install pytesseract
! apt install ghostscript
! pip install ocrmypdf

# OCRの実行

下記のコードで日本語データをインストールします．

# 日本語のインストール
! apt install tesseract-ocr-jpn*
! tesseract --list-langs

そして，下記のコードでOCRを実行します．

!ocrmypdf -l jpn_vert Jisaku_x86.pdf Jisaku_x86_ocr.pdf

# まとめ

PythonでPDFのOCRを実装しました．

# 参考サイト

ubuntuでocrmypdfを使ってPDFをOCRする (opens new window)

全国630店舗以上！もみほぐし・足つぼ・ハンドリフレ・クイックヘッドのリラクゼーション店【りらくる】

Create Time: 3/30/2023, 12:00:00 AM Last Updated: 3/19/2023, 3:44:19 PM

PythonでPDFのOCRを実装する

# ライブラリのインストール

# OCRの実行

# まとめ

# 参考サイト

Pandasにおける条件付きで要素を上書きする

Pandasのデータフレームからgeometryを追記してshpファイルで出力する