【Python】PDFのタイトル・作成者を取得するには？

PDFからタイトルや作成者などのメタデータを取得するコードをご紹介します。

PyPDF2のインストール

今回のサンプルではPythonでPDFを扱えるライブラリ「PyPDF2」を使っていきます。

GitHub - py-pdf/pypdf: A pure-python PDF library capable of splitting, merging, cropping, and transforming the pages of PDF files

A pure-python PDF library capable of splitting, merging, cropping, and transforming the pages of PDF files - py-pdf/pypd...

pipコマンドでインストールできますので、あらかじめインストールしておきましょう。

pip install PyPDF2

そもそもPDFのメタデータとは？

PDFにはメタデータを格納することができます。

例えば、PowerPointで作成したPDFには、表題がタイトルとして格納されています。Adobe Acrobat Readerなどのアプリケーションで確認することができます。

今回はPythonでこれらのデータを取得する方法をご紹介します。

タイトルを取得するには？

メタデータからタイトルを取得してみましょう。

from PyPDF2 import PdfReader

# PDFを読み込む
reader = PdfReader("sample.pdf")

# メタデータを取得する
meta = reader.metadata

# タイトルを出力
print(meta.title)
# サブタイトルを出力
print(meta.subject)

上記PDFに対して実行すると、以下のように出力されます。

タイトルはです
None

PDFの作成者を取得するには？

メタデータに含まれている場合は、PDFを作成したユーザー名も取得することができます。

from PyPDF2 import PdfReader

# PDFを読み込む
reader = PdfReader("sample.pdf")

# メタデータを取得する
meta = reader.metadata

# 作成者を出力
print(meta.author)