Python, pypdfでPDFの作成者やタイトルなどを取得・削除・変更

Modified: 2025-05-18 | Tags: Python, PDF

Pythonのサードパーティライブラリpypdf（旧PyPDF2）を使うと、PDFファイルのメタデータ（作成者、タイトルなど）の取得や削除、変更ができる。

py-pdf/pypdf: A pure-python PDF library capable of splitting, merging, cropping, and transforming the pages of PDF files

pypdfのインストール
PDFファイルのメタデータの項目
PDFファイルのメタデータの取得
PDFファイルのメタデータを削除
- メタデータをすべて削除
- メタデータを選択して削除
PDFファイルのメタデータを追加・変更
パスワードが設定されたPDFファイルの処理
XMPによるメタデータを取得（PDF 2.0）

サンプルで使用しているPDFファイルは以下のリンクから。暗号化されているファイルのパスワードはすべてpassword。

python-snippets/notebook/data/src/pdf

すべてのPDFファイルに対して動作を保証するものではない。

pypdfのインストール

pypdfは外部ライブラリに依存しておらず、pip（pip3）でインストール可能。AES方式の暗号化・復号を利用する場合はpypdf[crypto]とする。

$ pip install pypdf
$ pip install pypdf[crypto]

以下のサンプルコードで使用しているpypdfのバージョンは5.5.0。

以前はPyPDF2という名前だったが、2023年にpypdfに改められた。

History of pypdf — pypdf 5.5.0 documentation

PDFファイルのメタデータの項目

PDFファイルの規格はISOで標準化されている。

ISO 32000-1 (PDF 1.7)は無料で公開されており、メタデータについては下記ファイルの「14.3 Metadata」（P548）で説明されている。

PDF32000_2008.pdf

メタデータはMetadata StreamsかDocument Information Dictionaryに格納される。Document Information Dictionaryのメタデータの項目は以下の通り。

Title: タイトル
Author: 作成者
Subject: サブジェクト（主題）
Keyword: キーワード
Creator: オリジナル文書の作成ツール
Producer: 変換ツール
CreateDate: 作成日時
ModDate: 更新日時
Trapped: トラッピングされているか

これらの項目は必須ではなく、また、その他の独自の項目を追加することも可能。

Author, Creator, Producerは似たような項目名だが、それぞれ意味が異なる。Authorには文書を作成した個人や団体の名前が入り、CreatorやProducerにはPDFファイルの作成・変換に使用されたソフトの名前が入る。

なお、2017年7月に公開されたISO 32000-2 (PDF 2.0)でメタデータに関する仕様が変更され、メタデータはExtensible Metadata Platform（XMP）に格納するようになった。

PDF 2.0: The worldwide standard for electronic documents has evolved – PDF Association

以下のサンプルコードではPDF 1.7以前の仕様に対する処理をメインで説明する。PDF 2.0に対する処理は最後に少しだけ述べる。

PDFファイルのメタデータの取得

PdfReaderクラスのmetadata属性を使うと、PDFファイルのDocument Information Dictionaryからメタデータを取得できる。

PdfReaderはコンストラクタにPDFファイルのパスを指定して生成する。metadata属性で取得できるのはDocumentInformationクラスのオブジェクト。

The DocumentInformation Class — pypdf 5.5.0 documentation

titleやauthorなどを属性として取得できる。

import pypdf

print(pypdf.__version__)
# 5.5.0

pdf = pypdf.PdfReader('data/src/pdf/sample1.pdf')

print(type(pdf.metadata))
# <class 'pypdf._doc_common.DocumentInformation'>

print(pdf.metadata.title)
# sample1

source: pypdf_metadata_get.py

pypdf.DocumentInformationクラスは辞書（dict）のサブクラスなので、[キー名]で値を取得したりitems()などのメソッドを使ったりすることも可能。

関連記事: Pythonの辞書（dict）のforループ処理（keys, values, items）

ファイルによっては、そのままprint()で出力すると値がIndirectObject(...)となる場合があるが、キーを指定すると中身が確認できる。なお、このサンプルファイルはMacのKeynoteで作成、PDFに変換したもの。

print(isinstance(pdf.metadata, dict))
# True

print(pdf.metadata)
# {'/Title': IndirectObject(33, 0, 4424533392), '/Producer': IndirectObject(34, 0, 4424533392), '/Creator': IndirectObject(35, 0, 4424533392), '/CreationDate': IndirectObject(36, 0, 4424533392), '/ModDate': IndirectObject(36, 0, 4424533392)}

print(pdf.metadata['/Title'])
# sample1

for k, v in pdf.metadata.items():
    print(f'{k}: {v}')
# /Title: sample1
# /Producer: macOS バージョン10.14.2（ビルド18C54） Quartz PDFContext
# /Creator: Keynote
# /CreationDate: D:20190114072947Z00'00'
# /ModDate: D:20190114072947Z00'00'

source: pypdf_metadata_get.py

キー名は'/Title'のようにスラッシュ/が付き、最初が大文字なので注意。

PDFファイルのメタデータを削除

メタデータをすべて削除

以下の手順でメタデータをすべて削除して保存できる。

元のPDFファイルからPdfReaderオブジェクトを生成
中身をコピーしたPdfWriterオブジェクトを生成（clone_from引数を使用）
metadata属性にNoneを代入
PdfWriterオブジェクトをPDFファイルとして保存

src_pdf = pypdf.PdfReader('data/src/pdf/sample1.pdf')
dst_pdf = pypdf.PdfWriter(clone_from=src_pdf)

dst_pdf.metadata = None

dst_pdf.write('data/temp/sample1_no_meta.pdf')

source: pypdf_metadata_remove.py

メタデータを選択して削除

メタデータの項目を選択して削除したい場合は、元のPDFファイルのmetadata属性をコピーして任意の項目を削除してから、保存するPDFファイルのmetadata属性に代入する。

上述のようにmetadata属性のpypdf.DocumentInformationクラスは辞書（dict）のサブクラスなので、dict()で通常の辞書に変換すれば、pop()やdelなどの標準的な辞書操作が安全に行える。例として/Creator, /Producerを削除する。

関連記事: Pythonで辞書の要素を削除するclear, pop, popitem, del

src_pdf = pypdf.PdfReader('data/src/pdf/sample1.pdf')
dst_pdf = pypdf.PdfWriter(clone_from=src_pdf)

metadata = dict(src_pdf.metadata)

print(metadata.keys())
# dict_keys(['/Title', '/Producer', '/Creator', '/CreationDate', '/ModDate'])

metadata.pop('/Creator')
del metadata['/Producer']

print(metadata.keys())
# dict_keys(['/Title', '/CreationDate', '/ModDate'])

source: pypdf_metadata_remove.py

これをPdfWriterオブジェクトのmetadata属性に代入し、write()メソッドでPDFファイルとして保存する。

dst_pdf.metadata = metadata
dst_pdf.write('data/temp/sample1_remove_meta.pdf')

source: pypdf_metadata_remove.py

PDFファイルのメタデータを追加・変更

以下の手順でメタデータの項目を追加・変更できる。

元のPDFファイルからPdfReaderオブジェクトを生成
中身をコピーしたPdfWriterオブジェクトを生成（clone_from引数を使用）
add_metadata()メソッドで任意の項目を辞書形式で指定
PdfWriterオブジェクトをPDFファイルとして保存

add_metadata()メソッドには、設定項目とその値を辞書形式で指定する。add_metadata()は既存の値を上書きするので、指定していない項目の値はそのまま。

src_pdf = pypdf.PdfReader('data/src/pdf/sample1.pdf')
dst_pdf = pypdf.PdfWriter(clone_from=src_pdf)

new_metadata = {
    '/Title': 'new title',
    '/Producer': 'new producer',
    '/NewItem': 'special data'
}

dst_pdf.add_metadata(new_metadata)
dst_pdf.write('data/temp/sample1_new_meta.pdf')

print(pypdf.PdfReader('data/temp/sample1_new_meta.pdf').metadata)
# {'/Title': 'new title', '/Producer': 'new producer', '/Creator': IndirectObject(35, 0, 4398476304), '/CreationDate': IndirectObject(36, 0, 4398476304), '/ModDate': IndirectObject(36, 0, 4398476304), '/NewItem': 'special data'}

source: pypdf_metadata_set.py

指定していない項目を削除したい場合は、辞書をmetadata属性に代入して置き換えればよい。

dst_pdf.metadata = new_metadata
dst_pdf.write('data/temp/sample1_new_meta_replace.pdf')

print(pypdf.PdfReader('data/temp/sample1_new_meta_replace.pdf').metadata)
# {'/Title': 'new title', '/Producer': 'new producer', '/NewItem': 'special data'}

source: pypdf_metadata_set.py

パスワードが設定されたPDFファイルの処理

パスワード付きの暗号化されたPDFファイルの場合、これまでのサンプルコードではエラーとなる。

PdfReaderオブジェクトを生成したあとでdecrypt()メソッドを使って復号する必要がある。

src_pdf = pypdf.PdfReader(src_path)
src_pdf.decrypt('password')

また、保存するPDFファイルにパスワードを掛ける場合はPdfWriterオブジェクトのwrite()で保存する前にencrypt()メソッドを使う。

dst_pdf.encrypt('password')
dst_pdf.write(dst_path)

パスワードについての詳細は以下の記事を参照。

関連記事: Python, pypdfでPDFのパスワードを設定・解除（暗号化・復号）

XMPによるメタデータを取得（PDF 2.0）

上述のように、2017年7月に公開されたISO 32000-2 (PDF 2.0)でメタデータに関する仕様が変更され、メタデータはExtensible Metadata Platform（XMP）に格納するようになった。

以下のレポジトリにあるPDF 2.0のサンプルファイルを使って、XMPで格納されたデータを取得する例を紹介する。

metadata属性はNone。

pdf = pypdf.PdfReader('data/temp/Simple PDF 2.0 file.pdf')
print(pdf.metadata)
# None

source: pypdf_metadata_xmp.py

XMPのデータはxmp_metadata属性で取得できる。xmp_metadata属性はXmpInformationクラス。詳細は以下のドキュメント参照。

The XmpInformation Class — pypdf 5.5.0 documentation

xmp_metadata属性から各種の情報を取得できる。

print(type(pdf.xmp_metadata))
# <class 'pypdf.xmp.XmpInformation'>

print(pdf.xmp_metadata.dc_title)
# {'x-default': 'A simple PDF 2.0 example file'}

print(pdf.xmp_metadata.pdf_keywords)
# PDF 2.0 sample example

print(pdf.xmp_metadata.xmp_metadata_date)
# 2017-07-11 07:55:11

source: pypdf_metadata_xmp.py

PdfWriterクラスのドキュメントを読む限りadd_metadata()に相当するようなメソッドはないので、新たなXMPを追加することは出来ない模様（バージョン5.5.0時点）。

The PdfWriter Class — pypdf 5.5.0 documentation

Python, pypdfでPDFの作成者やタイトルなどを取得・削除・変更

pypdfのインストール

PDFファイルのメタデータの項目

PDFファイルのメタデータの取得

PDFファイルのメタデータを削除

メタデータをすべて削除

メタデータを選択して削除

PDFファイルのメタデータを追加・変更

パスワードが設定されたPDFファイルの処理

XMPによるメタデータを取得（PDF 2.0）

関連カテゴリー

関連記事