2013-08-18 日記

この日記はフィクションです．登場する人名・団体名・地名・職業などはぜんぶ架空のものです．なので実際のものとは何も関係がありません．それから，写真のように見える画像はＣＧもしくは念写によるものです．

binzume.net

2013-08-18 (日)

昨日はPDFの仕様書読んでいたので，せっかくなので実装してみる日．

*PDFのテキストをレンダリングするための最小限の実装

多少のレイアウトの崩れには目をつぶって，それっぽく，テキストをレンダリングする．

PDFの仕様書のAPPENDIX Aにある「Operator Summary」を見て，重要そうなのから実装していく．

Q BT /CS0 cs 0 0 0  scn /T1_0 1 Tf 9.4 0 0 9.4 51.005 537.89 Tm (8)Tj ET 1.02 w  q

こんな文字列がContentsのストリームに入っています．各トークンは空白文字で区切りますが，「(8)Tj」のように明らかに分離できる場合は，スペースを入れなくても構いません(このあたりはPDF全体でそうなってます)．

PDFはPostScript由来の後置記法を採用しているので，例えば，Tmの引数はその前にある6個の数値です．

cm,Q,q

グラフィックス系のオペレーターとして書かれているけど，座標変換はテキストにも影響する．

cmで与えられた行列は回転を無視するなら，位置とスケールとして覚えておけば大丈夫．

Q,qでグラフィックスのステートをスタックにpushしたりpopしたりする．

BT,ET

BTでテキスト関係の行列を初期化．ネストしないらしいので，ETは無視しててもとりあえず動きます．

Td,TD,TL,Tf,Tm,T*

このへんはサポートしないとまともに位置が合わない．

話は変わるけど，字句解析から自前でやってたら，T*とかいうオペレータがあったの忘れてて，少し面倒くさかった．

Tj,TJ

Tjは1つの文字列を描画する．TJは文字列の間に位置のオフセット情報が入った配列を受け取り，描画．

ここまでできた

自炊本リーダー(仮)に実装してみて，今まで真っ白に表示されてた普通のPDFを開いてみたところ．CIDのマッピングは，Adobe-Japan1に限定．UnicodeとCIDのマッピングはフォントが持って居そうだけど，AndroidのAPIにはそれっぽいのが無いのでアプリ側で持つことに．

とりあえず表示はできましたが，

文字のレンダリングはdrawText呼んでるだけなので，文字が重なっている箇所がある
一部の記号が化けている
実装してないので画像は表示されない
実装してないので図形や色も無い

のでまだダメっぽいですね．

あとは，表示できる画像リソースが見つからない時に，テキストのレンダリングを試みているので，表示速度に影響を与えない代わりに，サポートされている画像が入ったページはその画像だけ表示されてしまう．

検索

07< 2013-08 >09

*アーカイブ

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

binzume.net

2013-08-18 (日)

*PDFのテキストをレンダリングするための最小限の実装

cm,Q,q

BT,ET

Td,TD,TL,Tf,Tm,T*

Tj,TJ

ここまでできた

検索

07< 2013-08 >09

*アーカイブ

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000

1999

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31