Чтение pdf-файлов с помощью php

Question

Чтение pdf-файлов с помощью php

У меня есть большой PDF-файл, который является картой этажа для здания. Оно имеет слои для всей офисной мебели включая текстовые коробки положения места.

моя цель-прочитать этот файл с помощью PHP, найти в документе текстовые слои, получить их содержимое и координаты в файле. Таким образом, я могу отобразить местоположения сидений -> координаты x/y.

есть ли способ сделать это через PHP? (Или даже Ruby или Python, если это необходимо)

43

pdf php

автор: Ryan Doherty

5 ответов

автор: Jay · Accepted Answer · 2015-06-24 06:35:24

Проверьте FPDF (с FPDI):

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

Они позволят вам открыть pdf-файл и добавить в него контент на PHP. Я предполагаю, что вы также можете использовать их функциональность для поиска по существующему контенту необходимых вам значений.

другой возможной библиотекой является TCPDF: http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf

обновление для добавления более современной библиотеки:PDF Parser

автор: kasper Taeymans · Accepted Answer · 2015-07-10 14:30:52

существует библиотека php (pdfparser), которая делает именно то, что вы хотите.

сайт проекта

http://www.pdfparser.org/

github

https://github.com/smalot/pdfparser

демо-страница / api

http://www.pdfparser.org/demo

после включения pdfparser в ваш проект вы можете получить весь текст из mypdf.pdf вот так:

<?php
$parser = new \installpath\PdfParser\Parser();
$pdf    = $parser->parseFile('mypdf.pdf');  
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf

?>

Simular вы можете получить метаданные из pdf как wel, как получение объектов pdf (например, изображений).

автор: Rado · Accepted Answer · 2009-06-17 00:39:46

Мда ... не совсем php, но вы можете вызвать программу из php, чтобы преобразовать pdf во временный html-файл, а затем проанализировать полученный файл с помощью php. Я сделал что-то подобное для своего проекта, и это программа, которую я использовал:

PdfToHtml

что круто в программе, так это то, что она будет выплевывать текстовые элементы в тегах с абсолютными координатами положения. Похоже, это именно то, что вы пытаетесь сделать.

автор: Mike · Accepted Answer · 2013-10-11 08:58:24

вы можете также попробовать это приложение http://pdfbox.apache.org/. Рабочий пример можно найти вhttps://www.jinises.com

автор: jmo · Accepted Answer · 2018-04-09 15:19:58

ваш первоначальный запрос: "у меня есть большой PDF-файл, который является картой этажа для здания. "

Я боюсь сказать вам, что это может быть сложнее, чем вы думаете.

причина последнее известное использование lib everyones для разбора pdf-это smalot, и этот, как известно, сталкивается с проблемой большого файла.

здесь тоже ищите реальный PHP lib для разбора pdf, без какого-либо пика памяти, который нуждается в конфигурации php, чтобы отключить ограничение памяти как много "разработчики" (что, я думаю, действительно не рекомендуется).

см. этот пост для получения более подробной информации о производительности smalot:https://github.com/smalot/pdfparser/issues/163