1. Convierta el PDF a HTML
Edite y ejecute el siguiente script de PHP.
F:\Libros>php pdftohtml.php
2. Limpie el archivo HTML generado:
Abra el archivo HTML con Sublime Text y elimine el texto seleccionado con las siguientes búsquedas:
Recuerde activar las opciones `Regular expression` y `Case sensitive`.
- Elimine las separaciones de página
(<hr>)*?([\n| ]*)(.*)(</a>+?)
- Una las palablas
-([ ]*?)((<br>??)([\n| ]*?))+?(?:[[:lower:]])
Use [[Mayús]] + [[Left]] para des-seleccionar el último caracter
- Una los parrafos
((<br>??)([\n| ]*?))+?([\n| ]*)(?:[[:lower:]])
Use [[Mayús]] + [[Left]] para des-seleccionar el último caracter