Discussion:
przy kopiowaniu z pdf'a zamiast polskich liter puste pola
(Wiadomość utworzona zbyt dawno temu. Odpowiedź niemożliwa.)
PD
2003-11-04 08:46:49 UTC
Permalink
Witam Szanownych Grupowiczow,

Z gory przepraaszam za NTG - ale z temat opisuje dokladnie problem, zeby
niechetni nie musieli marnowac czasu.


Co moze byc powodem i jak to ominac, ze przy kopiowaniu z pdf'a do pliku
tekstowego czy tez do eksportowania do html'a pomija mi polskie znaki lub
wstawia krzaki?

Bede niezmiernie wdzieczny za sugestie jak to rozwiazac? tzn jak skopiowac
ten tekst aby byly polskie litery

Pozdrawiam
PD
ssuukk
2003-11-04 11:09:07 UTC
Permalink
Post by PD
Co moze byc powodem i jak to ominac, ze przy kopiowaniu z pdf'a do pliku
tekstowego czy tez do eksportowania do html'a pomija mi polskie znaki lub
wstawia krzaki?
Bede niezmiernie wdzieczny za sugestie jak to rozwiazac? tzn jak skopiowac
ten tekst aby byly polskie litery
Najlepszy sposób - najnowszy Fine Reader. Nawet Adobe Acrobat (ani żadne
inne narzędzie) nie radzi sobie dobrze z PDFami, nawet jeśli jest w nich
naprawdę minimalne formatowanie... Jedyny sposób to OCR (Fine Reader
robi to bez pośrednictwa drukarki i skanera).
Staszek Wawrykiewicz
2003-11-04 17:12:23 UTC
Permalink
Post by PD
Co moze byc powodem i jak to ominac, ze przy kopiowaniu z pdf'a do pliku
tekstowego czy tez do eksportowania do html'a pomija mi polskie znaki lub
wstawia krzaki?
W zasadzie nie odpowiadam na anonimy (tak też traktuję podpisanie
inicjałem lub ,,nikiem''), ale wyjątkowo...
Pakiet xpdf zawiera program pdftotext, który dobrze sobie radzi
z wyłuskaniem tekstu z pliku PDF do Latin2 (trudno oczywiście wymagać
zachowanie formatowania).
pdftotext i inne narzędzia do pracy w trybie wsadowym dostępne są na
każdym ctan:/support/xpdf i na TeX Live, także dla windows. Przykładowe
użycie:
pdftotext -cfg c:/xpdf/xpdfrc -enc Latin2 plik.pdf plik.txt

Odpowiedni plik Latin2.unicodeMap zawarto w dystrybucji xpdf

--
Staszek Wawrykiewicz
***@gust.org.pl

Loading...