PDF 문서 변환하고 텍스트를 추출하기 위해 여러 가지 프로그램을 사용했습니다. 제대로 추출할 수 있는 것은 어떤 프로그램일까요.
어디서나 흔하게 사용하는 PDF 문서, 그리고 변환을 지원하는 온라인 프로그램과 오프라인 프로그램이 많이 있습니다만, 실제로 변환을 해보면 소문과 달리 그 역할을 하지 못하는 것이 있는데요, 오늘 PDF 문서 속의 텍스트를 추출해야 하는데, PDF 변환 프로그램을 사용하면서 어떤 것이 제대로 텍스트를 가져올 수 있는지 보겠습니다.
추천하는 PDF 변환 방법은 PDF 자체에서 지원하는 것 같은데, 유료 기능입니다. 그리고 한글에서도 PDF 문서를 불러올 수 있다는 글이 있는데, 현재 사용하는 한글 2014로는 PDF 확장자가 보이지 않아 업로드할 수 없습니다. 이 방법 외에도 PDF 변환 프로그램은 여러 개 있습니다. 그중에서도 흔하게 보이는 프로그램을 이용해서 PDF 문서를 한글, 엑셀, 워드로 변환했습니다.
PDF 변환 프로그램으로는
1. allinpdf
2. smallpdf
3. 알PDF
위 프로그램을 순서대로 보겠습니다.
PDF 변환 외에 여러 가지 기능을 지원하는 사이트인데요, 이 화면은 많은 기능 중에서 PDF 변환만을 담당하는 기능이며 PDF 잠금 해제 기능 등 다른 기능을 이용하려면 https://allinpdf.com/ 여기로 접속하면 됩니다. 온라인에서 제공하는 기능은 간단합니다. 필요한 한 가지 역할만을 하기에 어려움도 없고 화면만 보면 알 수 있습니다. 변환에 사용할 PDF 문서를 업로드합니다.
PDF 변환은 어떤 경우에 할까요. PDF 문서를 제출하지 못하고 한글로 변환해야 할 때, PDF 문서를 다룰 프로그램이 없을 때, 그리고 PDF 문서 내 텍스트를 추출할 때도 변환이 필요합니다. 글자 몇 줄 정도라면 변환 프로그램 찾는 것보다 타이핑하는 것이 빠를 겁니다. 하지만 PDF 문서 내에 있는 숫자 테이블이라면 이야기는 달라지죠.
이 화면에서 텍스트를 추출할 수 있는 문서는 한글밖에 보이지 않습니다. html이나 txt는 테이블을 제대로 만들지 못합니다. 생각으로는 html이라면 태그가 생성될 것 같지만 전혀 사용할 수 없는, 형체도 알아볼 수 없게 변환됩니다. 나중에 알았지만, 여기 이 변환 프로그램도 워드로 변환했다면 조금 더 나은 결과 나왔을지 모르겠네요. 변환하는 문서를 한글로 선택합니다.
* html 변환에서 텍스트는 추출할 수 있습니다.
allinpdf 프로그램을 이용하여 PDF 문서를 한글로 변환한 결과입니다. 형체도 알아볼 수 없이 사라져 버렸습니다.
smallpdf 프로그램입니다.
이 프로그램에서는 워드, 엑셀, PPT만 지원합니다.
엑셀로 변환한 결과는 만족합니다. 정렬에서 약간 자리를 잡지 못했지만, 이 정도라면 전혀 문제 될 것은 없습니다. 테이블 그대로 복사가 되니 원하는 결과가 나왔습니다.
오프라인 프로그램으로 잘 알려진 알툴즈 제품입니다.
먼저 한글로 변환했는데, 표 속에 있는 글자가 드래그가 안 되네요. 위의 캡처 화면은 표를 삭제했는데도 마찬가지로 원하는 구간의 글자를 드래그할 수가 없었습니다.
마찬가지로 PDF 문서를 엑셀로 변환했습니다. smallpdf 보다 더 깔끔하게 정렬이 되어 나왔네요. 알 PDF에서는 워드로도 변환했는데 약간 깨지는 현상은 있지만 텍스트를 사용하기에는 전혀 문제가 없었습니다.
smallpdf에서도 워드로 변환했는데 역시 사용에는 전혀 문제가 되지 않았습니다. 처음에 PDF 문서를 변환했던 allinpdf 프로그램에서도 워드로 변환했다면 괜찮았을까요. 어쨌든 PDF 문서에서 텍스트를 추출하기 위해서는 온라인 프로그램으로 워드나 엑셀로 변환하면 되겠습니다.