이미지에서 텍스트 추출을 해야 하는데 제대로 처리하는 방법이 없습니다. 완벽하게 이미지에서 텍스트를 추출하지는 못하지만, 꼭 필요하다면 번거롭지만, 이 방법을 권합니다.
이미지에서 텍스트를 추출하기까지 과정인데요, 사실은 이미지가 아니었습니다. 사이트에서 필요한 자료를 가져오는데 드래그가 안 됩니다. 드래그가 안 된다는 것은 우클릭 방지 설정, 이렇게 생각하기 쉽지만, 그것은 아닌 것 같아요. 커서를 움직이면 사이트가 반응하며 특정 위치에서 형광 표시가 나타납니다.
우클릭해서 소스를 끍어 실행했는데, 스크랩이 제대로 작동을 안 하네요. 아마 스크립터의 주소는 전체 주소가 아니고 하위 주소만 연결되었을 겁니다.
여기서 스크립터 주소를 제대로 파악해서 올바르게 테이블을 생성할까 생각하다 캡처해서 그 이미지에서 텍스트를 추출하는 방법을 택했습니다. 이미지에서 텍스트 추출은 당장 생각하는 것은 구글 드라이버입니다.
구글 드라이버 이미지에서 텍스트 추출하는 방법입니다.
점 9개, 구글 앱을 열고 드라이버를 클릭합니다.
파일 업로드를 찾아 텍스트를 추출할 이미지를 올립니다.
올린업로드한 이미지 우클릭, 연결 앱, 구글 문서를 차례로 클릭합니다.
변환이라는 안내도 없이 잠시 뜸을 들이다 추출된 텍스트를 보여줍니다.
지금 보이는 것처럼 깔끔하게 변환되었을까요.
이미지에서는 테이블이었는데, 텍스트 추출은 1열로 글자가 나열되어 있습니다. 이렇게 추출된 텍스트가 올바른 것이 아닙니다. 뛰어넘어 엉뚱한 칸에 들어가 있는 숫자도 있고, 첫째 셀에는 두 번째 선수 이름이 건너뛰어 첫 번째 선수와 같이 붙어 있습니다.
어떡하든지 이미지에서 텍스트 추출이 되었습니다. 이것을 몽땅 복사해서 엑셀에 붙여 넣습니다. 그리고 바뀌거나 빠진 것을 새로 넣고 다시 살펴봅니다. 이렇게 변화된 것 중에 숫자가 바뀌지는 않더군요. 그러니 오타는 없었습니다.
1열로 정리된 내용을 테이블로 만들 수 있으면 그대로 만들면 되는데, 어렵다면 이 내용을 몽땅 복사해서 인공지능 도움을 받습니다. 빙 검색도 차트는 잘 만듭니다. 이 내용은 4열짜리 테이블인데요, 4열에 모두 값이 있는 것이 있고, 3열만 값이 있는 것이 있습니다. 그래서 그냥 차트를 만들어 달라고 하면 잘 안되더군요. 차트를 만들어 달라고 요구할 때 4열로 만들어 달라고 조건을 넣으면 깔끔하게 만들어 줍니다. 휴대폰으로도 이미지에서 텍스트 추출할 수 있는데, 그 순간에는 생각나지 않더군요. 아마 번거롭더라도 구글 드라이버를 곧바로 생각해 냈다면 시간상으로는 그다지 오래 걸리지는 않았을 겁니다.
아래는 더 쉬운 방법이 있을까 설치했는데 결과도 못 보고 삭제한 프로그램입니다.
무료라고 설치했는데요, pdfelement PDFelement입니다.
다른 내용은 보지 않고 당장 급한 이미지에서 텍스트를 추출할 수 있다는 글을 보고 무료 버전을 설치했습니다.
분명히 실행파일을 받아 설치했고 바로가기가 생성되어 있습니다.
그런데 실행은 브라우저에서 이루어지며 변환되어 다운받을 때는 워터마크를 넣는다고 합니다. 보통 브라우저에서 실행되는 프로그램은 설치까지하지 않죠, 업체 자체 서버를 이용해서 처리하는데 pdfelement PDFelement에서는 용량은 개인 컴퓨터를 사용하면서 로그인을 요구하고 있습니다. 뭔가 잘못된 것 같은데요, 어떤 기능이 있는지 여유 있을 때 다시 살펴보기로 하면 삭제했는데, 이상하죠.