유용한정보

이미지 파일이나 PDF 파일의 텍스트 추출해주는 사이트

JobDong 2021. 2. 3. 07:52
반응형

이미지 파일이나 PDF 파일의 텍스트 추출해야 하거나 하고 싶을 때가 컴퓨터를 하다 보면 종종 있기 마련입니다. 물론 적은 글자 수를 따라 치는 건 어렵지 않겠지만 몇 페이지씩 되는 경우는 많은 시간을 할애해야 하는데요. 지금 안내해드릴 사이트는 이미지나 PDF 파일을 등록하여 파일 안의 텍스트를 언어별로 추출이 가능하니 사용해보시면 좋겠습니다.

 

i2ocr.com의 메인페이지

사이트는 심플합니다. 아래 링크를 들어가시면 위 페이지가 보이실 겁니다.

 

www.i2ocr.com/

 

i2OCR - Free Online OCR

i2OCR is a free online Optical Character Recognition (OCR) that extracts text from images so that it can be edited, formatted, indexed, searched, or translated.

www.i2ocr.com

i2ocr 사이트를 처음 접속하시면 쿠키 사용에 대한 물음이 나올 겁니다. 최근 무료 유틸리티 사이트 들은 무료로 기능을 제공하고 광고나 쿠키 사용으로 사용자에게 수익을 발생시키는 것 같네요. 어차피 유용하게 쓰고 쿠키를 삭제하면 되니 부담 없이 허용을 해줍니다.

 

 

이미지,PDF 를 선택하여 추출가능합니다.

조금만 스크롤을 내려보면 이미지의 텍스트 추출이 가능한 Image OCR 탭과 PDF 파일의 텍스트 추출이 가능한 PDF OCR 탭이 있습니다. 사용방법은 똑같으니 간단하게 사용하실 수 있습니다. 

STEP 1에서 언어를 우선 선택합니다. 약 100여개국의 언어 선택이 가능하니 추출한 언어 위주로 선택하시면 됩니다. 물론 Korea 한국어도 있습니다.

 

STEP1.언어선택

언어를 선택했다면 STEP2의 file , 이나 URL을 선택하여 추출하고 싶은 이미지 파일을 적용하세요. File의 경우는 하단에 Selet Image 버튼을 이용해 파일 탐색기에서 이미지 선택이 가능합니다. 만약 웹문서라면 URL을 선택하여 http 경로를 입력해주세요.

 

STEP2. 이미지선택(서울특별시 로고를 적용해보았습니다)

마지막으로 STEP3에 로봇 아님의 체크를 하시고 Extract Text 버튼을 콕하고 눌러주세요.

 

STEP3. 추출완료!! 서울특별시가 추출된 모습이 보입니다.

로딩과 함께 완료되면 하단에 위 그림처럼 추출된 텍스트가 나옵니다. 한국어로 선택했더니 서울특별시만 정확하게 추출되었네요. 영어로 할 경우 서울특별시는 안 나오고 하단의 영문만 추출이 됩니다. 참 신기한 녀석이죠?

 

가끔 PDF 파일이나 이미지 파일에서 텍스트를 추출하거나 옮겨 적어야할때가 있습니다. i2ocr 사이트를 이용하신다면 조금이나마 편하게 텍스트를 추출할 수 있지 않을까 생각됩니다.

반응형