Research Article

Journal of Korean Institute of Architectural Sustainable Environment and Building Systems. 30 December 2022. 465-475
https://doi.org/10.22696/jkiaebs.20220039

ABSTRACT


MAIN

  • 서 론

  • 설비 명판 대상의 문자 인식 오류 유형

  •   설비 명판 대상의 문자 인식 방법

  •   설비 명판 인식 오류 유형

  • 설비 명판 자동인식을 위한 OCR 후처리 방법

  •   경계상자 재구성 방법

  •   항목-값 인식 방법

  •   문자 후처리 방법

  •   문자 유사도 평가 방법

  • 설비 명판 대상의 OCR 후처리 방법 검증

  •   검증 데이터

  •   문자 인식 정확도 평가 결과

  • 결 론

서 론

설비 정보는 건물의 에너지 성능을 평가하기 위한 필수적인 정보 중 하나이다. 설비별로 다른 용량과 효율은 건물의 실제와 예상 에너지 성능의 비교에 유용하게 활용되기 때문이다(Pritoni et al., 2021). 용량과 효율을 비롯해 에너지 성능을 평가하기 위한 설비 정보는 설계 도면에 표시된다. 그러나 에너지 성능 평가가 필요한 노후 건물은 도면이 유실된 경우가 많아 설비 정보를 명판을 통해 획득해야 한다. 설비가 설치된 공간을 방문해 모든 설비를 대상으로 명판에서 필요한 정보를 조사하고 정리하는 과정은 전문가의 노동력에 의존하는 작업이다.

한편, 정보통신 기술의 발전에 따라 많은 산업 분야에서 인공지능과 스마트 센싱 기술을 활용한 생산성의 개선이 시도되고 있다. 특히, 영상으로부터 문자를 인식하는 기술인 광학문자인식(Optical Character Recognition, OCR)은 차량 번호판, 신분증, 여권, 스캔한 문서 등을 촬영한 영상으로부터 필요한 정보를 획득하기 위한 목적으로 널리 활용되고 있다(Brisinello et al., 2019). 건축 분야 역시 OCR을 이용한 문자의 자동 인식을 시도한 연구가 있었다. 초기 연구는 자재 관리 코드(Kim et al., 2014)와 작업 일보(Son, 2010; Shin et al., 2016)를 인식 대상으로 삼았으며, 사전에 정의된 형식을 따르는 문자열과 표를 대상으로 OCR 기술의 적용성을 확인하였다. 최근 Cha et al. (2021)은 업체별로 양식이 다양한 거래명세서를 대상으로 OCR 기술의 적용성을 검토했다. 거래명세서는 한 행에 거래 품목, 수량, 단위, 가격 등 여러 항목의 정보가 표시되는 복잡한 구조이며, 현장에서 수기로 발급되기도 하는 등 문자 인식의 난도가 상대적으로 높다. 해당 연구에서는 양식이 다양한 거래명세서에 대응하기 위한 OCR 기술은 구현이 어려운 것으로 판단하였다.

신분증, 신용카드, 고지서 등의 영상으로부터 특정 값을 인식하는 유사한 기술은 상용화된 바 있다(Park et al., 2019). 그러나 일정한 형식에 따라 문자가 위치하는 신분증과 신용카드와 달리, 명판의 표 형식은 제조사마다 상이하다. 또한, 이름·주민등록번호·카드번호 등 형식이 일정한 값은 정규표현식 등의 기술을 통해 인식할 수 있으나, 설비별로 인식 대상이 다양한 명판은 기존 알고리즘의 적용이 어려울 것으로 예상된다. 다만 설비 명판은 인쇄체로 제작되며, 주로 사양 정보의 항목(key)과 값(value) 문자열의 쌍이 반복적으로 나타나는 반정형적인 표의 형태이다. 따라서 OCR 결과로부터 인식을 원하는 항목 문자열에 대응하는 값 문자열을 인식하는 알고리즘을 통해 설비 조사 과정을 효율화할 수 있을 것으로 기대된다.

이에 본 연구에서는 설비 명판에 대한 OCR 기술의 적용성을 검토하고, 인식 오류를 개선할 수 있는 후처리 방법을 제안한다. 이를 위해 기존 OCR 기술을 설비 명판을 대상으로 적용하면 발생하는 오류의 유형을 분석한다. 이후, 오류를 개선하기 위한 후처리 방법을 제안한다. 제안한 방법은 실제 현장에서 수집한 설비 명판을 대상으로 성능을 검증한다.

설비 명판 대상의 문자 인식 오류 유형

설비 명판 대상의 문자 인식 방법

명판 영상의 문자 인식을 위해 EasyOCR 프레임워크를 활용한다(EasyOCR, 2021). EasyOCR은 인공신경망 기반의 오픈소스 소프트웨어로, 현재 널리 사용되는 OCR 프로그램 중 하나이다. EacyOCR은 영상 내 글자가 위치한 경계상자(Bounding Box)의 위치를 추정하는 CRAFT 모델(Baek et al., 2019), 그리고 합성곱 신경망과 순환 신경망의 결합을 통해 경계상자 내 영상으로부터 문자를 인식하는 CRNN 모델로 구성된다.

Figure 1은 EasyOCR을 통한 문자 인식 예시이다. CRAFT 모델을 통해 추정한 경계상자(좌측 푸른색 사각형)별로 인식된 문자(text), 신뢰도(confident), 경계상자의 좌표가 출력된다. OCR 결과는 인식한 문자와 좌표 정보만을 포함하며, 인식된 단어 중 항목과 값의 관계는 알 수 없다. 설비 정보를 표시한 명판은 일반적으로 좌측에 항목, 우측에 값의 문자열을 표시한 반정형의 표 형태이다. 이를 고려하여 본 시험에서는 평가 대상 항목의 우측에 있는 경계상자의 문자 인식 결과를 값으로 가정한다.

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F1.jpg
Figure 1.

Korean and English characters recognized using EasyOCR framework

설비 명판 인식 오류 유형

Figure 2는 설비 명판에서 인식한 항목과 값의 예시이다. 첫 열은 경계상자 인식 결과, 가운데 열은 문자 인식 결과, 마지막 열은 참값(ground truth)이다. 설비 명판의 인식 오류는 크게 두 유형으로 구분할 수 있으며, 첫 번째 유형은 경계상자의 인식 실패이다. 명판의 표시 정보는 주로 항목(한글), 수치(숫자와 알파벳), 단위(알파벳과 특수문자)가 순서대로 반복되며, 각 문자열 사이 간격이 존재한다. CRAFT 모델은 신경망을 통해 추정한 문자의 분포 확률로부터 경계상자를 인식하며, 문자의 내용은 고려하지 않는다(Baek et al., 2019). 이로 인해 자간이 넓은 Figure 2(b)의 “냉동능력” 항목이 “냉동능”과 “력”으로 분리되었으며, 다수의 값 문자열의 숫자와 단위가 별도의 경계상자로 인식되었다(유형 1.1). 또한, Figure 2(a)의 “형”과 같이 흐릿한 글자의 위치를 인식하지 못하는 오류가 발생할 수 있다(유형 1.2).

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F2.jpg
Figure 2.

Detected key-value characters by OCR framework

두 번째 오류 유형은 유사한 문자의 오인식이다. 시험 결과 단위의 특수문자 “/”를 알파벳 “ℓ”로 인식하여 값 문자열의 단위 인식에 실패하는 현상이 반복적으로 나타났다(유형 2.1). 또한, 값에 해당하는 기기의 모델명(BO-500GN)과 사양(500 kg/h)에 포함된 숫자 “0”을 알파벳 “O”로 인식하는 등 유사한 문자를 오인하는 오류가 발생했다(유형 2.2).

설비 명판은 표 양식에 따라 띄어쓰기 간격이 일정하지 않은 경우가 많다. 따라서 명판 OCR의 정확도를 개선하기 위해, 글자 간 간격이 아닌 문자열의 내용을 기반으로 경계상자를 인식하는 방법이 요구된다. 또한, 형상이 유사한 특수문자, 알파벳, 숫자 간 인식 오류를 개선하는 방법이 필요하다.

설비 명판 자동인식을 위한 OCR 후처리 방법

본 연구에서는 설비 명판을 대상으로 적용한 OCR 결과의 인식 오류를 개선할 수 있는 후처리 방법을 제안한다. Figure 3은 제안하는 후처리 과정 및 정확도 평가 과정, Figure 4는 후처리 과정의 데이터 처리 예시이다. 우선 OCR을 통해 영상 문자 경계상자의 좌표와 대응되는 문자를 인식한다. 글자 간격으로 인한 경계상자의 인식 오류를 보정하기 위해 문자열을 기반으로 같은 행의 경계상자를 통합한다(Figure 4(b)). 재구성된 경계상자 중 분석자가 지정한 인식 항목(“형식”, “전력” 등)과 유사한 경계상자를 탐색한다. 인식된 항목에서 이어지는 문자열 또는 경계상자로부터 값을 추정한 후, 문자 인식 오류를 보정하기 위한 후처리 과정을 거친다(Figure 4(c)). 후처리 방법의 정확도는 인식된 값과 참값의 유사도를 통해 평가한다. 문자열의 유사도 평가에는 근접 문자열 탐색에 이용되는 레벤슈타인 거리(Levenshtein distance) 지표를 이용한다. 이때 자모 일부가 다른 문자열의 유사성을 평가하기 위해 한글 낱자를 분리한 문자열의 유사도를 평가한다(e.g. “유량”을 “ㅇㅠㄹㅑㅇ”으로 분리).

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F3.jpg
Figure 3.

Post-processing and evaluation procedure of nameplate OCR results

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F4.jpg
Figure 4.

Post-processing of OCR results

경계상자 재구성 방법

Figure 5는 오류 유형 1.1을 보정하기 위한 경계상자 재구성 과정으로, 글자 간 간격으로 인해 여러 경계상자로 분리된 문자열을 통합한다. 경계상자 재구성의 첫 단계는 행 검출이다(Figure 5(a)). 명판은 주로 한 행에 항목과 값이 번갈아 표시되며, 이를 고려해 OCR 인식 결과 중 같은 행에 속하는 경계상자를 인식한다. 이때, 경계상자의 y축 중심 좌표가 가장 왼쪽에 있는 경계상자의 y 좌표 범위 안이면 같은 행으로 판단한다.

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F5.jpg
Figure 5.

Bounding box reconstruction

두 번째 단계에서는 같은 행에 속한 경계상자를 문자열의 내용을 고려한 규칙에 따라 통합 또는 분리한다(Figure 5(b)). 국내 유통되는 기기의 명판은 항목은 한글로, 값은 영문과 숫자, 그리고 단위의 표기를 위한 특수문자로 구성되는 경우가 많다. 이를 고려하여 본 연구에서는 세 개의 분할 규칙을 시험한다. Lang 규칙은 항목과 값의 분리를 위한 규칙으로, 좌우 경계상자 중 한쪽에만 한글이 존재하는 경우 두 상자 사이를 나눈다. KR과 Unit 규칙은 같은 행에 있는 항목-값 쌍을 분리하기 위한 규칙이다. KR 규칙은 한글을 포함하는 경계상자를 항목으로 추정하고 왼쪽의 경계상자와 분리한다. Unit 규칙은 “1 Φ 220V 60 Hz”와 같이 단위로 끝나는 경계상자를 값의 마지막으로 추정하고 오른쪽의 경계상자와 분리한다. 세 가지 분리 규칙은 독립적으로 적용 여부를 결정할 수 있다.

항목-값 인식 방법

재구성된 경계상자는 항목과 값 문자열 중 하나만을 포함할 수도, 항목-값의 쌍을 모두 포함할 수도 있다. 본 연구에서는 Figure 6과 같이 두 가지 경우에 모두 대응할 수 있는 항목-값 인식 방법을 제안한다. 먼저 탐색할 항목과 문자 유사도가 가장 높은 경계상자를 선정한다. 해당 경계상자에는 항목과 값이 순서대로 존재할 수도, 항목만 포함할 수도 있다. 대상 경계상자의 문자를 공백 혹은 특수문자(“-”, “:” 등)를 기준으로 구분한 뒤, 좌측부터 모든 글자의 누적합을 얻는다. 각 누적합에 대해 탐색 대상과 유사도를 평가하고 가장 유사도가 높은 문자열을 항목으로 판단한다. 유사도 기반의 탐색을 통해 문자 일부가 인식되지 않은 경우(오류 유형 1.2)에도 가장 적합한 항목 문자열을 인식할 수 있다.

항목 문자열을 제외한 우측의 나머지 문자 중 한글, 영어, 숫자가 존재하는 경우 해당 항목 대응되는 값으로 판단한다(Figure 6(a)). 나머지 문자가 없거나 공백과 특수문자만으로 구성된 경우, 항목의 경계상자와 같은 행에서 오른쪽에 있는 경계상자의 문자를 값으로 추정한다(Figure 6(b)). 오른쪽에 경계상자가 존재하지 않는 경우 인식 실패로 간주한다.

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F6.jpg
Figure 6.

Key-value recognition

문자 후처리 방법

마지막으로 값 문자열의 인식 오류를 개선하기 위해 두 단계로 구성된 보정 방법을 적용한다(Table 1). 첫 단계에서 오류 유형 1.1과 경계상자 재구성 과정의 오류를 수정한다. Figure 5(d)의 “전원” 항목과 같이 항목을 구성하는 문자 간 간격이 넓은 경우 마지막 글자가 값의 경계상자에 포함될 수 있다. 이를 고려하여 인식된 값의 첫 번째 글자만 한글일 때 이를 제거한다. 또한, 값의 앞뒤에 공백 또는 특수문자(“:”, “,” 등)가 존재하는 경우 마찬가지로 제거한다.

두 번째 단계는 유사한 문자의 OCR 인식 오류 보정이다. 인식 시 앞선 OCR 적용성 평가 결과와 같이 단위에 포함된 “/”를 알파벳 “ℓ”로(오류 유형 2.1), 숫자 “0”을 알파벳 “O”로 잘못 인식할 수 있다(오류 유형 2.2). 이를 보정하기 위해 “/”를 “ℓ”로 치환한 단위 데이터 세트를 구축하여 인식된 값의 마지막 글자가 일치하는 경우 올바른 표기로 수정한다. 또한, 숫자 혹은 “,”에 뒤따르는 대소문자 “O”는 숫자 “0”으로 변환한다. Table 1의 예시에서 숫자로 추정되는 “5,OOO”와 “5OO”의 알파벳 “O”는 “0”으로 수정되며, 모델명의 알파벳 부분인 “BO”는 변경되지 않는다.

Table 1.

Dataset specification

Type of Error Recognized Value Ground Truth Correction
Classification error of last key character “원 1 Φ 220V 60 Hz” “1 Φ 220V 60 Hz” ‧Remove single leading Korean character
‧Remove leading white space and special characters
“력 : 10 W” “10 W”
Recognition error of similar character “5,OOO kglh” “5,000 kg/h” ‧Correct unit text by comparing with the dataset
‧Replace “O” following number or comma with “0”
“BO-5OOGN” “BO-500GN”

문자 유사도 평가 방법

탐색 대상 항목과 유사한 문자열의 탐색, 그리고 최종 인식되는 값 문자열의 정확도를 평가하기 위해선 두 문자열 간 유사도를 정량적으로 평가해야 한다. 본 연구에서는 레벤슈타인 거리 기반의 문자 유사도를 적용하였다(Schulz and Mihov, 2002; Zhang et al., 2017). 레벤슈타인 거리는 두 순열의 차이를 평가하기 위한 지표로, 문자열의 경우 두 문자를 일치시키는 데 필요한 편집(글자 변경, 삽입, 삭제) 횟수를 의미한다. 유사도는 두 문자열에 포함된 문자의 개수로 공통되는 문자의 수를 표준화한 지표이며 [0, 1]의 범위를 가진다. 다음 식 (1)(2)는 레벤슈타인 거리와 문자 유사도의 계산식이다.

(1)
dL(a,b)=dL(atail,btail)1+min(dL(atail,b),dL(a,btail),dL(atail,btail))ifa0=b0ifa0b0
(2)
sL(a,b)=1-dL(a,b)L(a,b)

여기서, dL(a,b)는 문자열 ab의 레벤슈타인 거리, sL(a,b)는 두 문자열의 유사도, L(a,b)는 두 문자열의 중복을 제외한 문자 개수의 합이다. a0a의 첫 문자, ataila에서 첫 문자를 제외한 문자열을 의미한다.

설비 명판 대상의 OCR 후처리 방법 검증

검증 데이터

본 연구에서 제안한 OCR 후처리 방법의 성능을 검증하기 위해서 실제 건물에 설치된 설비 명판을 대상으로 영상을 촬영하였다. 모든 영상은 명판의 중앙에서 수직 방향으로 촬영한 직사각형 영상으로 수정(rectification)하였다. 현장촬영 시 스마트폰의 문서 스캔 어플 등으로 이와 같은 영상을 촬영할 수 있다. OCR 인식 정확도를 위해 대각선 방향 해상도가 2,000 픽셀 이상인 영상만을 대상으로 하였다. OCR로 인식한 항목-값 문자열과 비교 분석을 위해 난방기, 냉난방기, 온수기, 태양광 모듈에 대해 Table 2와 같은 항목-값 문자열의 참값 데이터 세트를 구축했다. 모든 기기를 대상으로 모델명, 전원, 소비전력 데이터를 수집했으며, 설비의 종류에 따라 Table 2에 표기된 항목을 추가로 수집했다.

Table 2.

Dataset specification

Equipment Number of Images Number of Data Key
Heater 6 30 Thermal efficiency, Power, Evaporation capacity, Fuel consumption
Air Conditioner 4 15 Heating·Cooling capacity, Power
Water Heater 3 12 Rated capacity
PV Module 2 12 PMPP,VMPP,IMPP (Power, voltage, current on maximum power point), VOC (Open Circuit Voltage), ISC (Short Circuit Current)

문자 인식 정확도 평가 결과

다음 Figure 7은 냉난방기 명판의 OCR 인식 및 후처리 결과 예시이다. 문자 간 간격이 넓은 대상 명판의 특성으로 인해 기본 OCR 방법은 모든 항목을 두 개의 경계상자로 인식했으며, 항목 문자 일부를 값으로 잘못 인식하였다(Figure 6(b)). 또한, “력”을 유사한 형상의 “턱”으로, “kcal/h”를 “kcallh”로, “Φ”를 “9”로 인식하는 오류가 발생했다.

Lang 분할 규칙을 적용한 후처리 결과 항목과 값 모두 참값과 일치하는 경계상자의 인식에 성공하였다(Figure 7(c)). 특히 “난방능력” 항목의 경우, OCR 인식 오류로 인해 항목 마지막 글자를 “턱”으로 잘못 인식했으나 문자 유사도 기반의 탐색 방법을 통해 항목 경계상자의 인식에 성공했으며 후처리 알고리즘을 통해 단위 “kcal/h”의 인식 오류를 정정하였다. KR 규칙의 경우 항목 일부가 값의 경계상자로 잘못 분류되었으나 유사도 기반 항목 탐색과 값의 앞 한글을 제외하는 후처리 알고리즘을 통해 Lang 규칙과 같은 값을 인식했다(Figure 7(d)).

Unit 분할 규칙을 적용한 후처리 알고리즘은 항목과 값을 하나의 경계상자로 분류하고 항목-값 인식 과정에서 두 문자열을 분리하였다(Figure 7(e)). 그러나 값에 단위 정보가 없는 “형식” 항목 이후 경계상자가 분할되지 않아, 오른쪽의 “온수 출구 60℃” 문자가 일부 포함되는 오류가 발생했다. 설비 명판에 모델명 외에 제조사, 제조일자·번호 등 단위가 없는 정보가 다수 포함되는 점을 고려할 때, Unit 규칙은 단독으로 적용하지 않고 다른 규칙과 조합하여 사용해야 할 것으로 판단된다.

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F7.jpg
Figure 7.

Detected key-value characters by post-processing

Figure 8은 후처리 알고리즘별로 추정한 값의 문자열과 참값의 유사도를 통해 인식 정확도를 평가한 결과로, 오차 막대는 표준오차를 의미한다. 가장 높은 정확도를 보인 분리 규칙은 KR-Unit으로, 평균 유사도가 기본 OCR보다 0.192 높은 0.850으로 산정되었다. 시험 대상 명판에는 용도, 사용 가스, 품명 등 항목과 값이 모두 한글로 표기된 항목이 다수 존재했다. Lang 규칙 적용 시 연달아 나타난 한글 항목을 하나의 경계상자로 인식하는 오류가 다수 발생했으나, KR 규칙은 항목과 값을 별도의 경계상자로 분류해 일부 값 인식에 성공하였다.

https://static.apub.kr/journalsite/sites/kiaebs/2022-016-06/N0280160603/images/Figure_KIAEBS_16_6_03_F8.jpg
Figure 8.

The similarity of value text by post-processing method

규칙 대부분이 기본 OCR 결과보다 개선된 인식 정확도를 보였으나, Unit 규칙을 단독으로 적용한 경우 정확도는 기본 OCR보다 낮은 0.613으로 산정되었다. Figure 7(e)와 같이 값에 단위를 포함하지 않는 모델명 문자의 인식 과정에서 발생하는 오류 때문으로 분석된다. 반면 Unit 규칙을 다른 분할 규칙과 조합하는 경우 예외 없이 정확도가 개선되었다. 예를 들어 세 규칙을 모두 적용한 Lang-KR-Unit 후처리는 Lang-KR보다 0.073 높은 정확도가 산정되었다. Unit 규칙이 탐지하는 물리량의 단위는 “kcal”과 같이 일반적인 단어에 나타나지 않는 알파벳 조합을 다수 포함한다. 따라서 대상 값 문자열에 단위가 포함된 경우 분리 오류가 발생할 확률이 낮아 경계상자 분리를 위한 보조 규칙으로서 기능한 것으로 판단된다.

결 론

본 연구에서는 건물 에너지 검진의 효율화를 목표로 설비 조사 작업에 대한 OCR 기술의 적용성을 평가하고 문자 인식 정확도를 개선하기 위한 후처리 방법을 제안하였다. OCR 결과는 인식된 문자 데이터와 문자가 위치한 경계상자의 좌표를 포함한다. 명판에 기재된 성능 정보는 일반적으로 항목 문자열에 대응되는 값의 문자열이 오른쪽에 표시된다. 기본 OCR 결과의 적용성을 평가하기 위해 인식된 문자 중 평가 대상 항목과 유사도가 가장 높은 문자열을 항목으로, 그 오른쪽에 위치한 문자열을 대응되는 값으로 추정하였다. 그 결과, 기존 OCR 방법을 적용하여 추정한 값과 참값의 유사도는 0.658로 평가되었다.

값의 인식 정확도를 개선하기 위해 설비 명판의 특성을 고려한 OCR 결과의 후처리 방법을 제안하였다. 설비 사양이 주로 표의 형식으로 기재되는 점에 착안해, 같은 행의 경계상자를 묶은 후 일정 규칙에 따라 분할하여 항목-값을 구분하는 방법론을 제안하였다. 또한, 인식된 값에 해당하는 경계상자 내 문자를 대상으로 “0”, “/” 등 물리량 표기에 자주 나타나는 문자 인식 오류의 후보정 방법을 제안하였다. 후보정을 거친 OCR 결과의 값 인식 정확도는 기본 OCR 결과보다 최대 0.192 높은 0.850으로 나타났다.

OCR 프레임워크는 일반적으로 문자의 상대적 위치만을 고려해 경계상자를 추정한다. 이에 따라 자간이 넓은 글, 값과 단위 사이의 띄어쓰기 등에서 경계상자의 인식 오류가 발생했다. 본 연구에서 적용한 경계상자의 분할 규칙은 문자열 내용을 바탕으로 경계상자 인식 정확도의 개선 가능성을 확인했다. 향후 연구에서는 순환신경망 등 자연어 처리에 특화된 모델을 통해 경계상자의 의미론적인 인식이 가능할 것으로 기대된다.

Acknowledgements

본 연구는 산업통상자원부(MOTIE)와 한국에너지기술평가원(KETEP)의 지원을 받아 수행한 연구 과제입니다(No. 20202020800360).

References

1
Cha, H.-S., Choe, B.-J., Kim, J.-H., Lee, S.-Y., Kim, T.-H., An, E.-C., Kim, G.-W. (2021). Suggestions on problems in field application and improvement of smart construction technology -Focused on the application of DL E&C-. Construction Engineering and Management, 22(6), 34-41.
2
Kim, J.-S., Chin, S., Yoon, S.-W. (2014). A Study on the Applicability of Character Recognition Technology for Construction Supply Chain Management of Structural Steel Components and Precast Concrete Works. Korean Journal of Construction Engineering and Management, 15, 20-29. 10.6106/KJCEM.2014.15.4.020
3
Pritoni, M., Paine, D., Fierro, G., Mosiman, C., Poplawski, M., Saha, A., Bender, J., Granderson, J. (2021). Metadata schemas and ontologies for building energy applications: A critical review and use case analysis. Energies, 14(7), 2024. 10.3390/en14072024
4
Schulz, K.U., Mihov, S. (2002). Fast string correction with Levenshtein automata. International Journal on Document Analysis and Recognition, 5(1), 67-85. 10.1007/s10032-002-0082-8
5
Shin, Y., Kim, D., Kim, T.-Y., Kim, G.-H. (2016). Daily Reporting System using Digital Pen at Construction Site. Journal of the Korea Institute of Building Construction, 16, 177-183. 10.5345/JKIBC.2016.16.2.177
6
Son, B.-K. (2010). A Study for Improving Building Construction Management Productivity using Digital Pen System. Journal of the Korea Entertainment Industry Association, 4, 23-33. DBpia. DOI: 10.21184/jkeia.2010.09.4.3.23.
7
Brisinello, M., Grbić, R., Vranješ, M., Vranješ, D. (2019). Review on Text Detection Methods on Scene Images. 2019 International Symposium ELMAR, 51-56. DOI: 10.1109/ELMAR.2019.8918680.
8
Zhang, S., Hu, Y., Bian, G. (2017). Research on string similarity algorithm based on Levenshtein Distance. 2017 IEEE 2nd Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), 2247-2251. 10.1109/IAEAC.2017.8054419
9
Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H. (2019). CORD: A consolidated receipt dataset for post-OCR parsing. Workshop on Document Intelligence at NeurIPS 2019.
10
Baek, Y., Lee, B., Han, D., Yun, S., Lee, H. (2019). Character Region Awareness for Text Detection. ArXiv:1904.01941 [Cs]. Available at: http://arxiv.org/abs/1904.01941. 10.1109/CVPR.2019.00959
11
EasyOCR. (2021). [Python]. Jaided AI. Available at: https://github.com/JaidedAI/EasyOCR (Original work published 2020).
페이지 상단으로 이동하기