본문 바로가기
IT 소식

생성형 AI: 격차 메우기, 문서 정보 추출, 데이터 품질 개선을 위한 솔루션

by FLOUR 2024. 6. 15.
반응형

생성형 AI는 데이터 문제 해결에 유용한 도구로서 격차 메우기, 문서 정보 추출, 데이터 품질 개선 등 다양한 활용 사례를 보여주고 있습니다. 하지만 전문가들은 생성형 AI를 신중하게 사용하고 기존 접근 방식과 함께 사용하는 것이 중요하다고 조언합니다.

 

글로벌 의료 서비스와 정보 격차

현재 저소득 국가에서는 1억 4,300만 명의 환자가 수술을 기다리고 있습니다. 의사와 자원을 투입할 준비가 되어 있는 기관이 있지만, 정보 격차가 큰 걸림돌입니다. 하버드 의대 교수이자 버츄 재단(Virtue Foundation)의 공동 설립자인 조안 라로베레는 다양한 출처의 정보가 집계되지 않고 구조화되지 않은 형식으로 존재한다고 지적했습니다.

버츄 재단은 2002년 설립되어 세계 최대 규모의 NGO 및 의료 시설 데이터베이스를 구축하며, 25개국 이상에서 글로벌 의료 서비스를 제공하고 있습니다. 재단은 의료 원정대를 조직하고, 연구를 수행하며, 의료 장비를 기부하는 등 다양한 활동을 펼치고 있습니다. 이 과정에서 재단의 자원봉사자들은 효율적인 의료 활동을 위해 신뢰할 수 있는 데이터 수집의 중요성을 깨달았습니다.

 

AI의 활용과 데이터 분석

버츄 재단은 다양한 AI 모델을 사용해 데이터베이스 위에 분석 계층을 구축하고 있으며, 데이터브릭스(DataBricks), 데이터로봇(DataRobot) 등의 전문 업체와 협력하고 있습니다. 이들 모델은 전통적인 머신러닝부터 새로운 멀티모달 기술을 포함한 생성형 AI까지 다양합니다.

라로베레는 생성형 AI가 데이터 격차를 메우는 데 기여하고 있다고 강조했습니다. 다음 단계는 기본 데이터 세트를 다른 데이터 소스, 위성 데이터 등으로 보강해 인사이트를 도출하고 상관관계를 파악하는 것입니다. AI의 역량을 통해 보이지 않는 것을 보이게 만들 수 있습니다.

 

생성형 AI의 실험과 활용

버츄 재단뿐만 아니라 많은 기업이 생성형 AI를 실험하고 있습니다. PwC의 브렛 그린스타인은 대부분 기업 데이터가 비정형 및 반정형 문서와 코드, 이미지, 동영상으로 구성되어 있다고 설명합니다. 과거에는 복잡한 맞춤형 솔루션 없이는 이러한 데이터에 접근하기 어려웠지만, 생성형 AI는 문서에서 메타데이터를 추출하고, 정보 및 지식 그래프의 색인을 생성하며, 데이터를 쿼리하고 요약 및 분석하는 데 유용합니다.

IDC에 따르면, 2022년 조직에서 생성되는 데이터의 90%가 비정형 데이터입니다. 기업은 생성형 AI를 사용해 합성 데이터를 생성하고, 학습 데이터 세트에서 민감한 정보를 제거하며, 데이터에 의미와 컨텍스트를 추가할 수 있습니다. 그러나 생성형 AI는 기존 기술보다 속도가 느리고 비용이 많이 들며 때로는 정확도가 떨어질 수 있습니다. 전문가들은 모든 기반이 갖춰지기 전에 성급하게 뛰어들지 말라고 조언합니다.

 

데이터 추출과 품질 관리

지능형 자동화 솔루션 전문업체인 ABBYY는 35년 이상 다양한 유형의 AI/ML을 사용해 문서를 처리했습니다. 챗GPT가 등장하기 전부터 생성형 AI를 사용해왔으며, OCR(Optical Character Recognition)에 이 기술을 적용했습니다. 합성곱 신경망(CNN)과 트랜스포머를 활용해 이미지에서 텍스트를 인식하고, 문맥 단서를 통해 텍스트의 의미를 파악하는 작업을 수행했습니다.

범용 LLM은 리소스 집약적이고 정확도 문제가 있을 수 있지만, 특정 작업에 맞춰 조정된 작은 모델을 사용해 효율성과 정확성을 높일 수 있습니다. 예를 들어, LLM을 사용해 문서의 특정 정보를 파악한 후, 작은 모델로 추출하여 자원 사용량을 최소화하고 정확도를 유지할 수 있습니다.

 

생성형 AI의 활용과 기대치

생성형 AI는 합성 데이터 생성, 테스트 데이터 생성 등 다양한 사용례에서 강력한 도구로 활용될 수 있습니다. 데이터 보안 회사 데세라는 합성 데이터를 사용해 소프트웨어를 테스트하고, 고객 서비스 챗봇을 학습시키는 데 활용하고 있습니다. 합성 데이터는 실제 데이터를 대체할 수 있는 유용한 자원입니다.

그러나 생성형 AI가 기업의 모든 데이터 문제를 해결해주지는 않습니다. AI 및 데이터 컨설팅 회사인 인디시엄의 다니엘 아반치니는 AI가 만병통치약이 아니라고 지적합니다. 데이터 여정을 막 시작한 기업은 우선 우수한 데이터 플랫폼 구축, 데이터 거버넌스 프로세스 설정 등 기본을 바로잡아야 합니다. 생성형 AI는 기존의 베스트 프랙티스를 보완하는 역할을 할 수 있습니다.

 

결론

생성형 AI는 격차 메우기, 문서 정보 추출, 데이터 품질 개선 등 다양한 데이터 문제를 해결할 수 있는 강력한 도구입니다. 그러나 신중하게 사용하고 기존 접근 방식과 함께 사용하는 것이 중요합니다. 기업은 AI의 이점을 최대한 활용하면서도 데이터 관리의 기본을 충실히 해야 합니다. AI를 통해 더 나은 인사이트를 도출하고, 효율성을 극대화하며, 데이터 문제를 효과적으로 해결할 수 있을 것입니다.

반응형