안녕하세요, 우천복지재단입니다. 최근 ChatGPT를 시작으로 생성형 AI에 대한 관심이 높아지고 있습니다. 여러가지 협업을 함께 해보려고 ChatGPT에게 물어보면, 상식 수준의 대답이나 일반론에서 멈춘 것을 볼 수 있고, 거짓말도 종종 그럴듯하게 합니다.
그래서 사회복지계에 있는 방대한 PDF 자료를 기반으로 제한된 범위에서 검증된 사실을 기반으로 대답하는 모델을 만들어보고 싶었습니다.
특히 우천복지재단은 북한이탈주민 지원에 관심이 많아서, 북한이탈주민 특화 모델이면 어떨까 했습니다. 또한 재단의 주요 사업과 대상자에 관한 데이터도 선별해서 올릴 예정입니다.
사전에 입력된 데이터 기반으로 대답하도록 했고, 가급적이면 추측, 상상 등은 못하게 했습니다. 여기서 나오는 결과에 대해 아직은 큰 의미를 부여하지 마시고, 경험 삼아 해보시면 어떨까 합니다.
추후 여력이 된다면 보내주시는 다양한 데이터도 선별하여 업로드 하겠습니다.
북한이탈주민 생계급여 관련해서 질문을 했고, 표에 넣어서 답을 보여줬습니다.
그런데 이게 처음에는 잘 모르겠다고 계속 대답을 했고, 5번째 같은 질문을 하니 나왔습니다.
여기에 대해 해석을 물었는데 엉뚱한 대답을 합니다. 해석은 직접 하는게 좋겠습니다.
추후 GPT-4 모델로 하면 좀 달라질 것 같습니다.
생성형 AI는 어떻게 질문하고, 작업을 요청하는지에 따라 대답의 품질이 달라집니다.
여러분께서 입력해보신, 효과적이고 좋은 질문(프롬프트)을 공유해주시면 다른 분들께 도움이 될것 같아요~!!
MS Azure크레딧을 활용해 실험적으로 제작했습니다. 그러다보니 Azure 전용 영문 데모를 수정해서 사용하고 있고, 한계가 있습니다. OpenAI사의 API를 직접 사용하거나 Meta의 LLAMA도 있는데, 비용상 당장은 어렵습니다.
GPT3 기반의 모델은 한번에 처리할 수 있는 텍스트 양이 적어서(토큰제한), 학습한 데이터인데도 못찾는 경우가 있습니다. (추후 GPT-4로 해결. 다만 고비용)
원본 PDF파일에서 글씨를 추출해서 사용하고 있는데, 원본의 품질에 영향을 많이 받습니다. 이어진 줄글이 많을수록 결과가 좋습니다.
처음에는 "잘 모르겠다"는 대답을 할 때가 종종 있습니다. 그러면 유사하거나 같은 질문을 여러 번 하면 답이 나옵니다.
아래 목록에서 현재까지 등록한 문서를 확인하시고, 추가로 업로드하기 원하시는 데이터가 있다면 직접 목록에 작성해주세요.
사전에 OCR 처리가 된 PDF만 올려주시길 바랍니다. (PDF 안에서 글씨를 복사하거나 검색할 수 있으면 됩니다)
제가 비정기적으로 업로드하고, 체크합니다. (당분간은 어렵습니다)
목록에 올리기 전에 자료의 저작권을 사전에 확인하시어 주시기 바랍니다.
목록 작성 후, 아래 구글드라이브 폴더에 자료를 직접 업로드 해주시면 더 좋습니다.
MS Azure OpenAI의 대규모 언어모델(LLM)을 기반으로 Azure Cognitive Search를 통해 ChatGPT 스타일 환경을 구현했습니다.
원소스 출처 : https://github.com/Azure-Samples/azure-search-openai-demo
모델 : OpenAI text-davinci-003 & gpt-3.5-turbo
(추후 GPT-4 사용 승인을 받으면 비용을 고려하여 모델을 변경할 예정입니다.)
세부 과정을 조금 더 설명하자면 이런 과정을 거치게 됩니다.
제한된 데이터 안에서만 대답하도록 하고, 몇가지 질문과 답변 패턴 사전 학습
PDF 파일을 업로드하면 페이지 별로 쪼개고 TEXT 추출, 연결하여 저장
질문을 하면 GPT 모델을 통해 Azure Cognitive Search 로 검색해서 답변 생성
그리고 사전에 어떤 데이터를 학습시키는지에 따라 AI의 대답 내용이나 품질이 달라집니다.
물론 이 사이트는 단순히 PDF 지도를 만들어서 대답하도록 하는 수준의 작업이지만, 언젠가는 사회복지 언어 (질문과 답변) 세트 5만개 정도 만들어서 Fine-tuning도 해보고 싶네요.