Community

커뮤니티
게시판 상세보기
퀄리타스반도체, PCIe · 칩렛 인터페이스 쌍끌이로 흑자전환 목표(124.216.252.182)
작성자 HELLO 작성일 24-10-04 14:41 조회 37

네이버 슬롯사이트검증 Search CIC에서는 지난 10월 14일부터 15일까지 진행된 ‘한글 및 한국어 정보처리 학술대회(이하 HCLT, Human&Cognitive Language Technology) 2021’에서 다양한 연구 성과를 논문으로 발표했습니다. 올해로 33회를 맞은 HCLT는 AI 기술을 접목한 한국어 처리 기술 개발과 연구 성과를 공유하는 국내에서 가장 권위 있는 학회로, 매년 한글날 전후로 개최됩니다. 네이버는 2014년부터 매년 한국어 처리 기술 관련 다양한 연구 성과를 이 자리에서 공유하고 있으며, 특히, 올해 HCLT에서 채택한 논문은 총 15건으로, 전년 대비 2.5배 증가하는 성과를 올렸습니다.​네이버 Search CIC는 이번 학회 발표를 통해 네이버의 독보적인 한국어 처리 기술 및 연구 수준을 선보였을 뿐 아니라, 외부 연구자들과 활발히 연구 성과를 공유하며 국내 AI 연구 수준 향상에도 기여할 수 있었습니다. ​HCLT에서 발표한 연구 중 일부는 네이버 검색 서비스에 적용돼 사용자들에게 새로운 경험을 제공하고 있습니다. ▲음성 대화 시스템의 슬롯 교정에 대한 연구는 AI 스피커의 음악 재생 기능에 적용되었으며, ▲Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화 연구는 네이버앱 음성 검색의 검색 결과 및 질의 추천에 적용됐습니다. ▲검색의도에 적합한 스니펫 추출 연구는 사용자들에게 보다 빠르게 정확한 정보를 제공하는 지식스니펫 서비스에 적용됐으며, ▲위키데이터 기반 분류체계 연구와 ▲ 메타블로킹 연구는 사용자가 노래 제목을 검색했을 때 지식베이스에서 음원사이트로 바로 연결되는 기능으로 구현되었습니다.​이와 관련해 네이버가 발표한 논문의 제목과 요약 내용을 소개해드리며, 구체적인 내용은 논문집을 통해서 확인하실 수 있습니다.​​​자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축정재환 (Stanford University), 전동현, 김선훈, 강인호 (네이버)한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한 다. 본 연구는 임의의 근거를 기반으로 슬롯사이트검증 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.​HyperCLOVA를 이용한 한국어 Fact 검증을 위한 자동 데이터 생성이종현, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)현대 사회에서 소셜 네트워킹 서비스의 증가와 확산은 많은 정보를 쉽고 빠르게 얻을 수 있도록 하였지만 허위·과장 정보의 확산이 큰 문제로 자리잡고 있다. 최근 해외에서는 이들을 자동으로 분류 및 판별하고자하는 Fact 검증 모델에 관한 연구 및 모델 학습을 위한 데이터의 제작 및 배포가 활발히 이루어지고 있다. 그러나 아직 국내에서는 한국어 Fact 검증을 위한 데이터가 많이 부족한 상황이기 때문에 본 논문에서는 최근 좋은 성능을 보이는 openai 의 GPT-3 를 한국어 태스크에 적용시킨 HyperCLOVA 를 이용하여 한국어 Fact 검증 데이터 셋을 자동으로 구축하고 이를 최신 Fact 검증 모델들에 적용하였을 때의 성능을 측정 및 분석 하고자 하였다.증거와 Claim의 LM Perplexity를 이용한 Zero-shot 사실 검증박은환, 나승훈 (전북대학교), 신동욱, 전동현, 강인호 (네이버)최근 국외에서 사실 검증 연구가 활발하게 이루어지고 있지만 한국어의 경우 데이터 집합의 부재로 인하여 사실 검증 연구가 이루어지는데 큰 어려움을 겪고 있다. 이러한 어려움을 해소하고자 자동 생성 모델을 통하여 데이터 집합을 생성하는 시도도 있으나 생성 모델의 특성 상 부정확한 데이터가 생성되어 사실 검증 연구의 퀄리티를 떨어뜨린다는 문제점이 슬롯사이트검증 있다. 이러한 문제점을 해소하기 위해 수동으로 구축한 100건의 데이터 집합으로 최근에 이루어진 퓨-샷(Few-Shot) 사실 검증을 확장한 학습이 필요 없는 제로-샷(Zero-Shot) 질의 응답에 대한 사실 검증 연구를 제안한다.XH-DQN: 사실 검증을 위한 그래프 Transformer와 DQN 결합 모델서민택, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)사실 검증(Fact verification) 문제는 문서 검색(Document retrieval), 증거 선택(Evidence selection), 증거 검증(Claim verification) 3가지 단계로 구성되어있다. 사실 검증 모델들의 주요 관심사인 증거 검증 단계에서 많은 모델이 제안되는 가운데 증거 선택 단계에 집중하여 강화 학습을 통해 해결한 모델이 제안되었다. 그래프 기반의 모델과 강화 학습 기반의 사실 검증 모델을 소개하고 각 모델을 한국어 사실 검증에 적용해본다. 또한, 두 모델을 같이 사용하여 각 모델의 장점을 가지는 부분을 병렬적으로 결합한 모델의 성능과 증거의 구성 단위에 따른 성능도 비교한다.Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상김성주, 김선훈, 박진성, 유강민, 강인호 (네이버)BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 슬롯사이트검증 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.[Prefix-tuning에 기반한 한국어 자연언어 처리민진우, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)현재 BERT와 같은 대용량의 코퍼스로부터 학습된 사전 학습 언어 모델을 자연어 응용 태스크에 적용하기 위해 일반적으로 널리 사용되는 방법은 Fine-tuning으로 각 응용 태스크에 적용 시 모델의 모든 파라미터를 조정하기 때문에 모든 파라미터를 조정하는데 필요한 시간적 비용과 함께 업데이트된 파라미터를 저장하기 위한 별도의 저장공간이 요구된다. 언어 모델이 커지면 커질수록 저장 공간의 비용이 증대됨에 따라 이러한 언어모델을 효율적으로 튜닝 할 수 있는 방법들이 연구되었다. 본 연구에서는 문장의 입력 임베딩에 연속적 태스크 특화 벡터인 prefix를 추가하여 해당 prefix와 관련된 파라미터만 튜닝하는 prefix-tuning을 한국어 네이버 감성 분석 데이터 셋에 적용 후 실험결과를 보인다.​Span Matrix를 이용한 다중 범위 추출 기계독해 시스템장영진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)기계독해 시스템은 주어진 질문에 대한 답변을 문서에서 찾아 사용자에게 제공해주는 질의응답 작업 중 하나이다. 기존의 기계독해는 대부분 문서에 존재하는 짧고 간결한 답변 추출 문제를 풀고자 했으며 최근엔 불연속적인 범위를 추출하는 등의 확장된 문제를 다루는 데이터가 공개되었다. 불연속적인 답변 추출은 실제 애플리케이션에서 사용자에게 정보를 유연하게 제공해줄 수 있다. 따라서 본 논문에서는 기존의 간결한 단일 범위 추출에서 확장된 다중 범위 추출 시스템을 제안하고자 한다. 제안 모델은 문서를 구성하는 모든 토큰의 조합으로 구성된 Span Matrix를 통하여 다중 범위 추출 문제를 해결하고자 하며 실험을 통해 기존 슬롯사이트검증 연구들과 비교하여 가장 높은 86.8%의 성능을 보였다클레버 한스 테스트를 통한 언어모델의 질의 이해 분석임정우, 오동석 (고려대학교), 박성진 (네이버), 황태선 (와이즈넛), 심미단 (경희대학교), 손수현 (고려대학교), 김유진 (Human-inspired AI 연구소), 임희석 (고려대학교)다양한 Masked Language Modeling을 통해 학습한 사전 학습 모델들은 질의응답 시스템에서 매우 높은 성능을 보여주고 있다. 이러한 강력한 성능에도 불구하고 그러한 모델들이 질의를 정확히 이해하고 정답을 예측하는 것인지, 혹은 질의에 등장하는 특정 단어와 잘 나타나는 단어들을 기반으로 정답을 예측하는 것인지에 대한 분석은 아직 충분하지 않다. 이러한 사전학습 모델의 질의 이해 능력을 밝히기 위하여, 본 연구에서는 클레버 한스 테스트를 제안한다. 클레버 한스 테스트에서는 의미적 구조적, 의도 유무 측면의 여러 질의 변형이 된 데이터 셋들이 포함되어 있다. 본 연구에서는 클레버 한스 테스트를 통하여 사전학습 모델들이 의미적으로 달라진 질의나 의도가 제거된 질의를 입력으로 받아도 성능이 크게 떨어지지 않는 것을 확인하였고 모델의 질의 이해능력 부족을 실험적으로 시사하였다.​기계독해 시스템에서 답변 불가능 문제 해결을 위한 독해 패턴 모방 방법이예진, 장영진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)최근 대용량 말뭉치를 기반으로 한 언어 모델이 개발됨에 따라 다양한 자연어처리 분야에서 사람보다 높은 성능을 보이는 시스템이 제안되었다. 이에 따라, 더 어렵고 복잡한 문제를 해결하기 위한 데이터셋들이 공개되었으며 대표적으로 기계독해 작업에서는 시스템이 질문에 대해 답변할 수 없다고 판단할 수 있는지 평가하기 위한 데이터셋이 공개되었다. 입력 받은 데이터에 대해 답변할 수 없다고 판단하는 것은 실제 애플리케이션에서 중요한 문제이기 때문에, 이를 해결하기 위한 연구도 다양하게 진행되었다. 본 논문에서는 문서를 이해하여 답변할 수 없는 데이터에 대해 효과적으로 판단할 수 있는 기계독해 시스템을 제안한다. 제안 모델은 문서의 내용과 질문에 대한 이해도가 낮을 경우 정확한 정답을 맞히지 못하는 사람의 독해 패턴에서 착안하여 슬롯사이트검증 기계독해 시스템의 문서 이해도를 높이고자 한다. KLUE-MRC 개발 데이터를 통한 실험에서 EM, Rouge-w 기준으로 각각 71.73%, 76.80%을 보였다.문장 표현 단위를 활용한 기계독해 시스템장연진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)기계독해 시스템은 주어진 질문에 대한 답변을 문서에서 찾아 사용자에게 제공해주는 질의응답 작업 중 하나이다. 하지만 대부분의 기계독해 데이터는 간결한 답변 추출을 다루며, 이는 실제 애플리케이션에서 유용하지 않을 수 있다. 실제 적용 단계에서는 짧고 간결한 답변 뿐 아니라 사용자에게 자세한 정보를 제공해줄 수 있는 긴 길이의 답변 제공도 필요하다. 따라서 본 논문에서는 짧은 답변과 긴 답변 모두 추출할 수 있는 모델을 제안한다. 실험을 통해 Baseline과 비교하여 짧은 답변 추출에서는 F1 score 기준 0.7%, 긴 답변 추출에는 1.4%p의 성능 향상을 보이는 결과를 얻었다.검색의도에 적합한 스니펫 추출이현구, 양윤영, 김은별, 차우준, 노윤영, 김은영, 최규현, 신동욱, 박찬훈, 강인호 (네이버)스니펫 추출은 정보검색에서 주요한 문서 정보를 짧은 문단 형태로 보여주는 것으로 사용자가 검색결과를 좀 더 효율적으로 확인할 수 있게 도와준다. 그러나 기존 스니펫은 어휘가 일치하는 문장을 찾아 보여주기에 검색의도가 반영되기 어렵다. 또한 의미적 정답을 찾기 위해 질의응답 방법론이 응용되고 있지만 오픈 도메인 환경에서 품질이 낮은 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해 스니펫 추출, 의도 부착, 검증 3단계로 스니펫을 추출하여 추출된 스니펫이 질의 의도에 적합하게 추출되도록 하는 방법을 제안한다. 실험 결과 전통적인 스니펫보다 만족도가 높은 것을 보였고, 스니펫 추출만 했을 때보다 의도 부착, 검증을 하였을 때 정확도가 0.3165만큼 향상되는 것을 보였다.자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정최태균, 김민경, 이인재, 이지은, 박규연, 김경덕, 강인호 (네이버)음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 슬롯사이트검증 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화서수빈, 인수교, 박진성, 남경민, 김현욱, 문기윤, 황원요, 김경덕, 강인호 (네이버)초거대 언어모델를 활용한 퓨샷(few shot) 학습법은 여러 자연어 처리 문제에서 좋은 성능을 보였다. 하지만 데이터를 활용한 추가 학습으로 문제를 추론하는 것이 아니라, 이산적인 공간에서 퓨샷 구성을 통해 문제를 정의하는 방식은 성능 향상에 한계가 존재한다. 이를 해결하기 위해 초거대 언어모델의 모수 전체가 아닌 일부를 추가 학습하거나 다른 신경망을 덧붙여 연속적인 공간에서 추론하는 P-tuning과 같은 데이터 기반 추가 학습 방법들이 등장하였다. 본 논문에서는 문맥에 따른 질의 정규화 문제를 대화형 음성 슬롯사이트검증 검색 서비스에 맞게 직접 정의하였고, 초거대 언어모델을 P-tuning으로 추가 학습한 경우 퓨샷 학습법 대비 정확도가 상승함을 보였다.방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축전희선, 김현호, 강인호 (네이버)한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아 (DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.레코드 연결을 위한 속성인지 메타블로킹이주현, 김현호, 강인호 (네이버)레코드 연결의 대표적인 문제 중 하나는 레코드 간 비교 비용이 크다는 것이다. 이러한 문제를 해결하기 위해서는 레코드 연결에 필수적으로 블로킹 단계가 포함되어야 한다. 블로킹이란 같은 레코드일 가능성이 높은 대상들을 그룹화하여 비교연산을 수행할 대상을 선정하는 단계를 말한다. 블로킹의 목적은 최대한 결과의 recall을 희생시키지 않으면서 비교 연산 횟수 최소화하는 것이다. 메타 블로킹은 가중치 그래프를 블로킹에 적용함으로써 전통적인 블로킹 방식의 한계를 극복하고 더 좋은 성능을 나타내는 모델이다. 본 논문에서는 메타블로킹에서 주목하지 않았던 블록 생성방식을 데이터베이스 속성에 따라 블록을 생성하는 방식으로 개선하고 그에 맞는 가중치 계산식을 제안하였다. 또한 키 기반 블로킹, 메타블로킹, 속성인지 메타블로킹으로 생성된 블로킹 결과에 대한 성능을 측정 및 비교하였다.​​​- 2023 HCLT 발표 논문 소개- 2022 HCLT 발표 논문 소개- 2020 HCLT 발표 논문 소개- 2019 HCLT 발표 논문 소개- 2017 슬롯사이트검증 HCLT 발표 논문 소개

이전글 다음글
수정 삭제 목록 글쓰기