2.1차 중간 보고

                 종합설계 프로젝트 1차 중간보고서 요약

팀명

Detective

제출일

2014 4 3

프로젝트 제목

COPYDET

설계프로젝트 개요

프로젝트 수행 내용 및 중간 결과

프로젝트 요약문

  • 본 프로젝트의 목표는 학교 및 여러 교육기관들과 공공기관들에서 문서 표절 여부를 쉽게 찾아낼 수 있는 프로그램을 만드는 것이다. 사용자들은 이 프로그램을 통해서 손쉽게 문서들의 표절여부를 찾아낼 수 있으며 또한 사용자가 문서표절에 소비하는 시간과 비용을 절감할 수 있다. 또한 이 프로그램을 통해서 아래 그림들과 같이 사회 전반적으로 만연해 있는 표절에 대한 경각심을 일으키고, 표절 근절에 앞장설 수 있다

  • 본 프로젝트에서는 유사 문서 추출 과정을 통해 유사 문서 탐색에 소요되는 시간을 줄이고자, 수많은 문서군 사이에서 Source-Retrieval을 통해 유사도가 높은 문서들을 선별한 뒤 Text-Alignment로 각 문서간의 표절구간을 정밀하게 탐색한다.

마일스톤 수행 내용

  • Source-Retrieval Module
  1. Tokenize(토큰화) : 문서의 내용을 리스트 형태로 토큰화 시킨다.
  2. Stopword(불용어 제거) : 토큰화한 리스트에서 불용어를 제거해준다.
  3. Vector space Model(유사도 추출) : 벡터 스페이스 모델을 이용하여 문서의 유사도 순위를 매긴 후 유사도가 비슷한 문서들끼리 쌍을 묶어 준다.
  4. Query to Web serch Engine(웹 문서 비교) : 문서에서 특정 키워드를 이용하여 Web search Engine에 쿼리를 보낸다.
  5. Document Pairs : Vector space Model에서 추출한 유사도로 비슷한 문서들끼리 쌍을 만들어 주고 그 이후에 Text-Alignment로 넘겨준다.
  • Text-Alignment Module
  1. Tokenize(토큰화) : 문서의 내용을 리스트 형태로 토큰화 시킨다.
  2. Stopword(불용어 제거) : 토큰화한 리스트에서 불용어를 제거해준다.
  3. Dictionary(사전 자료형 생성) : 두 문서의 비교를 위해 사전 자료형을 생성한다.
  4. Compare(문서 비교) : 두 문서에서 동일한 단어가 있는 지 비교한다.
  5. Similarity(정렬, 비교) : 동일 단어 앞 뒤로 정렬하여 유사도를 비교한다.

동영상

COPYDET 1차 중간보고


다음 마일스톤 일정

  • Source-Retrieval Module
  1.      Text Alignment 모듈과의 연동 문제

Source Retrieval 과정을 거치면 표절 의심 문서가 표절한 웹 상의 소스 문서 후보군을 알 수 있다. 하지만 정확히 어떤 문서를 표절했는가는 Text Alignment 모듈과의 적절한 연동을 통해 알 수 있다. 후보군의 모든 문서에 대해 Text Alignment 모듈을 적용할 것인가 혹은 몇 개의 문서에 대해서만 적용할 것인가에 대한 실험이 필요하다.

  2. Query 최적화 문제

 표절 의심 문서의 단어 중 어떤 단어를 Query로 생성할 것인가 하는 문제이다. 몇 개의 단어를 하나의 쿼리로 만들 것인가, 어떤 단어를 쿼리로 만들어야 정확도가 높아지는가에 대한 다양한 실험이 필요하다.

     3. 웹 상의 문서를 다운로드 하는 횟수 최적화 문제

 표절 문서가 표절했다고 생각되는 소스 문서가 여러 개일 때 문서를 모두 받아 자세한 검사를 수행할 것인가에 대한 문제이다. 만약 쿼리를 날렸을 때 웹 상의 무수히 많은 문서가 검색되었다면 이는 프로그램 성능의 저하를 야기하기 때문에 최적의 실험값이 필요하다.

  • Text-Alignment Module
         1. 한 번에 비교하는 단어의 수 최적화 문제

현재 Text Alignment는 소스 문서와 의심 문서에서 같은 단어부터 시작하여 10개의 단어씩 정렬하여 비교하고 있다. 이는 단어의 순서를 교묘히 바꿔 표절하였을 때 표절 여부를 가려내기 위함이다. 몇 개의 단어를 정렬하여 비교할 것인가에 대한 실험이 필요하다.

    2. Cosine 유사도 함수를 통한 유사도 추출의 부정확성 개선

 코사인 유사도를 이용한 문서 간 유사도 비교는 리스트를 벡터화하여 비교하는 것이므로 지역 정렬로 비교하였을 때보다 정확도가 떨어진다. 유사도가 어떤 상황에서 떨어지는가, 다른 비교 기법을 사용하면 성능이 올라가는가에 대한 실험이 필요하다.

첨부화일

Ċ
7조 캡스톤,
2014. 4. 3. 오전 3:15