1.계획서

                      종합설계 프로젝트 계획서 요약

팀명

Detective

제출일

2014 3 13

프로젝트 제목

COPYDET

팀원

성명

학번

SNS 주소

    강유진(조장)

20103301 www.facebook.com/92yujink

    김승환

20095367 www.facebook.com/seungioi

    이아르미

20103372 www.facebook.com/alemieileen.lee

    이현영

20083261 www.facebook.com/hyunyoung.lee.12

    전승철

20093338 www.facebook.com/junpada

설계 프로젝트 개요

프로젝트 개요

  최근 몇 년 사이에 '연구윤리', '연구부정' 및 '표절'의 문제가 학계나 문화계를 포함한 사회 각 부문에서 하나의 커다란 사회 문제로 등장하였다.

  표절이란 다른 사람이 창작한 저작물의 일부 또는 전부를 도용하여 사용하여 자신의 창작물인 것처럼 발표하는 것을 말한다. 한국에서는 교수 출신 공직자들의 논문 표절이 사회적 이슈가 되면서 각 대학이나 학회 별로 표절 심사 기준을 마련하고 있다. 그러나 이러한 노력에도 불구하고 다양한 분야에서 다양한 유형으로 표절이 행해지고 있다.

  특히 스마트기기가 확산되면서 정보를 접하는 것이 쉬워짐에 따라 인터넷 상의 글을 베껴 쓰거나 여러 글을 편집하여 쓰는 등 표절의 유형은 다양해지고 있다. 본 프로젝트는 예술, 학문 등 여러 분야에 만연한 표절의 실태를 파악하고 기존의 표절 검사 프로그램의 문제점을 분석하여 표절을 가려내는 시스템을 개발한다.

  그리고 팀 프로젝트를 통해 협동심, 개인 업무 부담, 프로젝트 일정조정 등, 팀 프로젝트를 통한 개인프로젝트가 아닌 여럿이서 하는 프로젝트 경험을 통하여 필요한 다양한 요소들을 습득한다.


장점

  현재의 유사 문서 탐색 시스템에서는 유사 문서 판정의 정확도는 물론 다량의 문서에 대한 탐색 속도 또한 중요한 척도가 되고 있다. 일반적으로 유사 문서 탐색 속도는 대상 문서의 개수에 좌우되므로 모든 검사 대상에 대해 검사를 수행하는 것은 비효율적이다.

  유사 문서 검사를 하기 전에 전처리 과정을 통하여 유사 가능성이 높은 문서만을 추출한다면 유사 문서 탐색 속도의 향상을 기대할 수 있다.

  본 프로젝트에서는 유사 문서 추출 과정을 통해 유사 문서 탐색에 소요되는 시간을 줄이고자, 수많은 문서군 사이에서 Source-Retrieval을 통해 유사도가 높은 문서들을 선별한 뒤 Text-Alignment로 각 문서간의 표절구간을 정밀하게 탐색함으로써 탐지율을 높이는 동시에 검색속도를 증가시킬 수 있다.


현실적 제한요소

1. 표절 문서 군의 부재

  표절 성능 측정을 위한 많은 양의 표절 문서 군의 확보가 어렵기 때문에 성능측정을 하는데 어려움이 있었다.

2. 라이센스

  현재 사용하고 있는 라이브러리들의 상업적 사용은 불가하기 때문에 학술적인 목적으로만 이용할수 있다.

3. 포맷의 다양성

  문서 포맷인 doc, pdf, hwp, txt등 현재 사용되고있는 문서들의 다양한 포맷들을 읽어들일 수 있는 필터가 필요하다.

4. Web Search API의 제공 기간

  현재 쓰고 있는 Web Search API경우 일시적으로 사용기간을 부여한다.

5. 표절 검사구간의 정확성

  글을 표현하는 주체는 사람으로 사람마다 표현하는 방식이 다 달라 거기서 70%이상의 정확성을 찾기 힘들다. 많은 예외 처리가 필요하다. 


비교대상

표절 여부를 검사하는 방법에 있어 두 가지 다른 접근 방법이 제시되고 있다. 특징적인 단어에 초점을 두는 지문(fingerprint) 검사 방법과 전체 구성의 흐름에 초점을 두는 구조 기반 검사 기법이 있다. 두 가지 검사 방법을 설명하기에 앞서 일반 문서 표절 기법 대해 살펴보고, 이 방법들에 대응하는 표절 여부 검사 방법을 제시하도록 하겠다.

대체로 표절을 할 때에는 원본의 내용을 완벽히 이해하여 새로운 문서로 만들어내는 것이 아니라 짧은 시간 내에 일부분을 편집하여 사본을 만들어내게 된다. 그렇기 때문에 문서의 원본과 사본을 비교해 보면 다음과 같은 특징을 가진다.

- 일부분의 단락이 삭제되거나 순서가 재배치되는 경우, 또는 원본에는 없는 단락이 삽입되어 있다.

- 일부 문장을 편집하여 새로이 작성하였지만 주제어는 그대로 사용한다.

- 문서의 구조나 단락의 구조가 동일하다.

- 틀린 철자를 그대로 사용한다.

- 문서에서 일부 단어를 의미가 동일한 단어로 교체하였다.

1. 지문법

  온라인에서 표절 검사를 해주는 Plagiarism.org, IntergirGuard와 EVE2 세 곳은 기본적으로 지문법을 사용하여 특정 그룹을 관리해주거나 특정 문서와 유사한 문서를 검색해 주는 유료 사이트들이다. 이 세 사이트는 정확한 검색 방법론을 공개하고 있지는 않지만 문서의 특징적인 부분을 추출하여 이를 토대로 표절 검사를 한다는 점은 동일하다. Plagiarism.org에서는 대용량의 데이타 베이스에 저장되어 있는 기존의 문서들과 비교를 하거나, EVE2는 검색을 통해 결과로 나오는 유사한 문서들과 비교한다. EVE2는 특정 문서와 유사한 문서를 찾아주는 검색 사이트이고, Plagiarism.org와 IntergirGuard는 학급 단위로 등록하여 과제의 표절 검사를 대행해 준다.


2. 구조기반검사 기법

  구조기반(Structure-based) 표절 검사 방법은 문서의 표절 검사보다 제어흐름을 가지고 있는 프로그램 소스 코드의 표절 검사에 많이 사용된다. CHECK 시스템은 다른 문서 표절시스템과는 달리 문서의 구조를 먼저 분석하고 중요도가 높은 키워드를 추출하여 이를 지문 벡터(fingerprint vector)로 비교한다. 문서 내에 문서의 구조를 포함하는 LATEX 문서에서 구조적인 트리를 구성하고, 이 트리를 토대로 중요도가 높은 키워드 분포도를 알아내어 이를 비교한다[14]. 그러나 이 시스템은 LATEX 문서만 검사가능하고, 문서 내부에 문서의 구조를 포함하지 않는 일반적인 ASCII 문서들은 검사할 수 없다.
  

마일스톤 일정

마일스톤

개요

시작일

종료일

프로젝트 구상

 아이디어 및 실현 가능성을 기반으로 주제 선정

2014-01-01

2014-02-01

계획서 발표

개발 환경 완성

  - Python 설치, 기본 응용 작성 및 테스트 완료

2014-02-01

2014-03-08

설계 완료

 시스템 설계 완료 및  prototype 모듈 구현

2014-02-01

2014-03-31

1차 중간 보고

 Source Retrieval Text Alignment구현,

  UI 디자인

2014-03-21

2014-04-03

2차 중간 보고

 UI 구현 및 모듈 통합

2014-04-04

2014-05-01

구현 완료

 시스템 구현 완료

2014-04-01

2014-05-01

테스트

 시스템 통합 테스트

2014-04-01

2014-05-25

최종 보고서

 최종 보고

2014-05-01

2014-05-27






























결론

  사회 전반적으로 표절에 대한 경각심은 크게 찾아볼 수가 없으며 오히려 만연해 있는 상황이다.

  또한 이러한 사회 분위기로 인하여 대학교를 비롯한 교육기관들에서 표절을 쉽게 찾아볼 수 있으며 온갖 과제들과 논문들조차도 표절에 노출되어있는 상황이다. 하지만 이 표절검사 프로그램을 사용함으로써 온갖 문서들의 표절을 누구나 손쉽게 찾아 낼 수 있다. 

  또한 사회 전반적으로 만연해있는 표절에 대한 관대함과 표절을 당연시 여기는 사회풍토를 지양할 수 있고 표절에 대한 경각심을 키울 수 있다고 생각을 한다. 그리고 표절검사를 시스템화 함으로써 사용되는 인적자원 및 시간들을 획기적으로 줄일 수 있다.


      Ċ
      7조 캡스톤,
      2014. 3. 12. 오후 9:23
      ć
      7조 캡스톤,
      2014. 3. 12. 오후 9:24
      Ċ
      7조 캡스톤,
      2014. 3. 12. 오후 9:23