어휘 선정 대해

1. 각국이 제출한 데이터의 개요

1)　일본측 데이터 : 4,569자

원데이터: 독립행정법인 국립국어연구소
「현대잡지 200만자 언어조사어휘집」(2001년~2005년 실시)
http://www.ninjal.ac.jp/archives/goityosa/
어휘표파일
도수순 어휘표(자립어)

추출작업
・한자어만 추출
・히라나가 표기를 한자 표기로 변환

＊ ‘あいさつ(아이사츠; 히라가나로 주로 표현)’ 등을 ‘挨拶’로 표기

・아래의 사항을 삭제

＊ 단어로 인정하기 어려운 것들(숫자 등)
＊ 회사명 등 고유명사
＊1음절 한자어

2) 한국측 데이터: 6,415자

원데이터: 국립국어원 ‘현대국어사용빈도조사’ (2002, 2005)

추출작업
（1）한자어만 추출
（2）고유어, 혼성어(그女, 正말 등) 제외
（3）음절 한자어, 어근(定하다, 屬하다 등) 제외

3) 중국측 데이터: 3,107자

원데이터: 현대한자어빈솔사전
* 중국 측 제출 자료는 3,184자 였지만 4자 이상의 데이터가 있었으므로 삭제

1) 모든 한자를 간체자로 변환

・일본 한자  간체자
・한국 정체자  간체자
＊변환 도구는 다음의 사이트를 사용하였으나 정확하게 변환되지 않는 한자도 있었으므로 모든 데이터를 눈으로 체크함.

Kanconvit – 간체자와 일본 한자 상호변환 도구
http://kanconvit.ta2o.net/
http://kanconvit.ta2o.net/conv.cgi

일본/중국 정보 커뮤니티 사이트 간체자/정체자 변환
http://www.jcinfo.net/jp/bigbg/

2) 공통한자 808자가 포함되어있는지의 여부를 체크

각국에서 추출한 표에 OX란을 따로 추가

MS-Access에 <2>의 각국 데이터를 입력하여 ‘간체자’를 키에 대조하였음

3국 공통 995개 단어를 추출하였음

조건 1) 한중일 공동상용 808 한자가 포함되지 않는 단어는 제외
조건 2) 일본 데이터 빈도수 8 이상, 한국 데이터 빈도수 4 이상, 중국 데이터 순위 626 이하

결과: 658개 단어 선정