ABOUT

关于选词

1.各国提交的词表概要

①日本词表:4,569个

原始材料:独立行政法人国立国語研究所
「現代雑誌200万字言語調査語彙表」(2001年度~2005年度実施)
http://www.ninjal.ac.jp/archives/goityosa/
語彙表ファイル
度数順語彙表 (自立語)

抽选工作
・只抽选汉语词汇。
・针对平假名的字体变换成汉字

*「あいさつ」的词汇换成「挨拶」。

・删除了以下的词汇

*很难作为词语的词汇。テンハチ「.8」等记号、数字等。
*机构名称等固有名词。
*一个汉字的词汇。
*二位数字。「二十」等

・把汉字标识(2个字・3个字的词語)分解成一个字

②韓国词表:6,415个

原始材料:
2002年,2005年 国立国語院『現代国語使用頻度調査』
1995年,『韓国語口数使用頻繁調査』

抽选标准:
(1)删除固有名词
(2)删除只有韩语的词(名词):그녀(그女), 정말(正말), 달력(달層)
(3)删除一个汉字词(動詞):위하다(寫하다), 속하다(屬하다), 정하다(定하다), 변하다(變하다)

③中国词表:3,107个

原始材料:
『現代漢語頻率詞典』

中方材料本身有3,184个,删除掉了4个字以上的词汇。

 

2.词表整合

2-1.把字体变换成「簡体字」

・日本漢字⇒簡体字
・韓国繁体字⇒簡体字
*変变换工具使用了以下的网页,其中也包含没有正确变换的字

Kanconvit -簡体字和日本漢字的互换
http://kanconvit.ta2o.net/
http://kanconvit.ta2o.net/conv.cgi
日中情報コミュニティサイト 簡体字・繁体字変換 (中日信息交流网络 簡体字・繁体字変換)
http://www.jcinfo.net/jp/bigbg/

2-2.查看是否包含808字表里的字

将以上各国词表①②③里追加○×欄

 

3.整合工作

把2-3各国的词表输入到MS-Access和「簡体字」进行整合。

 

4.整合结果

三国共同词汇:共995个。

 

5.缩至600个左右的词汇

条件1.删除不包含808字的词汇。
条件2.

日本词表里的頻度数8以上的词汇
韓国词表里的頻度数4以上的词汇
中国词表里的排名626以下的词汇

最终选出了658个共同词汇。