关于选词
1.各国提交的词表概要
①日本词表:4,569个
原始材料:独立行政法人国立国語研究所
「現代雑誌200万字言語調査語彙表」(2001年度~2005年度実施)
http://www.ninjal.ac.jp/archives/goityosa/
語彙表ファイル
度数順語彙表 (自立語)
抽选工作
・只抽选汉语词汇。
・针对平假名的字体变换成汉字
*「あいさつ」的词汇换成「挨拶」。
・删除了以下的词汇
*很难作为词语的词汇。テンハチ「.8」等记号、数字等。
*机构名称等固有名词。
*一个汉字的词汇。
*二位数字。「二十」等
・把汉字标识(2个字・3个字的词語)分解成一个字
②韓国词表:6,415个
原始材料:
2002年,2005年 国立国語院『現代国語使用頻度調査』
1995年,『韓国語口数使用頻繁調査』
抽选标准:
(1)删除固有名词
(2)删除只有韩语的词(名词):그녀(그女), 정말(正말), 달력(달層)
(3)删除一个汉字词(動詞):위하다(寫하다), 속하다(屬하다), 정하다(定하다), 변하다(變하다)
③中国词表:3,107个
原始材料:
『現代漢語頻率詞典』
中方材料本身有3,184个,删除掉了4个字以上的词汇。
2.词表整合
2-1.把字体变换成「簡体字」
・日本漢字⇒簡体字
・韓国繁体字⇒簡体字
*変变换工具使用了以下的网页,其中也包含没有正确变换的字
Kanconvit -簡体字和日本漢字的互换
http://kanconvit.ta2o.net/
http://kanconvit.ta2o.net/conv.cgi
日中情報コミュニティサイト 簡体字・繁体字変換 (中日信息交流网络 簡体字・繁体字変換)
http://www.jcinfo.net/jp/bigbg/
2-2.查看是否包含808字表里的字
将以上各国词表①②③里追加○×欄
3.整合工作
把2-3各国的词表输入到MS-Access和「簡体字」进行整合。
4.整合结果
三国共同词汇:共995个。
5.缩至600个左右的词汇
条件1.删除不包含808字的词汇。
条件2.
日本词表里的頻度数8以上的词汇
韓国词表里的頻度数4以上的词汇
中国词表里的排名626以下的词汇
最终选出了658个共同词汇。