• HOME
  • 語彙選定について

ABOUT

語彙選定について

1.各国提出データの概要

①日本側データ:4,569語

元データ:独立行政法人国立国語研究所
「現代雑誌200万字言語調査語彙表」(2001年度~2005年度実施)
http://www.ninjal.ac.jp/archives/goityosa/
語彙表ファイル
度数順語彙表 (自立語)

抽出作業
・漢語だけを抽出。
・平仮名表記のものに対して、漢字表記に変換

*「あいさつ」などに対して、「挨拶」を入れた。

・次のものを削除

*語として認めがたいもの。テンハチ「.8」などの記号、数字など。
*社名などの固有名詞。
*漢字1字語。
*2桁の漢数字。「二十」など

・漢字表記(2字・3字語)を1字に分解

②韓国側データ:6,415語

元データ:
2002年,2005年 国立国語院『現代国語使用頻度調査』
1995年,『韓国語口数使用頻繁調査』

抽出基準
(1)固有語を除く
(2)(名詞)ハングル語を除く:그녀(그女), 정말(正말), 달력(달層)
(3)(動詞)漢語1文字のものを除く:위하다(寫하다), 속하다(屬하다), 정하다(定하다), 변하다(變하다)

③中国側データ:3,107語

元データ:
『現代漢語頻率詞典』

中国側提出データは3,184語であったが、4字以上のデータがあったため、削除。

 

2.統合のためのデータ整理

2-1.字体を「簡体字」に変換

・日本漢字⇒簡体字
・韓国繁体字⇒簡体字
*変換ツールは以下のサイトを使用したが、正確に変換されない字もあったため、全データを目視でチェック

Kanconvit – 簡体字と日本語漢字の相互変換ツール
http://kanconvit.ta2o.net/
http://kanconvit.ta2o.net/conv.cgi
日中情報コミュニティサイト 簡体字・繁体字変換
http://www.jcinfo.net/jp/bigbg/

2-2.共通漢字808字が含まれている語かどうかをチェック

上記各国①②③の表に、○×による欄を追加。

 

3.統合作業

MS-Accessに2の各国のデータをインポートし、「簡体字」をキーに突合。

 

4.突合結果

三カ国共通:995語が抽出できた。

 

5.600語程度に絞り込み

条件1.808字が含まれない語は除く。
条件2.

日本データ頻度数8以上
韓国データ頻度数4以上
中国データ順位626以下

658語が選択できた。