Leech, G.(1997) Introducing Corpus Annotation 2.2 (pp.21-24) 報告者: DICOM M1 長井 みゆき


2.2 Tokenization: multiwords, merged words, and ‘phantom words’


書かれたテキストは、普通、前や後ろにスペースや句読点があり、明確に分割されている
アルファベットで書かれた現代の言語すなわち正字法でかかれた語は、自動的にテキストの中の表示でそれぞれ見分けがつく
→「テキストをどのように語単位のトークンに分けるか」は、簡単なことか?
「正字法で書かれた語」は、「形態統語的ユニットである語」(文法タグ付けのために、見分けなければならないトークン)と必ずし も同じではない

正字法でつづられたトークンと形態統語的トークンの1対1の関係が崩れる3つの例

(1)Multiwords
   ・ 正字法でつづられた複数の語が、1つの形態統語的な語に対応する。
   ・ "in spite of" のように連続した3つのつづられた語から成り立つものは、1つの前置詞(1つの形態統語ユニット)として
タグ付けすれば便利。
・ 語のすぐあとに、2ケタの数字を入れる。10の位に入る数字が、そのマルチワード内のトークン数を示し、1の位の数字が、
  それが何番目のトークンかを示すように、1つ1つのつづり語に同じラベルをつける。 (別紙@参照)

 ☆ 問題点
1.英語の句動詞のように、連続しないマルチワードは認められるか?
2.どのような連続がマルチワードとして分類されるのか?
     → タグ付けマニュアルで明確にされるべきである。

(2)Mergers
   ・(1)とは逆に、1つのつづられた語が、形態統語的な複数の語に対応する。
  ・ clitic form(音韻的に削減されたものが、正字法でつづられた語でも、ほかの語にくっついてあらわれる形態)、
   がかかわる場合が多い。
Proclitic = 別の語の頭につく
Enclitic = 別の語の最後につく  (別紙A参照)
  ・スペースを挟まないで、タグとともに、それらの語を一緒に並べる表記方法
→ (欠点として、どの辞書にも載っていない「幻の語」を作ってしまうことがある) (別紙B参照)


(3)Compounds
  ・ 1つまたは複数のつづられた語が、1つまたは複数の形態統語的な語に対応する

 ☆ 問題点
   ・ 複合語compound の定義は難しい。→「その構成要素としてほかの語を含んでいる語」との定義はどこまで?
→ 語の連続=「ひとつの複合語として分析される」のか「2つの独立した名詞として扱われる」の間のあいまいな部分の
       どこかに位置する
     ・ 英語の複合語のつづりの表記は多様で、スペースを空けたり、一語にしたり、ハイフンで結んだりと、スタイルの好みに
     よって異なる。
→ そこで、二つの違うレベルで語の境界を示すのが安全に思われる。 (別紙C参照)

2.3 Tagsets へ