第10回 エディタによるテキストの検索・加工(笠井先生) 課題
<使用テキスト>
・大名先生の「言語情報システム論」教材 perl_lesson 中の全テキストファイル
・笠井先生の voa_html 中の全ファイル (大量なのでタグははずしていません)
検証できないファイルですみません。
<ねらい>
〜〜 and 〜〜 の言い回しを検索する。例えば"比較級 and 比較級"など。
<検索>
\b(\w+)\b and \b\1\b
<検索結果>
のべ25例がヒット。
但し、この中には"one and one-half"のような目的から外れたものも含まれている。
ヒット例:
more and more
bigger and bigger
poorer and poorer
louder and louder
nicer and nicer
faster and faster
以上、"比較級 and 比較級"の例
ate and ate
read and read
write and write
以上、"動詞 and 動詞"の例
over and over
ever and ever
thousands and thousdands
どれにしても強調の意味がある様に思われる。
どんどん〜〜の状態になっていく、長い間継続して〜〜する、何度も何度もというような感じ。
大量のデータの中で25例しか検索されないのはあまり使われない言い回しなのか、それとも選んだテキストによるのか。
一般的な小説のようなテキストで検索するべきだったかもしれない。
また、"one and one-half"のような例を除外できるよう、検索条件を工夫した方がよかったかもしれない。