素人のラテン語 その十五 シソーラスは全文検索システム

リンネ(Carl von Linne)の分類学の貢献は、ピーター・ロジェ (Peter Mark Roget ) が「Roget’s Thesaurus of English Words and Phrases」を著作するとき、言葉を同義語や意味上の類似関係、包含関係などによって分類することに役立ったといわれます。

  シソーラスとは、言葉を同義語や意味上の類似関係、包含関係などによって分類された辞書、あるいはデータベースです。一般的な辞書では、言葉はアルファベット順や50音順に整理されますが、シソーラスでは言葉が大分類から小分類にかけて体系的に整理されるのが特徴です。それによって同義語から広義・狭義の類義語、反義語などを効率的に調べることが可能となるのです。

私たちが日常的に使っている自然言語をコンピュータに処理させる一連の技術に「自然言語処理」があります。今は人工知能(AI)と言語学の一分野といわれます。自然言語処理においては、シソーラスは全文検索システムなどにおいて利用されています。例えば、日本を表す表現としては、「アメリカ合衆国」の他にも「米国」、「アメリカ」、「USA」、「US」など複数の表記があります。シソーラスにこれらの言葉が登録されていれば、「USA」と検索した場合でも「米国」をキーワードとした文書を検索することができます。逆に、シソーラスの処理が介在していないと、意味は同じ「米国」でも「US」と表記している文書を検索から漏らしてしまうのです。

シソーラスでは、対象の語意義素を次のように分類して構成されます。一定の関連のもと共に扱われることが多い表現として、 関連語とか関連表現があります。次ぎに、対象の語と何かしら関連のある表現があります。 類義語(synonym) 、対義語、反義語(antonym) 、 さらに上位概念や下位概念、 同一概念、 同位語 、連想語 、近接語、上位語や下位語といった関係です。