自動分類の限界


最終防衛ライン2 - はてなはインデックスデータベースの夢をみるか」を読んで。

ウェブにおけるさまざまなインデックスデータベースの可能性について。手短なはてなのサービスから眺めて見る。


はてなダイアリーではキーワードによって繋がることができ、そのキーワードに言及した記事を参照することができる。でも、キーワードという括りはユーザーが書いた文章の中に出てくるキーワードを自動抽出というスタイルであるため、かなり広い範囲に及び、網羅性は高いが必ずしもキーワードに関連した情報が多く含まれた文章にヒットするとは限らない。たまたまキーワードがでてきただけ、ということも十分にありうる。


では、はてなブックマークのタグはどうだろう?

タグはその記事をブックマークしたそれぞれのブックマーカーがその記事に対して付けられる分類である。ある記事をブックマークしたブックマーカー全員が必ずしも同じタグを使う訳ではないが、大量のブックマークが付けられた記事を見るとタグによる分類はうまく機能している。

screenshot
はてなブックマーク - ソフトウェア開発者のための推薦図書


でも、このタグ分類も万能ではない。日々、いくつもの記事をブックマークしていて、たまにタグを思いつかないような記事に出くわすことがあるし、記事のおおまかなジャンル分けはタグ分類でできても、そのジャンルの中での分類までは非常に難しい。

そして、ブックマークのタグが有効になるのは、ある程度以上のブックマーク数が必要であるため、あまり注目を浴びなかった記事の分類もまた難しい。



ブログにおけるトラックバックは、関連した内容を扱っている記事同士を繋ぐ手段として非常に有効である。この場合は分類というよりかは、内容的に同じモノに関連している記事同士を繋ぐ線を結ぶ、といった形であり、線で結ばれた記事の集まりが同じ話題について語っている記事の集団となる。



例えば、「Xbox360というゲーム機のXXXというゲームにたくさんのバグが見つかった」という話題を扱った記事について考えた場合、キーワードやブックマークによるタグでは「Xbox360」「ゲーム」「これはひどい」などの分類までしか出来ないが、トラックバックで繋がった記事の集団では、「「Xbox360というゲーム機のとあるゲームにたくさんのバグが見つかった」という話題」について触れている記事、という分類が可能である。

もちろん、タグ分類でも[Xbox360XXXバグ問題]などとタグを作れば同じような分類が可能ではあるが、いちいちそのようなタグを作っていてはタグの種類が多くなりすぎてしまい収拾がつかなくなりそうだし、タグ自体はユーザーによる違いも大きいので、このような細かな分類には向いていなさそうでもある。



トラックバックというしくみがもっと有効活用されていれば、ある程度自動で同じ話題を扱っている記事をまとめたりするしくみも作れそうな気はするが、まだまだトラックバック利用率は低い気がする。はてなダイアリーの場合は、言及リンクを入れると自動トラックバックが飛ぶしくみになっていて、これだと意識せずにお互い結びつくことができて非常に便利なのだが、他のブログサービスでこのような仕組みを持つところはほとんどなかったように思う。


なにかの話題が盛り上がったときに有志の誰かが作る「まとめサイト」(最近流行っているあるキーワードについての「まとめサイト」とは違うので注意、こちらはタグ分類に近い)のようなものを自動で作ってくれるようなしくみ、というのは出来ないものだろうか?とよく考えるが、自動で分類、収拾、整理するために必要な情報は、やはり誰かがタグやトラックバックやなんらかのメタデータとして記録する必要があって、そこがまだ不十分な現在は人がまとめる「まとめサイト」のようなものを自動生成するのはまた不可能なのかな、と思う。