BLOGNAVIってつい先日存在を知ったのですけれど、きちんとご紹介。
BLOGNAVIAbout This SiteBLOGNAVI は日本語Blogの収集サイトです。 Blog記事を読みまくりたい、Blogで話題のテーマを知りたい、Blogを横断的に検索したい、そんなニーズに応えてベータオープンしました。
今一歩何ができるか、トップページだけではよくわからないサイトです。ヘルプをみると、
ヘルプ:BLOGNAVI は、日本語 Blog の収集サイトです。 BLOGNAVI は、RSS という形式で XML データを公開している Blog サイトを 定期的に巡回して、コンテンツを収集し、サイト上で表示します。
(中略)
・そんなに Blog を集めてどうするの?
とりあえず検索できるようにしてみました。今まで Blog 記事だけを横断的に 検索するサービスはなかったと思うので、便利かもしれません。
とりあえずですか(汗
まあ試験というか、トライアルというか、模索中というカンジですね。登録はメールではなく、webから出来るようにして欲しいなあ。
とりあえず、トップページにバナーを勝手にはりました。
ryo
さっそくWebから登録できるようにしてみました ;-)
検索窓の公開は…今週中に出来るといいなぁ。
tnoma
おおお、えらい!
やっぱりそうでなくっちゃ。
ところで「のまのしわざ」で検索すると結果がでるけど、
「のまの」では検索結果が0件になってしまうんだけど
これはNamazuか何かの制限事項?
ryo
検索時の再現性が低いのは、namazu というか、形態素解析をおこなうタイプの検索エンジン共通の制限事項ですね。
grep のように部分一致で検索すれば、検索の再現性は高くなります(「のまの」でもマッチする)。しかし検索速度は遅い。
多くの検索エンジンでは、検索速度を向上させるために、形態素解析をおこなって形態素単位で index を持って検索しています。よって形態素解析器が「のまの」という形態素を切り出せなければ、マッチしません。
bigram で index を持ったりして、再現性を高く保ちながら検索速度を向上させる手法もありますが、検索速度やスケーラビリティを考えると一長一短。
てな話はさておき、namazu は正規表現が使えるので、「のまの*」で検索すればバッチリって話もアリ。
よく「検索マッチしないんですけど」って問い合わせがあるので、いっそ全ての検索語のお尻に * をつけてしまおうかと思ってみたり。
tnoma
なるほど>形態素解析
シロートにとっては*とか正規表現は馴染まないでしょうから、内部的につけて検索してくれた方が親切だと思いますよ。