1日に20万超のブログスパム記事が生成されている!?:国内ブログ記事の4割がスパム

ニフティでは、開発したフィルタリングの技術を利用して、スパムブログの自主調査を実施。ニフティのブログ評判分析サービス「BuzzPulse」の分析対象となっている4億5,000万記事(2008年3月現在)のうち、約10万記事をサンプルとして調査した結果、毎月約40%の記事がスパムブログという結果になったという。

ニフティがスパムブログの判別技術を開発、国内記事の約4割がスパム

この対象となったブログが国内ブロゴスフィア全体を代表するかは別としても、記事の4割がスパムというのは何とも恐ろしいことだ。
じゃあ、4割というと実際にどれくらいのブログポストがスパムなのか、ということに興味がわく。ちょっと荒い推測になってしまうが、大まかな数字として出してみたい。
Sifry's AlertsのState of the Live Webという記事*1によると、日本語のブログ投稿数は全体の37%、また世界全体でみると1日にあたりの投稿数は150万となるという。単純計算すると、日本語ブログの投稿数は約55.5万/日と推測される。あくまでも2006年第3四半期の結果なので、現在も同様のものとは考えにくいのだけれども、あくまでも目安として利用することにする。
で、この55.5万記事の4割、つまり22.2万記事が1日に投稿されるスパム記事だと推測できる。こいつはひどい。もちろん、2006年のデータを使って、2007年の調査を元に計算した数字なので、あてにはならないだろうけど、それでもその規模としては実感できる数字だろう。
ただ、スパムブログ記事といわれて想像するものと、この調査でスパムブログとして扱われたものとは少し異なるかもしれない。

スパムブログって?

この調査でのスパムブログの定義は2つあって、1つは自動生成系のブログ、これはよく情報商材として売られているもの。そしてもう1つはアダルト系。確かにアダルトブログからのスパムってのはかなりうっとおしいものがあるのだけれど、その存在、その投稿そのものがスパムか、というとちょっと違和感がある。
ニフティ、スパムブログのフィルタリング技術を開発|ニフティ株式会社 」のプレスリリースの中ではこのように定義されている。

スパムブログの種類】
スパムブログには、手法や目的、内容によってさまざまな種類があり、ニフティ研究所では、スパムブログを以下のように分類・定義しました。
○自動生成系
・引用スパム
他ブログやニュース記事、検索されやすいワードの検索結果スニペットなどの引用を自動的に取得して、記事を生成している。
アフィリエイトスパム
商品写真とそのアフィリエイトリンクを大量に自動で掲載しているブログ。内容がほとんどない。
ワードサラダ
文章をフレーズ単位で機械的に組み合わせて生成しているブログ。一見、人間が書いているように見えて、良く見ると文章の意味が通じていない。
・自動マルチポスト
同一記事を複数のブログに機械的に大量に投稿する。

○アダルト系
・わいせつ記事
わいせつな文章や画像、動画などが掲載されているブログ。
・出会い系
出会い系サイトを運営しているブログや、その入口となっているブログ。
ワンクリック詐欺
ワンクリック詐欺を運営しているブログや、ワンクリック詐欺に誘導するための入口となっているブログ。

わいせつ記事そのものがスパムに当たるかどうか、というのは難しいところだけれども、その目的がフィルタリングにある、ということを考えれば、スパムという表現は別としてもわからないでもない。

スパムプログは、アフィリエイトで広告収入を得ることや、特定のサイトへ誘導したりすることを目的として生成されるブログです。特定のキーワードを含む記事やニュースサイトなどから転載した記事を機械的に大量に生成して、各種検索サービスからアクセスされるようにすることもあり、コンテンツとして無意味なものだけでなく、一般のインターネットおよびブログサービスの利用者にとって迷惑になる場合もあります。

ニフティ、スパムブログのフィルタリング技術を開発|ニフティ株式会社

目的としては、アダルト対一般という文脈で捉えたときの一般のインターネットユーザにこうしたブログよって不快な思いをさせない、というところにあるのだろう。確かにここでいうスパムブログからのスパムコメント、スパムトラックバックに不快な思いをしたこともある。
個人的には、アダルトブログそのものの存在がスパムであるとは考えていない。スパム行為をしていない健全なアダルトブロガーだっているだろう*2。そういったブログとは、アダルト対一般の文脈の中で住み分けることが望ましいと思うし、そうした意味ではこのようなフィルタリングが活用されればよいとも思う。ただ、アダルトというだけで、必要以上に門戸を狭めるのであれば、それはそれで問題だが*3
この技術に関して、当面は

これらの技術は、ニフティのブログ評判分析サービス「BuzzPulse」、および「BuzzPulse」のオンラインサービス「BuzzSeeQer」に搭載する予定だ。

ニフティ、スパムブログの自動判別技術を開発。国内ブログの4割がスパム

とのことで、これによってブログサービス自体にフィルタリングを導入するということはなさそうだが、今後こうした技術を導入することによってより快適なブログサービスの提供が促進されることを祈りたい。

*1:日本語解説記事はこちら:日本語のブログ投稿数は世界第1位の37%--2006年第4四半期調査インターネット-政策・統計:IT-PLUS]

*2:たとえ盛んにアフィリエイトをしていたとしても、コンテンツが充実し、スパム行為によってユーザを引き寄せようとしていないのであれば、それをとがめるほうがおかしいと思う。ただ、コンテンツが充実していてもスパム行為をするのであれば、そのブログは救いようがないとは思うけど。

*3:少なくとも未成年者には見せない、見たくない人が目にすることがない、それを実現できればよいのだと思う