ごめん、実は負けているのはグーグルでなくユーザだった

「グーグルがスパムに負けつつある」が大反響だった。ちょっとセンセーショナルな題目がウケたようだが、実はグーグルが技術的にスパマに負けているとは思っていない。実際、アルゴリズム的アプローチがスパム制御の限界に逹っしたとは思っていない。あと、ソーシャル・レコメンデーションにすればスパム問題が無くなるというのも安易な発想だ。その根拠を以下、説明する。その前に、反応をまとめてみよう。

質低下肯定

この表現は過激過ぎるかもだけど、感覚的にはちょっと同意。グーグルの質が低下しているのは否めない。ソースもこんなにたくさんあるんですね。 t
神話崩壊の発端はこういったところから始まる気がする。 t
ウェブ検索だと特にそうですね。SEOが高いサイト・ブログしか上位に来ない t
ふむふむ。数年前から検索結果が求めてるものと違うことが多くなったのは確か t
質が下がった気がする。それとは別に古い情報の見分けがつかないのが結構ツライ。 t
そういえば最近本当に普通の検索しなくなった気がする（検索語も「楽天」とか「Yahoo」とかばっかり）。リアルタイム検索とブログ検索は結構するけど。やっぱり「サーチ」→「キュレーション」の時代変遷かも。 t

「がんばれグーグル」

「Googleがなんとなくあんまり好きではなくなりつつある今日この頃だけど負けないで欲しいな。」 t
検索の分類も，なぜ先生がスパムごときにやられるかの説明もとても勉強になった．確かに最近の検索結果はひどい- この頃劣化してきているがBingはタコだし先生しか使うとこないのが残念すぐる t
あ、なんか分かる。そしてなんか悲しい。 t

「ソーシャル、人力編集、キュレーションにすれば？」

「Facebook等のSNSでの友人・専門家によるレコメンドや、NAVARまとめのような人力編集のほうが、情報を探す際に重視されていくと思います」t

検索の時代の終わりの始まり…とは言い過ぎか^^; t

自動化の課題と編集力というものの介在価値を感じる記事。 t

「構造的問題」に対する賛成

広告主に対して不利益をもたらす行動ができない、という点においては既成大手メディアとGoogleは同じ問題を抱えている。 t
あー、でもこれは最近ホント感じる事だなー。原因の2つのウチ何となく後者な気もする t
ほんとうにGoogleはスパムにやられていますよね。というより放置している。その理由が「収益が上がる」からというのが面白いです。PPCの不正クリックと同じですね。 t

disruptive

そろそろ打倒Googleな検索が出てきてもいいころ t

その他、面白いもの

Googleさんは広告収益に頼っている面があるから疑惑はわかるが、この結論はちょっと賛同しがたい t

勝ち負けで語るのはどうかな…。それよりスパムやSEO業者含めるとgoogleは間接的にどんだけの人食わしてんだろって思う。t

spam はともかく、複数の単語での検索がうまくいかなくなってきてるような気がする。検索指定した単語が結果先のリンクに含まれてないことが多くてやっかい t

トラフィック

このブログのこれまでのトップPVの3倍の膨大なトラフィック量だ。表面化にたまっていたセンチメントを掘り当てて噴出した感じだ。この議論が今迄日本で論じられていなかったのかと不思議にも思う。正直、既に認識されていてこのように物議を醸す内容とは思っていなかった。

正確ではないが効果的だった題目について

「グーグルがスパムに負けつつある」というタイトルはcodinghorrorのJeff Atwoodの次の文から生れた。
"Google, the once essential tool, is somehow losing its edge. The spammers, scrapers, and SEO'ed-to-the-hilt content farms are winning."
http://www.codinghorror.com/blog/2011/01/trouble-in-the-house-of-google.html
「グーグルは必須ツールだったが切れ味を失っている。スパマ、スクレーパ、SEOしまくったコンテントファームが勝ちつつある」
というのはいかにも長い。悪者が「勝ちつつある」ならグーグルが「負けつつある」でいいや、とあまり考えずに打ち込んだ結果だ。

ご指摘を受けているように、これは勝ち負けの問題じゃない。実際、テングの仮説はグーグルとスパムの共生関係論なので、全然負けじゃない。(スパマに負けているのはグーグルのユーザってことになる)
安易に選んだ題目がブログやツイッターでの反響を得る結果になってしまった。(いくら一生懸命長い記事を書いても、このツイッター時代、タイトルや短い引用で広がるのが現実だ) 「グーグル負けてる」がスパムが返ってきたときのユーザの感じてる苛立たしたを簡潔にとらえたからだと思う。これは英語圏ブログ界でも同じで、Atwood以外にも引用したブロガの心情を代表するものだから採用した。
日本、英語圏を問わず「グーグルどうした？がんばってくれよ」というセンチメントを強く感じる。

「アルゴリズムがスパムにやられたならソーシャル、人力編集、キュレーション」論

これが駄目ならあれ的な膝反射反応が目立つ。明確にしておきたいのはグーグルの現状は機械学習によるアプローチがスパムに負けたことが証明されたのではないということだ。(題名がこういう印象を与えてしまったのは残念だ)
元ポストの推測をまとめると、

スケールについていけなくなって、アルゴリズムがうまく実装できなくなっている (ありがちなパターン、グーグル以外の普通の企業なら)
広告収入によるスパムサイトとの共生関係 (一番無理のない解釈)

アルゴリズムの限界ではない理由

注意深い読者は「アルゴリズムが原理的にスパム制御の限界に逹っした」という仮説は全く考慮に入っていないことに気付くだろう。これには理由がある。

スパムにはその構造上アルゴリズムで認知できるシグニチャが存在するのだ。言い換えると推理小説なのでよくある"follow the money"ってやつだ。金を追っていけば、尻尾をつかまえることができる。

ウェブスパムとは比較的少数のオペレータが大衆を装うことが必要になる。元ポストで説明したようにグーグルの機械学習も、もとは人間の判断を糧にしている。これを操作するには多数を装うしかない。大量のホストに大量(無限数)のページを備え大量のリンクを作る。物量作戦だ。しかし、料金がかかるリソースは無限に設定できない。つまり、ドメイン(最低年数百円)、(ボットネットを使わない戦略においては)IPアドレスなど有料資源においては、その数が限られてくる。この経済的制約によって無料資源と有料資源の比率がスパマの場合極端に歪む。サーチエンジン側からこのような数字を見るとスパマは極端な挙動で目立つ。

グーグルは早期からドメインのregistererになっていたらしい。何故検索エンジンが？ registererにしか見えない登録者の情報をスパム対処のインテリジェンスに使うためだという話を聞いたことがある。ここまでやるグーグルはスパマの挙動が見通すことができる情報を沢山もっている。上はその一例だ。

これが抽象的でピンとこない方は実験をしてみるといい。スパムされているキーワードでいくつか検索してみる。できれば、スパムされがちだが、無関係のクエリをいくつか投げてみる。多様な分野でトップページに出てこれるのはyahoo,wikipedia,アマゾンなどの大型優良サイト以外にありえない。色々なクエリで上に出るサイトで、有名サイトでないものは怪しい。これらをちょっと見てみると、その構造と目的はすぐ別る。検索技術の素人がざっと見てわかることがグーグルわからないはずはないのだ。これで、アルゴリズムの限界でないことは体感してもらえると思う。

ソーシャル、人力編集、キュレーションの神話

信頼できる人間によるキュレーションの結果なら信頼できると思いがちだ。しかし、スパマに採算のあう市場がある場合、判断がウェブのリンクグラフによる人気であろうが、厳選された信頼のおける人による選択だろうが、スパムの対象になる。

極端な例を考えてみよう。「ソーシャル・キュレート検索」というサービスができたとしよう。そこでは身元が判定している人のみが厳密なプロセスにおいてキューレーターを投票により選ぶ。キューレーター達は賃金の安い国へのアウトソーシングを避けるために出生届まで検証して厳選される。キューレーターは外部から誘惑をさけるために、十分な給料を払う。このコストは「ソーシャル・キュレート検索」のサブスクライバの高価な購読料でまかなう。

このサービスは大成功をおさめ、アダルト動画サイトやいかがわしい金融業者がトップページに入れば、数十億の利益向上につながることに気付く。業者はやり手のPR会社通してキューレーター通う会社の向いにオフィスを構える。このPR会社のスタッフはキューレーター達が出入りする飯屋や飲み屋、そして入ることが可能な「キュ索」のロビーで屯するようになる。そこで、キューレーターと顔見知りになり、しまいには飲み仲間になる。そしてある日、「Foo金融のページがトップに出ないんだけどそうすればいいのだろう？」と相談をする。この返事の御礼として、金一封をテーブルの下で渡す。気が付いてみたら、ソーシャル・キュレートの検索結果は企業が買う広告スペースになっていた。

ありえない話だと思う人は合衆国の政治を見てほしい。米国政治は上記の例より開き直ていて、政治献金は合法で、lobbyといって業界や団体が政治家を影響するシステムが確立されている。
「ヘビースモーカーであったがホワイトハウスでの喫煙を妻に禁止されていたグラントは、付近に存在するウィラード・ホテルのロビーで葉巻を楽しんでいた。彼がしばしばこの場所に出没することを知った関係者は、ニコチンの助けを借りて上機嫌な大統領への陳情をこのロビーで行うようになった。ロビー活動の語源はこれにあるとされる。」 http://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%93%E3%83%BC%E6%B4%BB%E5%8B%95
需要さえあれば人力編集はすぐスパムされる「スパムの経済原理」の一例だ。

つまり、ソーシャル・人力編集・キュレーションにすればスパムが解決されるということはない。一時的に効果があっても人気が出てスパムの対象になるまでの束の間の話だ。

結論

グーグルは技術力でスパムに負けてはいない
アルゴリズムでスパム制御できないじゃなくて、ちゃんとやっていない…
…なぜなら、スパマとsymbiotic(共生)関係にあるようだから (この仮説は検証してみたい)
ソーシャルだろうがキュレートだろうが、成功すればスパムされるのは同じ
広告費で潤っているサービスは構造的にスパムを避けることができないだろう (ツイッターでご指摘受けているように)
スパム制御は仕組み(サーチ vs ソーシャル)でなく金の出所を変えないと駄目だろう

グーグルがスパマを厳しく排除できない関係になってしまって、損しているのはユーザだ。でも無料のサービスに客観性を求めのにもムシのいい話だ。だったら「ユーザが負けている」ってのも間違いだな。どっちかと言ったら「安物買いの銭失い」的な状況だ。
慣れて当たり前になってしまったが、無料で素晴しいサーチが楽しめた今迄の状況が異常だったのかもしれない。「グーグル、ここまでよくやった!」と褒めるべきなのかもしれない。
一方でスパムされていないアグリゲータは必要なので、構造的にユーザと利害が一致した検索・レコメンデーションサービスを作る時期がきたのかもしれない。勝ち負けやモラルの問題でなく、違った形態のサービスが必要になっただけだ。

これから

disruptiveな検索エンジンの候補を探してみる
グーグル・スパマ共生仮説を検証してみる