HTML文字化け - ぶろぐ。@はてな

なのでおかしいHTMLをXHTMLなりXMLなりに整形・変換してくれるサービスを探す。いくつか見つかった。
（中略）
やってみるとどれも日本語が化ける。Shift_JISには対応してないらしい。
Pipesメモ

Akiba PC Hotline!のフィードを作っていたが、文字化けするのをGoogleのモバイルゲートウェイ(http://www.google.co.jp/gwt/n)通して回避してやっとできたと思ったらいつの間にか化けなくなってる。なんじゃそりゃー。

追記：さらに

Googleのキャッシュを使ってもOK。ただし当然更新が遅くなるけど。

http://www.google.co.jp/search?q=cache:http%3A%2F%2Fwww.watch.impress.co.jp%2Fakiba%2F

これはYQLに応用できます。つまりYQLのselect * from htmlで、読み込みエラーになるHTMLでもキャッシュを通せば読み込める（たぶん）。例：

select * from html
  where
    url="http://www.google.co.jp/search?q=cache:http%3A%2F%2Fwww.watch.impress.co.jp%2Fakiba%2F"
      and
    xpath="//a[contains(@href, '20090131')]"

のようにして1/31の記事へのリンクをすべて抜き出すことができる。XPathは強力。(→ http://tinyurl.com/boo97p )