url2title

また調子悪かったようなので改良?

  • getCharsetの正規表現を少しだけ変えた
  • text/htmlを見つけたときログ出力チャンネルに出すようにした(100行目)



結局改造の原因になったページは未解決。

この部分で引っかかっているらしい。
正常にレスポンスを得れず、リクエストごとにサイズが違ったり、文字が化けたり。
HTTPリクエストヘッダでRangeを指定しなければ正常に得られるのだけど、
そうすると今度は画像等を最後まで読みに行ってしまう。
該当ページ自体は32kbもないのでレンジ内に検索対象がない、といわけでもない。
まったく謎。


あとTogetter他いくつかのページが取得できていなかったのはなぜだろう…。
同じスクリプト正規表現等も同じなのに他人は取得できてたり、私にはできてなかったりした。