Jリーグ日程取得する勝手API
Jリーグ公式サイトをスクレイピングして、Jリーグの日程を取得する勝手WebAPIを作ってみた。
本体は、PHPで作成。
最初、取得したHTMLをHTML_Parserを使用して、一旦xhtmlに変換してから修理してたのだが、HTMLのサイズがでかいので、ここでかなり時間を食っていた。
しょうがないので、HTMLを直接DOMdocumentのparseHTMLで読ませたら、なぜか文字化け。あれこれと調べてたら、どうもpaseHTMLは、HTML内のMETAデータを判断してエンコードしてるらしい。
取得したHTMLはいきなりBODYから始まってたんで、HEADタグすらない。しょうがないので、強引にHEADタグを挿入してみてから、parseHTMLしたらうまくいった。
