俺日記のしんじです。一人称は僕です。
下記のようなcurlの関数を用意し、euc-jpのページを取得し、シェル内でで取得したページを確認すると文字化けしていることに気づいた。
1 2 3 4 5 6 7 8 9 10 |
function curl_get_contents($url, $timeout = 60) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, $timeout); $result = curl_exec($ch); curl_close($ch); return $result; } |
上記コードを下記のように変更することで文字化けを防ぐことができる。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
function curl_get_contents($url, $timeout = 60) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, $timeout); $result = curl_exec_utf8($ch); curl_close($ch); return $result; } /** The same as curl_exec except tries its best to convert the output to utf8 * */ function curl_exec_utf8($ch) { $data = curl_exec($ch); if (!is_string($data)) return $data; unset($charset); $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE); /* 1: HTTP Content-Type: header */ preg_match('@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches); if (isset($matches[3])) $charset = $matches[3]; /* 2: <meta> element in the page */ if (!isset($charset)) { preg_match('@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches); if (isset($matches[3])) $charset = $matches[3]; } /* 3: <xml> element in the page */ if (!isset($charset)) { preg_match('@<\?xml.+encoding="([^\s"]+)@si', $data, $matches); if (isset($matches[1])) $charset = $matches[1]; } /* 4: PHP's heuristic detection */ if (!isset($charset)) { $encoding = mb_detect_encoding($data); if ($encoding) $charset = $encoding; } /* 5: Default for HTML */ if (!isset($charset)) { if (strstr($content_type, "text/html") === 0) $charset = "ISO 8859-1"; } /* Convert it if it is anything but UTF-8 */ /* You can change "UTF-8" to "UTF-8//IGNORE" to ignore conversion errors and still output something reasonable */ if (isset($charset) && strtoupper($charset) != "UTF-8") $data = iconv($charset, 'UTF-8', $data); return $data; } |
参考:http://stackoverflow.com/questions/2510868/php-convert-curl-exec-output-to-utf8
以上。