PHP/MySQL Charset Problem
Trenutno radim na projektu koji između ostalog importuje feedove sa raznih sajtova u bazu koji se posle mogu pregledati iz frontenda. Feedove importuje cli php script, charset feedova je utf8 što je takođe i charset kompletne baze i svih tabela u njoj. Na Web frontendu charset je takođe setovan na utf8 (<meta http-equiv="content-type" content="text/html; charset=utf-8" />) i sve izgleda sasvim ok.
Juče sam poželeo da prebacim kompletan sadržaj mysql tabela u lokal, odradio export sa mysql dumpom, međutim nakon importa u lokalu su naši karakteri (šđčćž) zeznuti. Probao sam da export odradim i sa phpmyadmin-om koji inače ne koristim, ali situacija je manje više ista. Na serveru je 5.0.24, u lokalu MySQL 4.1, a što se MySQL PHP-a API-a tiče (mada to verovatno nije bitno) koristi se PHP 5.1.x i MySQLi. Nakon celodnevnog prčkanja provalio sam da su neka podešavanja MySQL-a (konekcija i sl) setovani na latin1. Kôd:
mysql> show variables like 'char%'; Kôd:
SET NAMES 'utf8'; E sad, interesuje me, ima li iko predstavu šta se desilo sa tim tekstom na serveru(pošto se on tamo lepo vidi) koji je već importovan. Nije mi frka da sad stavim i kod importa i kod frontenda set names utf8, ali problem je onda sa starim tekstovima pošto se oni onda ne vide kako treba (dobijam '?' umesto naših slova). Jasno mi je da je latin1 konekcija nekako napravila problem, ali pitam se kako sad to mogu da ispravim. Inače, odradio sam export/import na istom serveru(DreamHost), samo na drugom hostu i sve je izgledalo savrseno, jedino kod mene u lokalu problem ostaje (ostale servere nisam isprobavao). Inače, nisam se nešto preterano bavio utf aplikacijama, ali ranije mi charset MySQL konekcije nije pravio problem(a niko koga sam sinoć kontaktirao preko ICQ-a takođe nije imao problem sa istim). Hvala unapred na pomoći, nadam se da sam dovoljno dobro izložio problem, ako nešto nije jasno tu sam :) |
Kao što sam ti rekao malo pre, meni se to dešavalo ponekad, a najčešće ovde u office, jednostavno kakav god dump uradim i na koji god način ga ubacim, nemam malo slovo č i veliko Đ. Kada radim input ovde, onda je sve ok. Kako sam rešio problem? Samo sam prepisao ceo mysql novijom verzijom, isti je settings, isti my.ini isto sve, i od jednom sve radi kako treba.
I to mi se dešavalo samo na ovom računaru (mada, samo ovde sam imao tu verziju mysql: 4.1.10a) |
jeste malo cupavo ali mozda ce ti ovo pomoci...
(verovatno ce vecina reci da je ovo divljacko resenje ali verujem da bi moglo da upali) Za pocetak zadas kontrolno polje odnosno nesto po cemu ces moci da ralikujes stare unose (koji su latin ?) od novih (koji su utf?). Pre ispisa proveris da li se radi o starom (latin) ili o novom (utf) i prema tome menjas vrednost charset sesije... Iz glave mislim da ide ovako: Kôd:
set session character_set_results = 'utf-8' hope this helps |
Meni se to uvek desi kada exportujem bazu bloga sa host011 i importujem je u easyphp ili xampp na lokalu. Zanimljivo je da kada importujem nazad na host011 sve bude ok. Encodinzi su voodoo magic bre, zajebi to sranje, daj mi fotošop. :P
|
^ to ako koristiš phpmyadmin. Onda moraš da uradiš ono što dinke kaže: set names 'utf8';
|
Odradio upgrade na MySQL 5.0 u lokalu, odradio import i sada je sve ok, iako sam izbacio "set names 'utf8' " iz php koda. E sad, pravo je pitanje da li je bio u pitanju zaglup sa MySQL serverom, ili su podaci u bazi i dalje pogresno upisani (iako se vide kako treba).
|
MySQL je stvarno napravio papazjaniju sa charsetima u 4.1. Što kaže Dragan, voodoo magija. Stvarno mi nije jasno kako su mogli tek tako da krenu sa celom pričom i da još stavi latin1 kao default charset? Malo glupo s obzirom na tržište koje MySQL cilja i da sad pokušavaju da se uguraju na enterprise tržište.
Ako nemaš problema sa postojećim podacima priča je sledeća: baza UTF-8, tabele UTF-8, collation polja utf_general_ci, konekcija na bazu UTF-8. Tada sve radi kako treba dokle god instalacije sa kojima radiš imaju podršku za njih. Peđa je postovao blok koda izvučen iz SMF-a koji konvertuje latin podatke u Unicode ovde. |
Citat:
|
Najverovatnije ces dobiti "?" umesto cirilicnih (i drugih visebajtnih karaktera), a latinicna slova šđćčž bice svedena na njihove ascii ekvivalente (ako je moguce) ili "?". Uglavnom, problem nastaje u tome sto pokusas da stavis dva ili vise bajta u jedan bajt (utf-8 karakter u "Latin1" opseg).
E, sad bih voleo i meni neko da objasni :) |
|
Vreme je GMT +2. Trenutno vreme je 13:45. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.