PDA

Pogčedajte punu verziju : PHP/MySQL Charset Problem


dinke
28. 11. 2006., 15:26
Trenutno radim na projektu koji između ostalog importuje feedove sa raznih sajtova u bazu koji se posle mogu pregledati iz frontenda. Feedove importuje cli php script, charset feedova je utf8 što je takođe i charset kompletne baze i svih tabela u njoj. Na Web frontendu charset je takođe setovan na utf8 (<meta http-equiv="content-type" content="text/html; charset=utf-8" />) i sve izgleda sasvim ok.

Juče sam poželeo da prebacim kompletan sadržaj mysql tabela u lokal, odradio export sa mysql dumpom, međutim nakon importa u lokalu su naši karakteri (šđčćž) zeznuti. Probao sam da export odradim i sa phpmyadmin-om koji inače ne koristim, ali situacija je manje više ista. Na serveru je 5.0.24, u lokalu MySQL 4.1, a što se MySQL PHP-a API-a tiče (mada to verovatno nije bitno) koristi se PHP 5.1.x i MySQLi.

Nakon celodnevnog prčkanja provalio sam da su neka podešavanja MySQL-a (konekcija i sl) setovani na latin1.


mysql> show variables like 'char%';

+--------------------------+--------------------------------------------+
| Variable_name | Value |
+--------------------------+--------------------------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /data/mysql/angelita/share/mysql/charsets/ |
+--------------------------+--------------------------------------------+
8 rows in set (0.45 sec)


Identično i kod mene u lokalu, međutim u lokalu slova ne izgledaju kako treba. Nakon daljeg prčkanja provalio sam da, ako se odmah nakon konekcije iz PHP-a odradi: SET NAMES 'utf8'; query, isključivo u oba dela aplikacije (i import i frontend) sve bude kako treba i u lokalu i na serveru (koji je btw na Dream Hostu). Ako se recimo SET NAMES 'utf8' samo stavi na frontendu, sa postojećim podacima koji su već importovani, slova opet nisu kako treba.

E sad, interesuje me, ima li iko predstavu šta se desilo sa tim tekstom na serveru(pošto se on tamo lepo vidi) koji je već importovan. Nije mi frka da sad stavim i kod importa i kod frontenda set names utf8, ali problem je onda sa starim tekstovima pošto se oni onda ne vide kako treba (dobijam '?' umesto naših slova). Jasno mi je da je latin1 konekcija nekako napravila problem, ali pitam se kako sad to mogu da ispravim. Inače, odradio sam export/import na istom serveru(DreamHost), samo na drugom hostu i sve je izgledalo savrseno, jedino kod mene u lokalu problem ostaje (ostale servere nisam isprobavao).

Inače, nisam se nešto preterano bavio utf aplikacijama, ali ranije mi charset MySQL konekcije nije pravio problem(a niko koga sam sinoć kontaktirao preko ICQ-a takođe nije imao problem sa istim).

Hvala unapred na pomoći, nadam se da sam dovoljno dobro izložio problem, ako nešto nije jasno tu sam :)

bluesman
28. 11. 2006., 15:31
Kao što sam ti rekao malo pre, meni se to dešavalo ponekad, a najčešće ovde u office, jednostavno kakav god dump uradim i na koji god način ga ubacim, nemam malo slovo č i veliko Đ. Kada radim input ovde, onda je sve ok. Kako sam rešio problem? Samo sam prepisao ceo mysql novijom verzijom, isti je settings, isti my.ini isto sve, i od jednom sve radi kako treba.

I to mi se dešavalo samo na ovom računaru (mada, samo ovde sam imao tu verziju mysql: 4.1.10a)

cvele
28. 11. 2006., 15:45
jeste malo cupavo ali mozda ce ti ovo pomoci...
(verovatno ce vecina reci da je ovo divljacko resenje ali verujem da bi moglo da upali)

Za pocetak zadas kontrolno polje odnosno nesto po cemu ces moci da ralikujes stare unose (koji su latin ?) od novih (koji su utf?).
Pre ispisa proveris da li se radi o starom (latin) ili o novom (utf) i prema tome menjas vrednost charset sesije...

Iz glave mislim da ide ovako:

set session character_set_results = 'utf-8'


ukoliko ovo ne pomogne mozes da pokusas da konvertujes podatke iz latin u utf. napravi temp tabelu i jednu php petlju koja ce presipati podatke u tu temp tableu ali pre svakog inserta uradi iconv...

hope this helps

Dragan Babić
28. 11. 2006., 16:00
Meni se to uvek desi kada exportujem bazu bloga sa host011 i importujem je u easyphp ili xampp na lokalu. Zanimljivo je da kada importujem nazad na host011 sve bude ok. Encodinzi su voodoo magic bre, zajebi to sranje, daj mi fotošop. :P

bluesman
28. 11. 2006., 16:19
^ to ako koristiš phpmyadmin. Onda moraš da uradiš ono što dinke kaže: set names 'utf8';

dinke
28. 11. 2006., 17:26
Odradio upgrade na MySQL 5.0 u lokalu, odradio import i sada je sve ok, iako sam izbacio "set names 'utf8' " iz php koda. E sad, pravo je pitanje da li je bio u pitanju zaglup sa MySQL serverom, ili su podaci u bazi i dalje pogresno upisani (iako se vide kako treba).

Ilija Studen
28. 11. 2006., 17:31
MySQL je stvarno napravio papazjaniju sa charsetima u 4.1. Što kaže Dragan, voodoo magija. Stvarno mi nije jasno kako su mogli tek tako da krenu sa celom pričom i da još stavi latin1 kao default charset? Malo glupo s obzirom na tržište koje MySQL cilja i da sad pokušavaju da se uguraju na enterprise tržište.

Ako nemaš problema sa postojećim podacima priča je sledeća: baza UTF-8, tabele UTF-8, collation polja utf_general_ci, konekcija na bazu UTF-8. Tada sve radi kako treba dokle god instalacije sa kojima radiš imaju podršku za njih.

Peđa je postovao blok koda izvučen iz SMF-a koji konvertuje latin podatke u Unicode ovde (http://www.devprotalk.com/showpost.php?p=21032&postcount=11).

dinke
28. 11. 2006., 18:34
Ako nemaš problema sa postojećim podacima priča je sledeća: baza UTF-8, tabele UTF-8, collation polja utf_general_ci, konekcija na bazu UTF-8.
Sve ovo je i bilo utf8 osim konekcije. Moze li mi neko objasniti sta se tacno desava kada konekcija nije utf8 vec latin1 ?

ppavlovic
28. 11. 2006., 19:07
Najverovatnije ces dobiti "?" umesto cirilicnih (i drugih visebajtnih karaktera), a latinicna slova šđćčž bice svedena na njihove ascii ekvivalente (ako je moguce) ili "?". Uglavnom, problem nastaje u tome sto pokusas da stavis dva ili vise bajta u jedan bajt (utf-8 karakter u "Latin1" opseg).

E, sad bih voleo i meni neko da objasni :)

dee
28. 11. 2006., 19:43
cini se da je ovaj napiso pokoju pametnu...

http://www.oreillynet.com/onlamp/blog/2006/01/turning_mysql_data_in_latin1_t.html