12 października 2006

Dorośliśmy do Unicode?

Unicode My Ass

Unicode jest używane na większości nowoczesnych stron. Dzięki niemu odpadają wszelkie konwersje znaków diaktrycznych. Sieć się nam otwiera - jeśli chcę napisać komentarz fotki znajomego na Flickr, użyję polskich ogonków i nie wyskoczą mi kwadratowe krzaki albo znaki zapytania - dzięki najpopularniejszemu UTF-8. Stworzenie nowej wersji językowej, w dobrze zaprojektowanym serwisie, to tylko kwestia napisania nowych ciągów znakowych - w ten sposób powstała japońska wersja last.fm.

Lecz Unicode to też przeszkadzajki, żeby nie powiedzieć zagrożenia. W unikodzie dostępne są znaczki odwzorujące rysunki albo umożliwiające rysowanie tekstem prostych diagramów. Pisał o tym Piotr Konieczny, zwracając uwagę że widoczność reklam AdSense może być polepszana.

Mi przypomniało się to wszystko po przejrzeniu dzisiaj Digga:

Unicode in Digg link's title

Uważam, że możliwość rzeźbienia znaczkami jest wspaniała, ale w określonych miejscach. Na przykład uczestniczę na Last.fm w grupie tworzących ze swoich profilowych „About Me” dzieła sztuki. Lider grupy - bigpixels posiada naprawdę interesujący layout:

Interesujący sidebar użytkownika bigpixels

Tyle się mówi o lepszej sieci, o standardach - ale użytkownicy pozostają tacy sami. Nie tyle uczą się nowych technologii, a wykorzystują ją nieświadomie w zupełnie innym celu. Wyobrażacie sobie serwis blogowy pokroju blog.onet.pl ze wsparciem dla Unicode? Co druga notka zaczynałaby się od ciągu serduszek.

Co się bodaj dzieje już na Gronie - kiedyś się w to bawiłem, ale przestałem kiedy zaczęło się tam „zbieranie ludzi” i sortowanie alfabetyczne na liście znajomych.

Wyjściem jest przefiltrowanie takich znaków, oczywiście. Lecz to chyba nie było zamiarem twórców kodowania obsługującego wszystkie (albo znaczną większość) symbole na świecie, hmm? Jakie są Wasze przemyślenia na temat uniwersalnego kodowania?

  1. 12 października 2006, 19:52:51 Nazgul »

    Jeśli ludzie używają unicode z głową to jestem jak najbardziej za. Al rzeczywiście taka banda rozwrzeszczanych nastolatek może przyprawić o nudności (wystarczy obaczyć co potrafią z ascii i opisami :/)

  2. 12 października 2006, 19:57:59 wizard3k »

    About tego gościa imponujące.

    Nawiązując do myśli o nastolatkach.. wszystkie te, z którymi mam kontakt używają GG. Tam nie ma wspracia w statusach dla Uni, do tego ograniczenie 70 znaków. Blogi na onecie w większości omijam szerokim łukiem, więc dla mnie osobiście takie zachowanie było by nie zauważalne.

    A za Unicodem stanę murem :), reklamować i polecać mogę każdemu ;)).

  3. 12 października 2006, 19:59:08 Dot »

    Ja osobiście jestem wielkim zwolennikiem Unicode, w szczególności UTF-8. A to, że ktoś sobie chce wstawiać serduszka - a niech se wstawia, kto mu broni? Lepiej tak, niż jakby miał tam się znaleźć obrazek, którego ściągnięcie zajmie dużo więcej czasu i zeżre dużo więcej transferu. Generalnie jestem liberałem w kwestii tego, co toleruję na stronach. Czy są to serduszka, wypociny o tym, co się jadło na śniadanie, czy dokumentacja techniczna. Po to jest sieć, by każdy mógł z niej w równym stopniu korzystać. Całkiem inną sprawą jest, jakby nagle na moim joggu ktoś wstawił paradę serduszek w komentarzu - poza paroma osobami, od których tego pokroju komentarz byłby miły, w większości przypadków wylądowałby w /dev/null. Nienawidzę również trollowania na forach i innych takich, ale jeśli ktoś chce prowadzić własnego bloga o zwykłych rzeczach, o każdym dniu, który upływa, to niech to robi. W końcu nikt nikogo nie zmusza, by to czytać.

  4. 12 października 2006, 20:18:15 doiy »

    U mnie sytuacja ta sama co w przypadku wizardka - ta sama kategoria wiekowa.
    Ale często mnie drażnią mnie ograniczenia Unicoda w GG... Przydają się czasami ułamki czy potęgi na przykład.

  5. 12 października 2006, 20:44:34 Bratbud »

    Żeby wstawić serduszko, trzeba wiedzieć jak to robić. Blogi onetowskie [mam tu na myśli stereotypowy, słitaśny blogaffek, bo trafiają się ciekawe] są znakomitym przykładem na 'dodo-effect', czyli zwulgaryzowane uczenie się przez naśladowanie.
    UTF-8 jest po prostu wygodne i myślę, że jego upowszechnienie to kwestia czasu, które to przewidywanie może okazać się błędne.

  6. 12 października 2006, 20:51:11 r.d. »

    Owszem, dorośliśmy, ale twórcy oprogramowania nie. Bardzo mnie zadziwiło, gdy odkryłem, że większość darmowych edytorów PHP nie obsługuje UTF-8, a w płatnych np. w Pajączku pozostawia ta obsługa wiele do życzenia.

  7. 12 października 2006, 20:53:56 Yano »

    Z dobrodziejstw unikodu korzystam już od jakiegoś czasu. Ot, choćby takie znaczki jak wielokropek (…), dywiz (–), pauza (—) czy właśnie wspomniane wyżej ułamki (½, ¼, ¾), które w normalnym trybie są nieosiągalne.

    A że unikod dopuszcza nietypowe »wyróżnianie«? No cóż, albo moda minie jak się ludzie opatrzą z „dziwnymi znaczkami” albo trzeba się będzie przyzwyczaić.

    Kwestia onet-blogów to trochę inna sprawa – małolaty cieszyć się będą z możliwości umieszczania serduszek, buziek czy innych znaczków. Natomiast ludzie, którym takie zachowanie przeszkadza raczej nie siedzą po nocach bawiąc się w nabijanie komentarzy na tego typu stronach, więc im i tak wszystko jedno co »rooshofa frooshka« znowu znalazła w tablicy znaków. ;)

  8. 12 października 2006, 20:54:14 Bratbud »

    @r.d.: nie wiem jak to wygląda obecnie, ale parę lat temu 'samouczki html' zalecały kodowanie ISO-8859-2. Z niektórych wynikało wręcz, że UTF-8 to prawie takie samo zło jak cp-1250.

  9. 12 października 2006, 21:09:50 MuKuL »

    Oczywiście na co dzień używam polskiego ANSII (iso-8859-2) - zwykły, bo nie oczekuję od niego wiele. Jednak wiadomo, że do większych projektów lepszy jest Unicode.

    Co do nastolatek - to one w ogóle wiedzą jak takie bajery robić :-)? Myślałem, że na chama wrzucają migające "gifki".

  10. 12 października 2006, 21:10:54 Uzytkownik »

    Mam system w utf-8 i dobrze mi się z tym żyje. O blogach na onecie tylko słyszałem.
    IMHO jeśli ktoś wstawia takie serduszka - wolno mu. Ja raczej czytać tego nie będe.

  11. 12 października 2006, 21:13:47 Riddle »

    Mówicie że nie zaglądacie na blog.onet.pl - a co, ja zaglądam? ;-) Nikt nie kojarzy tych znaczków z „aaaa” w ogłoszeniach gazetowych?

    Założenie wpisu jest takie - używamy Unicode, bo robimy nowoczesną sieć (powoli, ale zawsze). I teraz przez to dajemy narzędzie ludziom na poziomie - jak my, do używania poprawnej typografii (@Yano) - oraz tym którzy chcą się wybić jak w przykładzie o AdSense i Digg.

    Widzicie to?

  12. 12 października 2006, 22:19:01 bigpixels »

    Wow. Sorry if I asked everyone so many questions about why they hit my page from Poland like that. I emailed ridd1e and he explained it me.

    bigpixels
    UNICODE/ASCII art on last.fm

  13. 12 października 2006, 22:24:07 Michał Górny »

    Moim zdaniem, unikod jest konieczny dla poprawnej polskie typografii. Z tego, co się orientuję, iso-8859-2 nawet nie dopuszcza istnienia „polskich” cudzysłowów, czym kuleje nawet w stosunku do cp1250. Nie wspominając już o zamieszczaniu obcojęzycznego tekstu wewnątrz tekstu polskiego. A transliteracja to już nie to samo…

  14. 12 października 2006, 22:27:59 Biały »

    Jakbyśmy czekali z każdą technologią, aż cała sieć do niej „dorośnie”, do tej pory nie byłoby Usenetu.

    Ja tam jestem zdecydowanie zwolennikiem Unikodu i używam go (konkretnie, UTF-8) gdzie się tylko da (a da się chyba już wszędzie, gdzie zaglądam). Nie widzę powodu, dla którego miałbym gdziekolwiek dobrowolnie wracać do czegoś innego.

    Robienie szlaczków było możliwe i bez Unikodu, zresztą wyszukiwarka-wszystkiego-na-świecie tak czy inaczej musi pozwolić na wyświetlanie różnych dziwnych znaczków (chińskich, rosyjskich, japońskich). Serduszka od blogasków mnie nie odstraszą, bo czuję się odstraszony i bez nich.

    Natomiast problem z „utf-artem” przewiduję taki, że będzie się pojawiał akurat tam, gdzie używane są proporcjonalne kroje pisma.

  15. 12 października 2006, 22:29:30 Riddle\'s Jogger »

    Biały: Możliwe jest uzyskanie ładnych znakowych obrazów bez użycia fontów monospace, przykład masz we wpisie. ;)

  16. 12 października 2006, 22:33:39 Biały »

    bigpixels umieścił napis poziomo, więc możliwości rozjeżdżania są niewielkie (chyba, że użył jakichś znaczków, które mają ściśle zdefiniowaną szerokość). Ale dopiero co widziałem (na gronie) coś takiego:

    http://img270.imageshack.us/my.php?image=zrzutekranumg4.png

  17. 12 października 2006, 22:41:06 Byru »

    Przeglądając dziś digg'a też oczywiście zauważyłem ten wpis (tródno nie zauważyć :P). UTF-8 daje wiele możliwości ale jak zwykle trzeba znać umiar w jego wykorzystaniu. Tak jak niegdyś rządziły animowane gify, jeżdżące po akranie stringi czy inne świecidełka - dziś nie ma dla nich miejsca. Ludzie mogli je wykorzystywać i to robili (niektórym to niestety zostało :]) ale elementy te nie przyjęły się i nie są częściami dzisiejszych layoutów. Tak samo znaczki Unicodowe - zapewne znajdą zastosowanie (znajdują) i zostaną wykorzystywane szerzej - jednak taka fascynacja (jak tworzenie z nich tekstów/tytułów) będzie tylko chwilowa. Co do wpisu na digg'u - ludzie wykopują to bo jest to dla nich coś nowego, coś czego jeszcze tam nie widzieli. Jednak za chwilę zapomną o tym i podejrzewam, że większość z nich w życiu nie będzie się w to bawić :)

  18. 13 października 2006, 10:13:47 sanity-kills »

    Osobiście uważam, że UTF8 powinno być wszędzie, zgodnie z zasadą, że lepiej tworzyć dla ogółu niż szczegółu (lepiej jeden utf8 niż iso-8859-2, iso-8859-5, koir-2 itp itd).

    niezły tekst o Unicode: http://www.joelonsoftware.com/articles/Unicode.html

  19. 13 października 2006, 10:44:54 Uzytkownik »

    Co tam "niektorzy", jak piszą w tym artykule. Definicja Unicodu w IBO brzmi:
    A standardized 16-bit character set that represents the character sets
    of most major languages in the world. See also the definition for
    “ASCII”.
    Oprócz tego, że są znaki >= 0x10000 i utf-8 zapisuje w 1-4 bajtach (a nie dwuch) to wszystko się zgadza...

  20. 13 października 2006, 13:41:55 pk »

    O tym już nie zdążyłem napisać:

    http://video.google.pl/videoplay?docid=-8464738378799735585

    (tagus jest po prawej stronie klipu)

  21. 13 października 2006, 15:06:53 Michał Górny »

    Tamta definicja jest jednak dosyć przestarzała. Należy brać pod uwagę, że Unikod się wciąż rozwija. Znaki > 0xFFFF są, ale w UTF-32. Definicja zaś raczej określała UTF-16. Tylko można się zastanawiać, czy pewnego dnia nie okaże się, że UTF-32 nie wystarcza i przyjdzie pora na UTF-64?

  22. 13 października 2006, 15:29:54 Dot »

    Czy ja wiem? W tym momencie najbardziej popularny jest UTF-8. Pozwala na skuteczne (oszczędne) zapisywanie tekstów, a jednocześnie pozwala na rozszerzenie możliwości dzięki kilkubajtowym znakom (pozwala zapisać każdy znak istniejący w jakimkolwiek standardzie AFAIK)

  23. 13 października 2006, 19:08:42 Nikt »

    Ja poperam UTF. Znacznie upraszcza życie brak problemów z wyświetlaniem czegokolwiek. Osobiście mam cały system od a do z na UTF, jaka to przyjemność trzy kilknięcia i wpisuję z klawiatury cyrlice, czy inny alfabet.

  24. 13 października 2006, 19:47:26 Uzytkownik »

    Michał Górny: Nie zaprzeczam. Ale było to podane jako definicja Unicodu...
    Pytanie na maturze może być:
    Ile zajmuje znak zapisany w unicodzie?
    Jedyną poprawną odpowiedzią jest 2 bajty, niezależnie od rzeczywistości...

  25. 13 października 2006, 20:41:30 Michał Górny »

    Bo w sumie kiedyś Unikod = UTF-16. Można nawet przypuszczać, że autorzy nie spodziewali się aż takiego rozwoju.

  26. 13 października 2006, 20:43:40 Uzytkownik »

    Michał Górny: Wydane w zeszłym roku ('aktualizują' co dwa lata)...
    Rozumiem, że kiedyś Unicode == UTF-16, ale chyba nie rok temu ;)

  27. 13 października 2006, 21:04:49 SebaS86 »

    Udziwnianie treści było stosowane od zawsze, Unicode doda tylko kilka nowych możliwości, a przy okazji ułatwi pracę całej reszcie. Dzięki temu jak słusznie podkreśliłeś nikt nie musi się martwić, że serwis jest obcojęzyczny albo czekać na lokalizację oprogramowania.

  28. 15 października 2006, 00:37:21 Łukasz Więcek »

    Tak, tak, tak i jeszcze raz tak! UTF-8! ;) Swojego bloga wreszczie w 100% przerobiłem na UTF-8 i nie żałuję. A na pewno nie żałowałem, gdy przyszło mi zmieniać hosting, a nowy serwer bazy danych nie obsługiwał iso-8859-2 :)

  29. 16 sierpnia 2007, 21:43:43 Pigmej »

    Oczywiście, że za UTF-8.

    Tyle że do tego trzeba mądrych użytkowników aby „nie śmiecili”...

    A o to w Polsce niestety najtrudniej

Antyspam

Do formatowania komentarza (zwłaszcza linków) używaj Markdown. W razie wątpliwości użyj podglądu.

Komentarze mogą zostać ukryte (zmoderowane) jeśli mijają się z tematem wpisu. Poprawiane są też niepodlinkowane hiperłącza i większe cytaty.

Pamiętaj – ludzie patrzą.