Programmering: hoe te detecteren en te lezen van UTF-8-tekens in teksttekenreeksen... (1 / 16 stap)

Stap 1: Optionele herinnering over tekstbestanden en tekensets:


(Als je al weet hoe ASCII-tekens worden gecodeerd in tekst-bestanden, kunt u deze stap overslaan.)

Computer van binaire bestanden (foto's, muziek, uitvoerbare, etc.) en de computer de tekstbestanden (.txt-bestanden) zijn hetzelfde: ze alle computerbestanden.

Een computerbestand is een lijst van bytes.
Een byte bestaat uit 8 bits.
Een beetje is een fundamentele binaire (2 staat) element. Kan worden ingesteld (bevat 1) of unset (bevat 0).

Door het veranderen van de Staten van de 8 bits van een byte, is het mogelijk om 256 verschillende combinaties te maken.
Elke combinatie vormt een binair getal.
Het is mogelijk om te converteren van binaire getallen naar decimale getallen.
Het is dus mogelijk om te rekenen in het binaire:

00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)

Dus, elke byte van een computerbestand bevat een numerieke waarde van 00000000 tot 11111111 in binaire (van 0 tot 255 in decimale notatie).

Vervolgens kunnen we bytes gebruiken om op te slaan van alle gehele getallen van 0 tot 255.
Als we willen voor de opslag van historische data zoals 1783 of wiskundige waarden als 1.41421, zijn we gedwongen om "encode" ze met behulp van meerdere bytes.
Met twee bytes is het mogelijk voor het opslaan van gehele getallen tussen 0 en 65.535.
Met 4 bytes is het mogelijk om te coderen (met sommige eventuele onderlinge aanpassing) enige reële getallen.

Het zelfde gaat met tekst: elk teken van een string is gecodeerd in een waarde tussen 0 en 255, geven, dus maximaal 256 verschillende tekens.

In het begin, zoals computers waren vooral een westerse technologie, 256 mogelijke tekens was meer dan genoeg: 26 kleine letters, 26 hoofdletters, 10 cijfers, paar punctuatie symbolen...
Amerikanen gemaakt de standaard ASCII (American Standard Code for Information Interchange).
Het was algemeen gebruikt (en aangepast) in Europa ook. Het heeft zelfs uitgebreid bevatten de meeste van de geaccentueerde karakters op grote schaal gebruikt in Europa.

Dus, elke byte van een ASCII (of platte tekst) bestand 1 teken bevatten.

Echter niet alle landen over de hele wereld gebruiken het moderne Latijnse alfabet.
Russen gemaakt bijvoorbeeld hun eigen norm, die onverenigbaar met de standaard ASCII is. Griekse gemaakt hun eigen norm, die onverenigbaar met de ASCII-standaard, etc is.

Voor lange tijd op het internet, het was erg moeilijk om weer te geven van verscheidene verschillende alfabet samen op dezelfde pagina, omdat elke alfabet nodig een andere "charset encodering", en slechts één "charset encodering" per pagina gemakkelijk mogelijk was.

Internationale sites zoals Wikipedia zou zijn geweest zeer moeilijk te maken.
De meest voorkomende truc om het weergeven van wiskundige formules of Chinese karakters op een Engels pagina, moest ze weergeven als foto's...

Ze gingen snel tot de conclusie dat 256 tekens niet genoeg was, en dat elke verschillende en mogelijk tekens en symbolen van de wereld moest worden gegroepeerd in een enkele en universele set van teken: Unicode.
.

Gerelateerde Artikelen

ULTIEME gids op hoe te detecteren Bed Bugs | Opsporing van de besmetting van een Bed Bug

ULTIEME gids op hoe te detecteren Bed Bugs | Opsporing van de besmetting van een Bed Bug

Bed bugs zijn niet alleen gevonden in schetsmatig kamers op de verpauperde kant van de stad. Deze parasitaire insecten kunnen gedijen in de schitterendste hotelkamer of in de slaapkamer van een miljoen dollar home. Leren Hoe te detecteren bed bugs is
Hoe om te lezen van de temperatuur gegevens op uw website?

Hoe om te lezen van de temperatuur gegevens op uw website?

Vandaag, ik ga u tonen hoe temperatuur om gegevens te lezen van DHT11 vochtigheid en temperatuursensor is aangesloten op de Arduino UNO die gebruik maakt van de ethernet-shield temperatuur om gegevens te verzenden naar uw persoonlijke website! Dit kl
Hoe om te leren lezen van Tarot in 5 weken

Hoe om te leren lezen van Tarot in 5 weken

Hoe studeren een nieuwe Tarot-Deck of gewoon leren tarot voor de eerste keer... in slechts 5 weken!Stap 1: De hoofdstapel meerdere malen De hoofdstapel meerdere malen totdat u bekend met alle afbeeldingen en symbolen op alle kaarten bent. Neem de tij
Hoe om te lezen van E-boek met Supercard dstwo?

Hoe om te lezen van E-boek met Supercard dstwo?

Hier is de stap voor stap handleiding om u te tonen hoe om te lezen van ebooks met supercard dstwo .Stap 1: na de dstwo op nintendo console instellen (hier is het leerprogramma als u niet instellen: het instellen van de dstwo met de nieuwste firmware
Hoe om te lezen van kant en klare tijdschrift

Hoe om te lezen van kant en klare tijdschrift

ik hou van de kant en klare magazine en hebben sinds een semi-frequente koper, en nu abonnee, punt 5. Lezing over andere projecten is inspirerend spul. Ik zelden aanbrengen van de projecten, ik ben meestal geïnspireerd om iets anders te doen, maar he
Hoe maak je een Gondorian pak van Armour bouwen van authentieke materialen (Nou ja, bijna)

Hoe maak je een Gondorian pak van Armour bouwen van authentieke materialen (Nou ja, bijna)

ATENTION: Neem grote zorg met plaatwerk en draad. U kunt steken uw huid en of jezelf snijden. Draag handschoenen en beschermende eye slijtage en lange mouwen en lange broek. Die betrekking hebben op huid hier is erg belangrijk. Bij het schilderen, do
Sigma! lezen van horloge

Sigma! lezen van horloge

Hallo! Mijn naam is Andrew Shubin en dit is het verhaal hoe ik aan het doen was het project van horloge met e-Inkt vertoning voor het lezen van boeken op de school Fab Lab Polytech!Stap 1: Idee creatie! Ik ben dol op lezen, en u? Boeken - mijn beste
Hoe maak je een Wimboot installatie van Windows 8.1

Hoe maak je een Wimboot installatie van Windows 8.1

IntroductieOoit afgevraagd hoe computerfabrikanten een 20 GB-installatie van Windows op een 16 GB drive kunnen passen? Het is nu mogelijk met Windows 8.1 via een functie genaamd "wimboot." Traditioneel, computers die beschikten over een boot, he
Hoe een fundamentele vergadering met behulp van Solidworks Model

Hoe een fundamentele vergadering met behulp van Solidworks Model

Nieuw voor SolidWorks? Dat is geen probleem!Doel:Deze instructies zijn bedoeld voor iemand die nieuw zijn aan het gebruik van SolidWorks, en wie heeft enigszins elementaire computervaardigheden. Een basiskennis van dimensies zal ook nuttig zijn. Een
Hoe maak je een YouTube-Video van de verborgen Camera

Hoe maak je een YouTube-Video van de verborgen Camera

Het is al een tijdje sinds mijn laatste instructable; het is eigenlijk bijna een jaar geweest. Ik nog vaak kennisnemen van de site, maar mijn creatieve inspanningen hebben verschoven. Ik ging door een sterke fotografie-fase voor een tijdje, en nu ben
Hoe reverse-engineering een schematische voorstelling van een circuit bord

Hoe reverse-engineering een schematische voorstelling van een circuit bord

dit project is een resultaat van hoeft te een binnenlandse elektronische serviceartikel zonder zijnde kundig voor het verkrijgen van een schakeldiagram.Het proces bleek zeer lange en moeizame, maar ook zeer de moeite waard.  De stappen die hier worde
Hoe maak je een korte Film van Professional voor $80 (deel II - productie)

Hoe maak je een korte Film van Professional voor $80 (deel II - productie)

Oke, als u niet reeds de prequel van dit instructable dan gaan hier gezien:Met die uit de weg, Welkom bij deel II van het maken van een "professionele" korte film voor $80. We zullen het bespreken van het productieproces.Dus hebt u uw gegoten, a
Hoe maak je een groeien vak van A tot Z

Hoe maak je een groeien vak van A tot Z

een gesloten grow box system zal u toelaten om maken en beheren van uw eigen groeiende omgeving zoals de zon, regen, wind, lucht, voedingsstoffen en pest control.Ik heb onlangs besloten om te bouwen van een grow-box die 5 maatregelen ' x 2'x 2' zodat
Hoe controle 3 servomotoren met behulp van Push Button Switches en een Arduino Uno

Hoe controle 3 servomotoren met behulp van Push Button Switches en een Arduino Uno

In dit project stel ik mezelf de taak van het regelen van het verkeer van 3 servomotoren door drukknop schakelaars. Mijn bedoeling is het gebruik van deze knoppen om de beweging van een drie-servo robotarm controle.Wat ik ook wil gebeuren:1. Ik wil b