Por que os caracteres ingleses precisam de menos bytes para representá-los do que os caracteres de outros alfabetos?

Vídeo: Por que os caracteres ingleses precisam de menos bytes para representá-los do que os caracteres de outros alfabetos?

Vídeo: Como eliminar vírus de um computador sem precisar de antivírus #hacks #pc #dicas #edielcosta - YouTube 2024, Maio

2024 Autor: Geoffrey Carr | [email protected]. Última modificação: 2023-12-17 10:54

Enquanto a maioria de nós provavelmente nunca parou para pensar sobre isso, os caracteres alfabéticos não são todos do mesmo tamanho no número de bytes necessários para representá-los. Mas por que isso? A postagem de perguntas e respostas do SuperUser de hoje tem as respostas para a pergunta de um leitor curioso.

A sessão de perguntas e respostas de hoje nos é oferecida por cortesia do SuperUser, uma subdivisão do Stack Exchange, um agrupamento de sites de perguntas e respostas conduzido pela comunidade.

Imagem parcial do gráfico ASCII, cortesia da Wikipedia.

A questão

O leitor de superusuário khajvah quer saber por que diferentes alfabetos ocupam diferentes quantidades de espaço em disco quando salvos:


When I put ‘a’ in a text file and save it, it makes it 2 bytes in size. But when I put a character like ‘ա’ (a letter from the Armenian alphabet) in, it makes it 3 bytes in size.
What is the difference between alphabets on a computer? Why does English take up less space when saved?

Cartas são letras, certo? Talvez não! Qual é a resposta para este mistério alfabético?

A resposta

Os colaboradores do SuperUser, Doktoro Reichard e ernie, têm a resposta para nós. Primeiro, Doktoro Reichard:


One of the first encoding schemes to be developed for use in mainstream computers is the ASCII (American Standard Code for Information Interchange) standard. It was developed in the 1960s in the United States.







The English alphabet uses part of the Latin alphabet (for instance, there are few accented words in English). There are 26 individual letters in that alphabet, not considering case. And there would also have to exist the individual numbers and punctuation marks in any scheme that pretends to encode the English alphabet.
The 1960s was also a time when computers did not have the amount of memory or disk space that we have now. ASCII was developed to be a standard representation of a functional alphabet across all American computers. At the time, the decision to make every ASCII character 8 bits (1 byte) long was made due to technical details of the time (the Wikipedia article mentions the fact that perforated tape held 8 bits in a position at a time). In fact, the original ASCII scheme can be transmitted using 7 bits, and the eighth could be used for parity checks. Later developments expanded the original ASCII scheme to include several accented, mathematical, and terminal characters.







With the recent increase of computer usage across the world, more and more people from different languages had access to a computer. That meant that, for each language, new encoding schemes had to be developed, independently from other schemes, which would conflict if read from different language terminals.
Unicode came into being as a solution to the existence of different terminals by merging all possible meaningful characters into a single abstract character set.
UTF-8 is one way to encode the Unicode character set. It is a variable-width encoding (i.e. different characters can have different sizes) and it was designed for backwards compatibility with the former ASCII scheme. As such, the ASCII character set will remain one byte in size whilst any other characters are two or more bytes in size. UTF-16 is another way to encode the Unicode character set. In comparison to UTF-8, characters are encoded as either a set of one or two 16-bit code units.
As stated in other comments, the ‘a’ character occupies a single byte while ‘ա’ occupies two bytes, denoting a UTF-8 encoding. The extra byte in the original question was due to the existence of a newline character at the end.

Seguido pela resposta de ernie:


1 byte is 8 bits, and can thus represent up to 256 (2^8) different values.
For languages that require more possibilities than this, a simple 1 to 1 mapping can not be maintained, so more data is needed to store a character.
Note that generally, most encodings use the first 7 bits (128 values) for ASCII characters. That leaves the 8th bit, or 128 more values for more characters. Add in accented characters, Asian languages, Cyrillic, etc. and you can easily see why 1 byte is not sufficient for holding all characters.

Tem algo a acrescentar à explicação? Som desligado nos comentários. Quer ler mais respostas de outros usuários do Stack Exchange com experiência em tecnologia? Confira o tópico de discussão completo aqui.

Por que alguns aplicativos do Mac precisam “controlar esse computador usando recursos de acessibilidade?”

Alguns aplicativos, como o Dropbox e o Steam, pedem para "controlar este computador usando recursos de acessibilidade". Mas o que diabos isso significa?

Por que ~ Representa a Pasta Inicial no macOS e no Linux?

Se você instalou o subsistema Linux no Windows 10 ou está começando a usar o Linux Terminal, há todos os tipos de atalhos que você precisa aprender… e nenhum deles é intuitivo.

Por que os discos rígidos do Mac não precisam de desfragmentação

No Windows, os discos rígidos tradicionais (mas não os discos de estado sólido) normalmente precisam ser desfragmentados - um processo que pode levar um bom tempo. No macOS (e no Linux), você não precisa se preocupar com isso. Por que isso e o que está desfragmentando? Vamos dar uma olhada.

Tipos de MIME explicados: por que o Linux e o Mac OS X não precisam de extensões de arquivo

Vindo do Windows, as extensões de arquivo no Linux e no Mac OS X podem parecer um pouco estranhas. O sistema operacional parece saber quais arquivos são, sem depender da extensão do arquivo - ele faz isso usando tipos MIME.

Por que os laptops precisam de ventiladores de sistema, mas não de tablets?

Uma hora depois de se instalar com o seu tablet, ocupado em jogar um jogo, ele ainda está silencioso como um mouse, mas a maioria dos laptops estaria fazendo serenata para você com o zumbido de um ventilador do sistema. Por que os tablets podem esquecer um ventilador?

Por que os caracteres ingleses precisam de menos bytes para representá-los do que os caracteres de outros alfabetos?

Índice:

Vídeo: Por que os caracteres ingleses precisam de menos bytes para representá-los do que os caracteres de outros alfabetos?

A questão

A resposta

Recomendado:

Por que alguns aplicativos do Mac precisam “controlar esse computador usando recursos de acessibilidade?”

Por que ~ Representa a Pasta Inicial no macOS e no Linux?

Por que os discos rígidos do Mac não precisam de desfragmentação

Tipos de MIME explicados: por que o Linux e o Mac OS X não precisam de extensões de arquivo

Por que os laptops precisam de ventiladores de sistema, mas não de tablets?

Qual edição, versão, compilação do Windows 10 está instalada

Fazer backup de aplicativos e configurações com o CloneApp para Windows

Como espelhar a tela do iPad ou iPhone para o Windows 10 PC

Como espelhar a tela do Android no Windows PC

Gravit Designer é o editor de imagens gratuito perfeito para designers gráficos

Melhore a vida útil da bateria no Windows 7 com o Solucionador de problemas de energia integrado

Assista quase qualquer tipo de arquivo de vídeo com VLC para iPod e iPhone

Como proteger seu PC com Linux criptografando seu disco rígido

Acompanhe as ideias com o Microsoft OneNote

Como o seu computador é exatamente como um delicioso sanduíche Reuben

Nunca mais fique sem minutos: faça chamadas VoIP gratuitas em telefones Android

Como compartilhar arquivos grandes pela Internet

Como acionar downloads torrent de qualquer lugar com o Dropbox

Como pesquisar no Evernote na barra de localização do Google Chrome

Como você mostra apenas emails não lidos no Gmail? [Respostas]