Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[core] move charsetCodeMap/lineBreaksMap from .h to .cpp #15

Merged
merged 11 commits into from
Dec 19, 2024
Merged
File renamed without changes.
13 changes: 0 additions & 13 deletions sample/expected.txt

This file was deleted.

File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/ar/iso-8859-6.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
������-1256 �� ���� ��� ������ �� ����� ����� ������� ������ ���� ������ �������
���� ������ ��� �������� ��� ������ ��������� ���������. ���� ��� ���� ����������
������. ���� ����� ��� �� ������ �� ������ 8859-6.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/ar/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
ويندوز-1256 هي صفحة كود تستخدم في كتابة اللغة العربية عموماً وبعض اللغات الشبيهة
التي تستخدم نفس الأبجدية مثل الأردو والفارسية والكوردية. وذلك تحت نظام مايكروسوفت
ويندوز. صفحة الكود هذه لا تتوافق مع الأيزو 8859-6.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/ar/windows-1256.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
������-1256 �� ���� ��� ������ �� ����� ����� ������� ������ ���� ������ �������
���� ������ ��� �������� ��� ������ ��������� ���������. ���� ��� ���� ����������
������. ���� ����� ��� �� ������ �� ������ 8859-6.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/be/iso-8859-5.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
����� (Marmota), ������, ������������ ������ ��������.

�� ����� ����� 15 ����� ������, ���� ����� ��������� ������. ���������� �������-- �������. � ��� ��� �� ��������� ����� �������� � ������� � �������, ����� � ������� ������������ � ����. ������ ���� ����������� � ������ ������������ ����� � ������������� ������������� ��������, ��� �������� ������� ����������, ������������ ������� � ������ � ����� � ��������. ��� ����� ����������, ������ � �����, ����� ������ �����.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/be/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
Суркі (Marmota), сысуны, прадстаўнікі атраду грызуноў.

На Зямлі існуе 15 відаў суркоў, якія маюць агульнага продка. Прарадзіма суркоў — Амерыка. У той час як большасць жывёл рухалася з Еўразіі ў Амерыку, суркі з Амерыкі перабіраліся ў Азію. Розныя віды абасобіліся ў розных геаграфічных зонах і адрозніваюцца асаблівасцямі паводзін, але захавалі знешнюю падобнасць, неабходнасць упадаць у спячку і жыццё ў калоніях. Усе суркі траваядныя, жывуць у норах, маюць цёплае футра.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/be/windows-1251.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
���� (Marmota), ������, ���������� ������ �������.

�� ���� ����� 15 ��� �����, ��� ����� ��������� ������. ��������� ����� �������. � ��� ��� �� ��������� ���� �������� � Ţ��糳 � �������, ���� � ������ ���������� � ���. ������ ��� ��������� � ������ ������������ ����� � ������������� ����������� �������, ��� ������� ������� ����������, ������������ ������� � ������ � ����� � ��������. ��� ���� ����������, ������ � �����, ����� ������ �����.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/bg/iso-8859-5.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
��������� (Marmota) �� ��������� - ��� ������� �� ��������� ���������� (Sciuridae), �������� 14 ����, ��������� ������� �� ���������� (Spermophilus citellus).

�� ������� �� ����������� ��������, �������� � ��������� ����� ������� ����� �� �����.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/bg/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
Мармотите (Marmota) са бозайници - род гризачи от семейство катерицови (Sciuridae), включващ 14 вида, включващи групата на лалугерите (Spermophilus citellus).

За разлика от родствената катерица, мармотът и лалугерът водят наземен начин на живот.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/bg/windows-1251.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
Windows-1251 � 8-����� (����������) ����� �������, ���������� �� ���������� �� �������, ���������� �������� ���� ���������, ����� � �����.

Windows-1251 � KOI8-R (��� ����������� �� ������� KOI8-U) �� ����� ��-�������������� �� ISO 8859-5, ����� �� �� �������� ������. �� ���������� �� ��������� �� ������������ ��������� ������, � ����� ������ � ���������.
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/ca/iso-8859-1.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Les marmotes (Marmota) s�n un g�nere de mam�fers de la fam�lia dels esci�rids.[1] Viuen a l'alta muntanya a l'hemisferi nord. S�n rosegadors de mida mitjana, una mica m�s grans que els gats dom�stics, de potes curtes i cos ample que els proporcionen un aspecte for�a rabassut.
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/ca/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Les marmotes (Marmota) són un gènere de mamífers de la família dels esciúrids.[1] Viuen a l'alta muntanya a l'hemisferi nord. Són rosegadors de mida mitjana, una mica més grans que els gats domèstics, de potes curtes i cos ample que els proporcionen un aspecte força rabassut.
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/ca/windows-1252.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Les especials relacions econ�miques es fonamenten en la llibertat de tr�nsit de mercaderies, treballadors i capitals, aix� com en l'establiment d'una moneda �nica, l'euro (�) per tots els estats membres (la denominada Eurozona).
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/cs/ibm852.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
Led堟ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
led堟kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/cs/iso-8859-2.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
Led���ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
led���kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/cs/mac-centraleurope.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
Ledˇ�ek ޒ�n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
ledˇ�kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
modr�m h�betem, kޒdly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/cs/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
Ledňáček říční (Alcedo atthis) je průměrně 16,5 cm velký pták z čeledi
ledňáčkovitých (Alcedinidae). Je velmi výrazně zbarvený s oranžovou spodinou a
modrým hřbetem, křídly a temenem. Výrazným znakem je také jeho nápadně dlouhý
zašpičatělý zobák. Pro své krásné zbarvení je nazýván Létající drahokam.
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/cs/windows-1250.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
Led���ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
led���kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/da/ibm865.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
Jimi Hendrix (1942-1970) var en amerikansk rockguitarist, sanger og sangskriver.

Han begyndte at spille guitar, da han var femten �r, og efter at have spillet med blandt andet Little Richard dannede han Jimi Hendrix Experience i slutningen af 1966. Denne gruppe fik snart hits med sange som "Hey Joe" og "Purple Haze", og med det tredje album, Electric Ladyland fra 1968, fik gruppen sit store gennembrud. Med flere markante optr�dener p� tidens store festivaler, heriblandt Woodstock, opn�ede han legendarisk status i rockmusikken, allerede mens han var i live.

Hendrix brugte sin elektriske guitar som elektronisk lydkilde og eksperimenterede med feedback og distortion med udgangspunkt i traditionel rock'n'roll og blues. Hans misbrug af alkohol og narkotika f�rte imidlertid til, at han �delagde sig selv, og han d�de som blot 27-�rig efter indtagelse af sovepiller.
7 changes: 7 additions & 0 deletions sample/uchardet_test_samples/da/iso-8859-1.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
Dansk er et nord-germansk sprog af den �stnordiske (kontinentale) gruppe, der
tales af ca. seks millioner mennesker. Det er st�rkt p�virket af plattysk. Dansk
tales ogs� i Sydslesvig (i Flensborg ca. 20 %) samt p� F�r�erne og Gr�nland [1].
Dansk er t�t forbundet med norsk. Fra et sprogvidenskabeligt synspunkt kan den
fremherskende form af norsk, bokm�l (og i endnu h�jere grad riksm�l), betragtes
som dansk, i hvert fald hvad skriftsproget ang�r. B�de dansk, norsk og svensk er
skandinaviske sprog og minder meget om hinanden.
10 changes: 10 additions & 0 deletions sample/uchardet_test_samples/da/iso-8859-15.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,10 @@
Eurosymbolet eller eurotegnet (�) anvendes som valutasymbol for m�ntenheden
euro. Symbolsk kombinerer det et E eller et gr�sk epsilon med de to parallelle
streger, man ofte ser i valutasymboler.

Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
h�vder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
andre p�st�r, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
er ingen af disse forklaringer korrekte, da Den Paneurop�iske Union udsendte en
'1 euro'-medalje i 1972, hvorp� man kan se et symbol, der i h�j grad ligner det
nuv�rende eurosymbol.
10 changes: 10 additions & 0 deletions sample/uchardet_test_samples/da/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,10 @@
Eurosymbolet eller eurotegnet (€) anvendes som valutasymbol for møntenheden
euro. Symbolsk kombinerer det et E eller et græsk epsilon med de to parallelle
streger, man ofte ser i valutasymboler.

Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
hævder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
andre påstår, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
er ingen af disse forklaringer korrekte, da Den Paneuropæiske Union udsendte en
'1 euro'-medalje i 1972, hvorpå man kan se et symbol, der i høj grad ligner det
nuværende eurosymbol.
10 changes: 10 additions & 0 deletions sample/uchardet_test_samples/da/windows-1252.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,10 @@
Eurosymbolet eller eurotegnet (�) anvendes som valutasymbol for m�ntenheden
euro. Symbolsk kombinerer det et E eller et gr�sk epsilon med de to parallelle
streger, man ofte ser i valutasymboler.

Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
h�vder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
andre p�st�r, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
er ingen af disse forklaringer korrekte, da Den Paneurop�iske Union udsendte en
'1 euro'-medalje i 1972, hvorp� man kan se et symbol, der i h�j grad ligner det
nuv�rende eurosymbol.
11 changes: 11 additions & 0 deletions sample/uchardet_test_samples/de/iso-8859-1.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
ISO 8859-1, genauer ISO/IEC 8859-1, auch bekannt als Latin-1, ist ein von der
ISO zuletzt 1998 aktualisierter Standard f�r die Informationstechnik zur
Zeichenkodierung mit acht Bit und der erste Teil der Normenfamilie ISO/IEC 8859.

Die mit sieben Bit kodierbaren Zeichen entsprechen US-ASCII mit f�hrendem
Nullbit. Zus�tzlich zu den 95 darstellbaren ASCII-Zeichen (2016-7E16) kodiert
ISO 8859-1 96 weitere (A016-FF16), also insgesamt 191 von theoretisch m�glichen
256 (= 28). Den Positionen 0016-1F16 und 7F16-9F16 sind in ISO/IEC 8859 und
damit ISO/IEC 8859-1 keine Zeichen zugewiesen. Die von der IANA definierte
Bezeichnung ISO-8859-1 (mit Bindestrich) steht f�r die Kombination der Zeichen
dieser Norm mit nicht darstellbaren Steuerzeichen gem�� ISO/IEC 6429.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/de/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
Berlin (Zum Anhören bitte klicken!Abspielen [bɛɐ̯ˈliːn]) ist Hauptstadt und als Land eine parlamentarische Republik und ein teilsouveräner Gliedstaat der Bundesrepublik Deutschland.[14] Die Stadt ist mit rund 3,7 Millionen Einwohnern die bevölkerungsreichste und mit 892 Quadratkilometern die flächengrößte Gemeinde Deutschlands und die einwohnerstärkste Stadt der Europäischen Union.[4] In der Agglomeration Berlin leben knapp 4,7 Millionen Einwohner, in der Metropolregion Berlin/Brandenburg gut sechs Millionen. Der Stadtstaat besteht aus zwölf Berliner Bezirken. Neben den Flüssen Spree und Havel befinden sich im Stadtgebiet kleinere Fließgewässer sowie zahlreiche Seen und Wälder.

Im Jahr 1237 erstmals urkundlich erwähnt, war die Stadt in der Geschichte Berlins Residenz- und Hauptstadt der Mark Brandenburg, des Königreichs Preußen und Deutschlands. Nach dem Ende des Zweiten Weltkriegs unterlag die Stadt 1945 dem Viermächte-Status: Ost-Berlin hatte ab 1949 die Funktion als Hauptstadt der Deutschen Demokratischen Republik, während West-Berlin sich eng an die alte Bundesrepublik Deutschland anschloss. Mit dem Fall der Berliner Mauer 1989 und der deutschen Wiedervereinigung im Jahr 1990 wuchsen die beiden Stadthälften wieder zusammen und Berlin erhielt seine Rolle als gesamtdeutsche Hauptstadt zurück. Seit 1999 ist die Stadt Sitz der Bundesregierung, des Bundespräsidenten, des Bundestages, des Bundesrates sowie der Bundesministerien und zahlreicher Botschaften.
11 changes: 11 additions & 0 deletions sample/uchardet_test_samples/de/windows-1252.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
ISO 8859-1, genauer ISO/IEC 8859-1, auch bekannt als Latin-1, ist ein von der
ISO zuletzt 1998 aktualisierter Standard f�r die Informationstechnik zur
Zeichenkodierung mit acht Bit und der erste Teil der Normenfamilie ISO/IEC 8859.

Die mit sieben Bit kodierbaren Zeichen entsprechen US-ASCII mit f�hrendem
Nullbit. Zus�tzlich zu den 95 darstellbaren ASCII-Zeichen (2016�7E16) kodiert
ISO 8859-1 96 weitere (A016�FF16), also insgesamt 191 von theoretisch m�glichen
256 (= 28). Den Positionen 0016�1F16 und 7F16�9F16 sind in ISO/IEC 8859 und
damit ISO/IEC 8859-1 keine Zeichen zugewiesen. Die von der IANA definierte
Bezeichnung ISO-8859-1 (mit Bindestrich) steht f�r die Kombination der Zeichen
dieser Norm mit nicht darstellbaren Steuerzeichen gem�� ISO/IEC 6429.
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/el/cp737.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
� ����櫘 �夘� �⤦� ��࡫��� �������磜�� ��� �����⩩��� �回 ��� �⤦�� Marmota, ��� ������餫�� ���� ������ ��� �� �樜�� �������. �� ��᭦�� �回 �� �夘� � ��� �� ���婫�� �᫦���� ���� �����.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/el/iso-8859-7.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
� ������������ ������������ ���������� ��� �������� ���������� ������������ �� �� ����� ISO 8859-7, ������ ��� ��� ��������, ����� ��� 8-����� ������������ ����������, ����� ��� �������� ISO 8859. ����������� �� ��� ����� �� �������� �� �������� �������� ������ ����� ��� ���������� ������� ����������� ��� �� ��������.

� ������ ������ �� 1987 ���� ��� ����� ��������� ���������� �� �� �������� ������� ELOT 928, ��� �������� �� 1986. � ������� �� ���� �� ����� ������� ��� ���������� ������ ��� 2003, ��� ��������� ����� ����������, ������������������� ��� ��� �������� ��� ����.
3 changes: 3 additions & 0 deletions sample/uchardet_test_samples/el/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
Το UTF-8 (8-bit Unicode Transformation Format) είναι ένα μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου.

Συγκεκριμένα χρησιμοποιεί ένα μέχρι τέσσερα byte ανά χαρακτήρα ανάλογα με το σύμβολο και το κωδικό του σημείο. Για παράδειγμα χρειάζεται μόνο ένα byte του UTF-8 για την κωδικοποίηση των 128 ASCII χαρακτήρες στο διάστημα του Unicode U+0000 μέχρι U+007F.
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/el/windows-1253.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
Windows-1253

� ������������ ��� ���������� ����� ������ ���� �� ��� ������������ Windows-1253. � ������ ������� ��� �������� ����� � ���� ��� ���������� ��������� ���� �� ����� ��������� (��� Windows-1253) ��� ����������� ���� "A2". ���� ���� �� ���������� �� ����������� �� ����� ��� ��������� ����������� ������� (�� ������ ��� ���������� � ���� ������ �����), ���� �������� ����������� ������������, ��� �� �������� �������� ������������ ��������.

����� �������
4 changes: 4 additions & 0 deletions sample/uchardet_test_samples/en/ascii.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
This is an ASCII TEST.
We still want uchardet to detect it as ASCII, even with the presence of
an escape character: 
Or with the HZ encoding escape sequence: ~{
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/en/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Europe covers about 10,180,000 km² (3,930,000 sq mi), or 2% of the Earth's surface (6.8% of land area), making it the second smallest continent (using the seven-continent model). Politically, Europe is divided into about fifty sovereign states, of which Russia is the largest and most populous, spanning 39% of the continent and comprising 15% of its population. Europe had a total population of about 746 million (about 10% of the world population) in 2018.[2][3] The European climate is largely affected by warm Atlantic currents that temper winters and summers on much of the continent, even at latitudes along which the climate in Asia and North America is severe. Further from the sea, seasonal differences are more noticeable than close to the coast.
7 changes: 7 additions & 0 deletions sample/uchardet_test_samples/eo/iso-8859-3.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
Esperanto (origine Lingvo Internacia) estas la plej disvastigita internacia
planlingvo.[3] La nomo venas de la ka�nomo "Dr-o Esperanto", sub kiu la juda
kuracisto Ludoviko Lazaro Zamenhofo en la jaro 1887 publikigis la bazon de la
lingvo. La unua versio, la rusa, ricevis la cenzuran permeson disvasti�i en la
26-a de julio; �i tiun daton oni konsideras la naski�tago de Esperanto[4][5]. Li
intencis krei facile lerneblan ne�tralan lingvon, ta�gan por uzo en la
internacia komunikado, tamen ne anstata�igi aliajn, naciajn lingvojn.
1 change: 1 addition & 0 deletions sample/uchardet_test_samples/eo/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Esperanto, origine la Lingvo Internacia,[4] estas la plej disvastiĝinta internacia planlingvo.[5] En 1887 Esperanton parolis nur manpleno da homoj; Esperanto havis unu el la plej malgrandaj lingvo-komunumoj de la mondo. Ĝi funkciis dekomence kiel lingvo de alternativa komunikado kaj de arta kreipovo[6]. En 2012, la lingvo fariĝis la 64-a tradukebla per Google Translate[7]; En 2016, la lingvo fariĝis tradukebla per Yandex Translate[8]; laŭ 2016, Esperanto aperis en listoj de lingvoj plej lernataj[9] kaj konataj en Hungarujo[10]. La nomo de la lingvo venas de la kaŝnomo “D-ro Esperanto„ sub kiu la juda kuracisto Ludoviko Lazaro Zamenhofo en la jaro 1887 publikigis la bazon de la lingvo. La unua versio, la rusa, ricevis la cenzuran permeson disvastiĝi en la 26-a de julio; ĉi tiun daton oni konsideras la naskiĝtago de Esperanto[11][12]. Li celis kaj sukcesis krei facile lerneblan neŭtralan lingvon, taŭgan por uzo en la internacia komunikado; la celo tamen ne estas anstataŭigi aliajn, naciajn lingvojn.
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/es/iso-8859-1.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
El precio medio de la vivienda nueva es de 2212 EUR/m2, seg�n datos de la Sociedad
de Tasaci�n a 31 de diciembre de 2012.156 El precio de la vivienda, sin embargo,
var�a ostensiblemente en funci�n de las comunidades aut�nomas y las capitales de
provincia, encontr�ndose la de mayor valor en Catalu�a (3146 EUR/m�), y en
contraposici�n las de Extremadura y Murcia (1271 EUR/m�)
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/es/iso-8859-15.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
El precio medio de la vivienda nueva es de 2212 �/m2, seg�n datos de la Sociedad
de Tasaci�n a 31 de diciembre de 2012.156 El precio de la vivienda, sin embargo,
var�a ostensiblemente en funci�n de las comunidades aut�nomas y las capitales de
provincia, encontr�ndose la de mayor valor en Catalu�a (3146 �/m�), y en
contraposici�n las de Extremadura y Murcia (1271 �/m�)
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/es/utf-8.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
El precio medio de la vivienda nueva es de 2212 €/m2, según datos de la Sociedad
de Tasación a 31 de diciembre de 2012.156 El precio de la vivienda, sin embargo,
varía ostensiblemente en función de las comunidades autónomas y las capitales de
provincia, encontrándose la de mayor valor en Cataluña (3146 €/m²), y en
contraposición las de Extremadura y Murcia (1271 €/m²)
5 changes: 5 additions & 0 deletions sample/uchardet_test_samples/es/windows-1252.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
El precio medio de la vivienda nueva es de 2212 �/m2, seg�n datos de la Sociedad
de Tasaci�n a 31 de diciembre de 2012.156 El precio de la vivienda, sin embargo,
var�a ostensiblemente en funci�n de las comunidades aut�nomas y las capitales de
provincia, encontr�ndose la de mayor valor en Catalu�a (3146 �/m�), y en
contraposici�n las de Extremadura y Murcia (1271 �/m�)
6 changes: 6 additions & 0 deletions sample/uchardet_test_samples/et/iso-8859-13.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
�Anton Pavlovit� T�ehhov� oli vene n�ite- ja novellikirjanik ning praktiseeriv arst.

T�ehhov on eelk�ige tuntud oma novellide poolest. Tema jutustuste tavaliseks
tegevuspaigaks olid vene v�ikeasulad ja need k�sitlesid hinge�ksildust, raisatud
�nne jms. Tuntud on ka tema ps�hholoogilised n�idendid, kus valitseb kurb ja
lootusetu meeleolu.
6 changes: 6 additions & 0 deletions sample/uchardet_test_samples/et/iso-8859-15.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
Anton Pavlovit� T�ehhov oli vene n�ite- ja novellikirjanik ning praktiseeriv arst.

T�ehhov on eelk�ige tuntud oma novellide poolest. Tema jutustuste tavaliseks
tegevuspaigaks olid vene v�ikeasulad ja need k�sitlesid hinge�ksildust, raisatud
�nne jms. Tuntud on ka tema ps�hholoogilised n�idendid, kus valitseb kurb ja
lootusetu meeleolu.
Loading