Csv-tiedosto excel-koodaukseen. Excelistä CSV:ksi UTF8-koodauksella. Etsi Wordissa saatavilla olevat koodaukset

CSV on de facto standardi heterogeenisten järjestelmien yhteenliittämiseen, massadatan lähettämiseen ja käsittelyyn "jäykällä" taulukkorakenteella. Monissa ohjelmointikielissä on sisäänrakennetut jäsennys- ja generointityökalut, sekä ohjelmoijat että tavalliset käyttäjät ymmärtävät sen hyvin, ja itse tietoihin liittyvät ongelmat havaitaan hyvin, kuten sanotaan, silmällä.

Tämän muodon historia ulottuu vähintään 30 vuoden taakse. Mutta vielä nyt, summittaisuuden aikakaudella XML:n avulla, CSV-tiedostoa käytetään edelleen suurten tietomäärien lähettämiseen ja lataamiseen. Ja huolimatta siitä, että itse muoto on kuvattu melko hyvin RFC: ssä, jokainen ymmärtää sen omalla tavallaan.

Tässä artikkelissa yritän tiivistää olemassa olevan tiedon tästä muodosta, osoittaa tyypillisiä virheitä ja myös havainnollistaa kuvattuja ongelmia käyttämällä esimerkkiä tuonti-vienti-toteutuskäyrästä Microsoft Office 2007:ssä. Näytän myös kuinka kiertää nämä ongelmia (mukaan lukien automaattinen tyyppimuunnos Excelin DATETIME ja NUMBER) avattaessa .csv.

Aloitetaan siitä, mitä CSV-muotoa itse asiassa kutsutaan kolmeksi erilaiseksi tekstimuodoksi, jotka eroavat toisistaan ​​erotinmerkeissä: itse CSV (pilkuilla erotetut arvot), TSV (sarkaimella erotetut arvot) ja SCSV (puolipisteillä erotetut arvot - arvot erotettu). puolipisteillä). Tosielämässä kaikkia kolmea voidaan kutsua yhdeksi CSV:ksi, erotinmerkki valitaan parhaimmillaan viennin tai tuonnin yhteydessä, ja useammin se yksinkertaisesti "ommellaan" koodin sisään. Tämä aiheuttaa paljon ongelmia sen selvittämisessä.

Otetaan esimerkkinä triviaalilta vaikuttava tehtävä: tuoda tiedot taulukosta Microsoft Exceliin Microsoft Outlookiin.

Microsoft Excelillä on CSV-viejät ja Microsoft Outlookilla vastaavat maahantuojat. Mikä voisi olla yksinkertaisempaa - tehdä tiedosto, "syötetty" se sähköpostiohjelmaan ja - se on valmis? Ihan sama miten se on.

Luodaan testitaulukko Excelissä:

... ja yritä viedä se kolmessa tekstimuodossa:

Mitä päättelemme tästä? .. Se, mitä Microsoft tässä viittaa "CSV:ksi (Comma Separated Values)", on itse asiassa puolipisteellä eroteltu muoto. Microsoftin muoto on ehdottomasti Windows-1251. Siksi, jos sinulla on Unicode-merkkejä Excelissä, ne näkyvät kysymysmerkeinä CSV-tulostuksessa. Myös se tosiasia, että rivinsiirrot ovat aina merkkipari, mikä Microsoft lainaa typerästi kaikkea, missä se näkee puolipisteen. Lisäksi, jos sinulla ei ole Unicode-merkkejä ollenkaan, voit säästää tiedostokokoa. Myös se, että Unicodea tukee vain UTF-16, ei UTF-8, mikä olisi paljon loogisempaa.

Katsotaanpa nyt, miten Outlook suhtautuu asiaan. Yritetään tuoda nämä tiedostot siitä määrittämällä samat tietolähteet. Outlook 2007: Tiedosto -> Tuo ja vie… -> Tuo toisesta ohjelmasta tai tiedostosta. Valitse seuraavaksi tietomuoto: "Pilkuilla erotetut arvot (Windows)" ja "Sarkaimella erotetut arvot (Windows)".

Nämä kaksi Microsoft-tuotetta eivät ymmärrä toisiaan, niillä ei ole minkäänlaista kykyä siirtää strukturoitua tietoa tekstitiedoston kautta. Jotta kaikki toimisi, tarvitaan ohjelmoijan "tanssii tamburiinilla".

Muistamme, että Microsoft Excel voi työskennellä tekstitiedostojen kanssa, tuoda tietoja CSV-tiedostosta, mutta 2007-versiossa se tekee sen hyvin oudolla tavalla. Jos esimerkiksi avaat tiedoston vain valikon kautta, se avautuu ilman muodontunnistusta, aivan kuten tekstitiedosto, joka on sijoitettu kokonaan ensimmäiseen sarakkeeseen. Jos kaksoisnapsautat CSV-tiedostoa, Excel saa toisen komennon ja tuo CSV:n haluamallaan tavalla ilman kysymyksiä. Kolmas vaihtoehto on lisätä tiedosto nykyiseen arkkiin. Tässä käyttöliittymässä voit mukauttaa erottimia ja nähdä heti mitä tapahtui. Mutta yksi asia: se toimii huonosti. Esimerkiksi Excel ei ymmärrä lainattuja rivinvaihtoja kenttien sisällä.

Lisäksi sama CSV-muotoon tallennustoiminto, jota kutsutaan käyttöliittymän ja makron kautta, toimii eri tavalla. Makrovariantissa ei tarkastella alueellisia asetuksia ollenkaan.

Valitettavasti CSV-standardia sinänsä ei ole olemassa, mutta sillä välin on olemassa ns. muistio. Tämä on RFC 4180 vuodelta 2005, joka kuvaa kaikkea melko järkevästi. Jos mitään muuta ei ole, on oikein noudattaa ainakin RFC:tä. Mutta yhteensopivuuden varmistamiseksi Excelin kanssa, sinun tulee harkita sen ominaisuuksia.

  • rivien välissä - rivinsyöttö CRLF [mielestäni niitä ei olisi pitänyt rajoittaa kahteen tavuun, ts. sekä CRLF (0x0D, 0x0A) että CR 0x0D]
  • erottimet - pilkut, rivin lopussa ei saa olla pilkkua,
  • viimeisellä rivillä CRLF on valinnainen,
  • ensimmäinen rivi voi olla otsikkorivi (ei merkitty millään tavalla)
  • pilkkuerotinta ympäröivät välilyönnit ohitetaan.
  • jos arvo sisältää CRLF, CR, LF (rivinerotinmerkit), kaksoislainausmerkin tai pilkun (kentänerotin), arvo on laitettava lainausmerkkeihin. Muuten se on hyväksyttävää.
  • nuo. rivinvaihdot kentän sisällä ovat sallittuja. Mutta tällaiset kenttäarvot on välttämättä lainattava,
  • jos lainatun osan sisällä on lainausmerkkejä, CSV:ssä käytetään tiettyjä lainausmerkkejä - niiden kopioita.

Tässä on kuvaus muodosta ABNF-merkinnällä:

Tiedosto = tietue * (CRLF-tietue) otsikko = nimi * (PILKU nimi) tietue = kenttä * (PILKUkenttä) nimi = kenttäkenttä = (poistettu / ei-merkki) escaped = DQUOTE * (TEXTDATA / COMMA / CR / LF / 2DQUOTE ) DQUOTE ei-escaped = * TEKSTITIEDOT PIKU = % x2C DQUOTE = % x22 LF = % x0A CRLF = CR LF TEXTDATA = % x20-21 / % x23-2B / % x2D-7E

Lisäksi muotoa toteutettaessa on muistettava, että koska sarakkeiden lukumäärään ja tyyppiin ei ole osoittimia, koska otsikkoa ei tarvitse välttämättä sijoittaa, on käytäntöjä, joita ei pidä unohtaa:

  • lukujen merkkijonoarvo, joka ei ole lainausmerkeissä, voidaan tulkita ohjelmassa numeeriseksi, mikä voi johtaa tietojen katoamiseen, esimerkiksi etunollien,
  • kunkin rivin arvojen määrä voi vaihdella, ja sinun on käsiteltävä tämä tilanne oikein. Joissakin tilanteissa sinun on varoitettava käyttäjää, toisissa - luotava lisäsarakkeita ja täytettävä ne tyhjillä arvoilla. Voit määrittää, että sarakkeiden lukumäärä määräytyy otsikon mukaan, tai voit lisätä ne dynaamisesti, kun tuot CSV-tiedostoa,
  • Lainausmerkkien lainaus kauttaviivalla ei ole standardia, sinun ei tarvitse tehdä sitä.
  • Koska kenttiä ei tarvitse kirjoittaa, niitä ei vaadita. Koko- ja murto-osien erottimet ovat erilaisia ​​eri maissa, mikä johtaa siihen, että sama sovelluksen tuottama CSV "ymmärretään" yhdessä Excelissä ja ei toisessa. Koska Microsoft Office on alueellinen Windowsin asetukset, ja siellä voi olla mitä tahansa. Venäjällä sanotaan, että erotin on pilkku,
  • Jos avaat CSV:n etkä "Data"-valikon kautta, vaan suoraan, Excel ei kysy tarpeettomia kysymyksiä ja tekee sen, mitä se pitää oikeana. Esimerkiksi kenttä, jonka arvo on 1,24, hän ymmärtää oletuksena "tammikuu 24".
  • Excel tappaa etunollat ​​ja heittää tyyppejä, vaikka arvo on lainaus. Se ei ole välttämätöntä, se on virhe. Mutta kiertääksesi tämän Excel-ongelman, voit tehdä pienen "hakkeroinnin" - aloittaa arvon "yhtä"-merkillä ja laittaa sitten lainausmerkkeihin, mitä sinun on siirrettävä muotoa muuttamatta.
  • Excelissä on erikoismerkki "yhtä", jota käsitellään CSV:ssä kaavan tunnisteena. Eli jos CSV sisältää = 2 + 3, se lisää kaksi ja kolme ja syöttää tuloksen soluun. Standardin mukaan hänen ei pitäisi tehdä tätä.

Esimerkki kelvollisesta CSV-tiedostosta, jota voidaan käyttää testeihin:

Sukunimi, Etunimi, Osoite, Kaupunki / osavaltio, postinumero, vain rivi Ivanov, Ivan, Lenina 20, Moskova, 08075, "1/3" Tyler, John, 110 terassi, PA, 20121, "1.24" "Petrov " "Cool" "", Petya, 120 Hambling St., NJ, 08075, "1.24" Smirnov, Vasya, "7452 Street" "Near the Square" "road", York, 91234, "3-01", Misha, Leningrad, 00123, "03-01" "John" "Black Head" ", Claude", Rock, "", Miami Beach, 00111, "0000" Sergey,

Täsmälleen sama SCSV:

Sukunimi; Nimi; Osoite; Kaupunkivaltio; indeksi; vain rivi Ivanov, Ivan; Lenin 20; Moskova; 08075; "1/3" Tyler; John, 110 terassi; PA; 20121; "1.24" "Petrov" "Cool" ""; Petya, 120 Hambling St.; NJ; 08075; "1.24" Smirnov; Vasya; "7452 Street" "Near the Square" "tie"; York; 91234; "3-01"; Misha ;; Leningrad; 00123; "03-01" "John" "Mustapää" "; Claude"; Rock; ""; Miami Beach, 00111; "0000" Sergei ;;

Excel ei havaitse ensimmäistä tiedostoa, joka on itse asiassa PILKULLA EROTETTU ja joka on tallennettu .csv-muodossa.

Toinen tiedosto, jonka SCSV-logiikan mukaan excel havaitsee, ja tämä tulee ulos:

Excel-virheet tuonnissa:

  1. Oppineet rajat ympäröivät tilat
  2. Viimeistä saraketta ei oikeastaan ​​tunnistettu ollenkaan, vaikka tiedot ovat lainausmerkeissä. Poikkeuksena on viiva "Petrov" - 1,24 tunnistettiin siellä oikein.
  3. Excel jätti alkunollat ​​pois hakemistokentästä.
  4. viimeisen rivin oikeanpuoleisessa kentässä välilyönnit ennen lainausmerkkejä ovat lakanneet osoittamasta erikoismerkkiä

Jos käytät tuontitoimintoa (Data -> From File) ja kutsut kaikki kentät tekstillisiksi tuonnin aikana, näkyviin tulee seuraava kuva:

Se toimi tyyppivalon kanssa, mutta nyt rivinsiirtoja ei käsitellä normaalisti ja etunollien, lainausmerkkien ja ylimääräisten välilyöntien kanssa on ongelma. Käyttäjille on erittäin hankalaa avata CSV-tiedosto tällä tavalla.

On olemassa tehokas tapa saada Excel olemaan kirjoittamatta, kun emme tarvitse sitä. Mutta se on "Excel-kohtainen" CSV. Tämä tehdään asettamalla "="-merkki lainausmerkkien eteen aina, kun tyypeissä voi olla ongelmia. Samalla poistamme ylimääräisiä välilyöntejä.

Sukunimi; Etunimi; Osoite; Kaupunki / osavaltio; postinumero; vain merkkijono Ivanov; Ivan; Lenina 20; Moskova; = "08075"; = "1/3" Tyler; John; 110 terassi; PA; = "20121"; = "1,24" "Petrov" "Cool" ""; Petya; 120 Hambling St.; NJ; = "08075"; = "1,24" Smirnov; Vasya; " 7452 Street "" Near the Square "" tie "; York; =" 91234 "; =" 3-01 "; Misha ;; Leningrad; =" 00123 "; =" 03-01 "" John "" Mustapää "" ; Claude "; Rock;" "; Miami Beach; =" 00111 "; =" 0000 "Sergey ;;

Ja näin tapahtuu, jos avaamme tämän tiedoston Excelissä:

Anna minun tehdä yhteenveto.

Tällaisen käytettävän CSV:n luomiseksi käyttäjälle on annettava mahdollisuus tehdä seuraavat asetukset ennen vientiä:

  1. valitse koodaus... Yleensä UTF-8, UTF-16, Windows-1251, KOI8-R ovat tärkeitä. Useimmiten muita vaihtoehtoja ei ole. Yhden niistä pitäisi olla oletusarvoisesti päällä. Jos tiedoissa on merkkejä, joilla ei ole analogeja kohdekoodauksessa, sinun on varoitettava käyttäjää, että tiedot rikkoutuvat;
  2. valitse erotin kenttien välillä... Vaihtoehdot ovat sarkain, pilkku, puolipiste. Oletusarvo on puolipiste. Älä unohda, että jos tekstiin syötetään erotin, välilehden syöttäminen sinne on erittäin vaikeaa, se on myös tulostamaton merkki;
  3. valitse rivien välinen erotin(CRLF 0x0D 0x0A tai CR 0x0D);
  4. valitse desimaalierotin numeerisille tiedoille(piste tai pilkku).
  5. valita, näytetäänkö otsikkopalkki;
  6. valita, miten erikoismerkkien lainaus suoritetaan(etenkin rivinvaihdot ja lainausmerkit). Periaatteessa standardista voi poiketa ja lainata ne muodossa \ n ja \ ", mutta tässä tapauksessa sinun tulee muistaa lainata itsesi \ n jos ne vastaavat ja muista tehdä se vaihtoehdoksi viennin-tuonnin aikana. yhteensopivuus menee metsälle, koska mikä tahansa RFC-standardin jäsentäjärakenne ..., "abc \" ", ... katsotaan virheeksi;
  7. aivan ihanteellisesti - laita rasti "Excelille" ja ota huomioon Microsoftin käyttöön ottamat epätyypilliset ominaisuudet... Korvaa esimerkiksi numeeristen kenttien arvot "samana to date" konstruktiolla = "<значение поля>«.
  8. päättää, jätetäänkö tyhjien erottimien "pyrstö". jos muodostuu. Esimerkiksi 20 kentästä vain ensimmäinen sisältää tietoja ja loput ovat tyhjiä. Seurauksena on, että rivillä voit joko laittaa 19 ensimmäisen erottimen jälkeen tai ei. Suurille tietomäärille tämä voi säästää millisekunteja käsittelyssä ja pienentää tiedostokokoa.

Hyvän ja käyttäjäystävällisen CSV-tuojan rakentamiseksi on hyvä muistaa muutama seikka:

  1. tiedoston jäsentäminen on tehtävä lekseemillä yllä olevan kieliopin mukaan tai käyttää hyväksi todettuja valmiita kirjastoja(Excel toimii eri tavalla, koska tuonnissa on ongelma);
  2. antaa käyttäjälle mahdollisuuden valita koodauksen(4 parasta riittää);
  3. antaa käyttäjälle mahdollisuuden valita erotin kenttien välillä(pilkku, sarkain, puolipiste riittää);
  4. antaa käyttäjälle mahdollisuuden valita erotin rivien välillä, mutta vaihtoehtojen CR ja CRLF lisäksi sinun on annettava "CR tai CRLF". Tämä johtuu siitä, että esimerkiksi Excel, kun viedään taulukkoa, jossa on rivinvaihtoja solujen sisällä, vie nämä rivinsiirrot CR:nä ja CRLF rajaa loput rivit. Samaan aikaan hän ei välitä tiedostoa tuodessaan siitä, onko siellä CR vai CRLF;
  5. antaa käyttäjälle mahdollisuuden valita erotin kokonaisten ja murto-osien välillä(pilkku tai piste);
  6. päättää jäsennysmenetelmästä- Ensin luemme kaiken muistiin, sitten käsittelemme tai käsittelemme sen rivi riviltä. Ensimmäisessä tapauksessa muistia voidaan tarvita enemmän, toisessa tapauksessa virhe keskellä aiheuttaa vain osittaisen tuonnin, mikä voi aiheuttaa ongelmia. Ensimmäinen vaihtoehto on parempi.

Rauf Alijev,
Mail.Ru Groupin tekninen apulaisjohtaja

Selainten, tekstieditorien ja prosessorien parissa työskentelevät käyttäjät kohtaavat usein tarpeen muuttaa tekstin koodausta. Siitä huolimatta Excel-laskentataulukkoprosessorissa työskennellessä tällainen tarve voi syntyä, koska tämä ohjelma käsittelee paitsi numeroita myös tekstiä. Katsotaanpa kuinka muuttaa koodausta Excelissä.

Tekstin koodaus on joukko sähköisiä digitaalisia ilmaisuja, jotka muunnetaan käyttäjälle ymmärrettäviksi merkeiksi. Koodauksia on monenlaisia, jokaisella on omat sääntönsä ja kielensä. Ohjelman kyky tunnistaa tietty kieli ja kääntää se tavalliselle ihmiselle ymmärrettäviksi merkeiksi (kirjaimet, numerot, muut symbolit) määrittää, voiko sovellus toimia tietyn tekstin kanssa vai ei. Suosituista tekstikoodauksista on korostettava seuraavaa:

  • Windows-1251;
  • KOI-8;
  • ASCII;
  • ANSI;
  • UKS-2;
  • UTF-8 (Unicode).

Sukunimi on yleisin koodauksista maailmassa, koska sitä pidetään eräänlaisena yleisenä standardina.

Useimmiten ohjelma itse tunnistaa koodauksen ja vaihtaa siihen automaattisesti, mutta joissain tapauksissa käyttäjän on kerrottava sovellukselle sen tyyppi. Vasta sitten se voi toimia oikein koodattujen merkkien kanssa.

Eniten ongelmia koodauksen purkamisessa on Excel ohjelmat tapahtuu, kun yritetään avata CSV-tiedostoja tai viedä txt-tiedostoja. Usein tavallisten kirjainten sijasta näitä tiedostoja avattaessa Excelin kautta voimme havaita käsittämättömiä merkkejä, ns. "krakozyabry". Näissä tapauksissa käyttäjän on suoritettava tiettyjä manipulaatioita, jotta ohjelma alkaa näyttää tietoja oikein. On olemassa useita tapoja ratkaista tämä ongelma.

Tapa 1: vaihda koodaus Notepad ++ -sovelluksella

Valitettavasti Excelissä ei ole täysimittaista työkalua, jonka avulla voit nopeasti muuttaa kaikentyyppisen tekstin koodausta. Siksi näihin tarkoituksiin sinun on käytettävä monivaiheisia ratkaisuja tai turvauduttava kolmansien osapuolien sovelluksiin. Yksi luotettavimmista tavoista on käyttää tekstieditoria Notepad ++.


Huolimatta siitä, että tämä menetelmä perustuu kolmannen osapuolen käyttöön ohjelmisto, se on yksi helpoimmista vaihtoehdoista tiedostojen sisällön transkoodaamiseen Exceliä varten.

Tapa 2: Ohjatun tekstitoiminnon käyttäminen

Lisäksi muunnos voidaan tehdä käyttämällä ohjelman sisäänrakennettuja työkaluja, nimittäin ohjattua tekstitoimintoa. Kummallista kyllä, tämän työkalun käyttö on hieman monimutkaisempaa kuin edellisessä menetelmässä kuvatun kolmannen osapuolen ohjelman käyttäminen.


Tapa 3: tallenna tiedosto tietyllä koodauksella

On myös päinvastainen tilanne, kun tiedostoa ei tarvitse avata oikealla tietojen näytöllä, vaan tallentaa määritetyllä koodauksella. Excelissä voit myös suorittaa tämän tehtävän.


Asiakirja tallennetaan kiintolevyllesi tai siirrettävälle tietovälineelle itse määrittelemälläsi koodauksella. Muista kuitenkin, että nyt Exceliin tallennetut asiakirjat tallennetaan aina tässä koodauksessa. Jos haluat muuttaa tämän, sinun on mentävä ikkunan läpi uudelleen. "Web-asiakirjan asetukset" ja muuta asetuksia.

On toinenkin tapa muuttaa tallennetun tekstin koodausasetuksia.

Itse asiassa kysymys ei ole niin triviaali kuin miltä ensi silmäyksellä näyttää. CSV-muodossa, kuten sen nimestä voi päätellä, käytetään pilkkua (,) erottimena. Monet ohjelmat ja palvelut hyväksyvät kuitenkin myös muita symboleja. Näitä ovat MS Excel, varsinkin kun on kyse sen venäläisestä versiosta. Tässä artikkelissa haluan antaa ratkaisun ongelmaan, joka liittyy CSV-vientitiedoston avaamiseen Google-työkalu ja webmastereille MS Excelissä. Aihe koskee kuitenkin myös muita vaihtoehtoja.

  • Ongelma, joka liittyy hakukyselyjen (PZ) viemiseen Googlen verkkovastaavalta
    • Koodausongelma
    • Pilkun erotin CSV:ssä
    • Mikä auttoi
  • Tehdään yhteenveto

Ongelma PP:n viennissä Googlen verkkovastaavalta

Monet meistä käyttävät Google Webmaster Tool vain lisätäksesi sivuston. Tämä on väärin, täällä on paljon hyödyllistä tietoa, esimerkiksi luettelo hakukyselyistä, joiden perusteella käyttäjät löytävät sivuston ja saapuvat siihen. Katso raportti: Hakuliikenne> Hakutermit- kun olet valinnut haluamasi sivuston luettelosta.

Täällä voit myös viedä tietoja CSV-muodossa ja avata ne Google Sheetsissä. (Excelin online-analogi)... Etsi painike " Lataa tämä taulukko". Muuten, näytettyjen pyyntöjen määrä sivulla ei vaikuta vietyjen tietojen täydellisyyteen.

Ongelmana on, että CSV-tiedosto käyttää pilkkuerotinta ja UTF-8-koodausta. Joten jopa Google Sheetsissä saat kyrillisen sijaan vain joukon kysymyksiä.

Toisin sanoen meidän on vaihdettava koodaus ANSI:ksi. Ja avataksesi CSV-tiedoston Excelissä korvaamalla pilkku (,) erotin puolipisteellä (;).

CSV-pilkulla eroteltu UTF-8

Koodausongelma

Helpoin tapa ratkaista koodausongelma... Voit tehdä tämän käyttämällä mitä tahansa tekstieditoria, jossa on tämä ominaisuus, kuten Notepad ++. Voit ladata sen ilmaiseksi viralliselta verkkosivustolta: unotepad-plus-plus.org... Käynnistä seuraavaksi editori ja avaa CSV-tiedostomme siinä ja napsauta sitten valikkokohtaa " Koodaukset"Ja vaihda se haluttuun, esim kohta " Muunna ANSI:ksi».

Kuvassa päinvastainen prosessi: muuntaminen ANSI:sta UTF-8:ksi - mutta luulen, että huomasit sen itse, mutta periaate on sama.

Pilkun erotin CSV:ssä

Mitä nyt tulee pilkkuerotin... Periaatteessa sinun ei tarvitse muuttaa mitään Google Sheetsissä. Ja MS Excelin englanninkielisessä versiossa se voi toimia, tarkista se. Siitä huolimatta, jos tarvitset vaihtoa, sinun tulee tässä ottaa huomioon, että pelkkä pilkun (,) korvaaminen puolipisteellä (;) ei toimi, koska tiedosto voi sisältää arvoja, jotka sisältävät tämän symbolin. Yleensä ne on lainausmerkeissä. Esimerkiksi:

arvo, 1, "arvo, puolipiste",

Teoriassa itse asetuksen pitäisi auttaa tässä käyttöjärjestelmä Windows: Käynnistä> Ohjauspaneeli> Alue- ja kieliasetukset... Napsauta "Muodot"-välilehdellä " Muuta tätä muotoa..."Vaihda avautuvassa ikkunassa" Numerot "välilehdessä" Luettelokohteiden erotin"Haluattuun, ts. puolipiste (;) korvataan pilkulla (,).

Totta, se ei toiminut minulla. Ja käyttöjärjestelmän asetusten muuttaminen, kuten minulle, ei ole hyvä asia. Päätin kuitenkin osoittaa tämän ratkaisun ongelmaan, koska useimmat erikoistuneet foorumit linkittävät siihen.

Mikä auttoi

Valitettavasti en löytänyt .csv-tunnisteella varustettujen tiedostojen lisäkäsittelyä MS Excelissä. Siitä huolimatta käsittely on mahdollista, mutta vain, jos muutat tiedostotunnisteen esimerkiksi .txt:ksi. Joten muutamme tiedostopäätettä ja avaamme sen Excelissä.

"Tekstivelho (tuonti)" -ikkuna tulee näkyviin. Täältä voit valita lähdetietojen muodon, tuonnin aloitusrivin ja tiedoston koodauksen. (tarvitsemme 1251: kyrillinen)... Muuten, miksi sinun piti muuttaa koodausta, kun voit valita sen ohjatussa toiminnossa? Koska ei ole UTF-8-koodausta, ainakaan minulla. Napsautamme painiketta " Edelleen».

Seuraavassa vaiheessa voimme valita erotinmerkin ja useita. Valitse ruutu " pilkku"Ja poista valinta" -välilehti". Täällä voit myös valita rivin päätemerkin. Tätä käytetään arvoille, jotka sisältävät erikoismerkkejä. (lainausmerkit, pilkku, puolipiste, rivinvaihto jne.)... Minun tapauksessani kaksoislainausvaihtoehto on se, mitä tarvitset. Kiinnitä huomiota kenttään "Sample data parsing", tiedoista on tullut taulukko. Napsautamme painiketta " Edelleen».

Viimeisessä vaiheessa voit määrittää saraketietojen muodon, vaikka valinta ei ole tässä suuri: yleinen (oletuksena), teksti, päivämäärä ja ohita sarake. Viimeinen vaihtoehto näyttää minusta mielenkiintoisimmalta, koska voit sulkea pois tarpeettomat sarakkeet välittömästi. Valitse vain sopiva sarake ja napsauta sen vaihtoehtoa " ohita sarake". Napsautamme painiketta " Valmis».

Excel muodostaa tarvitsemamme taulukon, jossa voimme asettaa halutun sarakkeen leveyden ja solumuodon, mutta se on täysin eri juttu. Huomautan vain, että samojen prosenttiosuuksien tunnistamisessa on ongelma.

Online-palvelu CSV-tiedostojen normalisointiin

Kaikki yllä olevat ongelmat ratkaistaan ​​kuitenkin yksinkertaisella verkkopalvelulla Normalisointi CSV. Sen avulla voit muuttaa koodausta ja erotinmerkkiä. Totta, siinä on rajoitus 64 000 tavua (paljonko se on kilotavuina?) ladattavalle tiedostolle, mutta CSV-tiedostot eivät yleensä paina kovin paljon, pitäisi riittää. Käsittelytulos tulostetaan tavallisena tekstitiedostona, se voidaan tallentaa .csv-tunnisteella.

Muuten, skripti muuntaa prosenttiarvon, esimerkiksi: 95% - halutuksi arvoksi Excelin "prosentti" -sarakkeelle, ts. jaetaan 100:lla ja saadaan liukuluku, esimerkiksi: 0,95. Jos tarvitset lisää muunnoksia: kirjoita, yritämme muokata sitä.

No, jos tarjottu verkkopalvelu ei sovi sinulle, voit aina käyttää yllä olevia ohjeita.

Tehdään yhteenveto

Jotkut verkkopalvelut tarjoavat mahdollisuuden viedä tietoja yksinkertaisessa ja kätevässä CSV-muodossa. Kuten nimestä voi päätellä, tämä tarkoittaa pilkkua (,) erotinta. Monet sovellukset kuitenkin tulkitsevat tätä muotoa hieman mielivaltaisesti, mikä johtaa luonnollisiin ongelmiin. Lisäksi UTF-8 on yhä suositumpi nyt, kun taas Excel tai Google Sheets käyttävät ANSI:ta.

Esimerkiksi Notepad ++ auttaa ratkaisemaan koodausongelman, ja erottimen ymmärtämiseksi riittää, että vaihdat tiedostotunnisteen .txt ja käytät Excelissä ohjattua tekstitoimintoa. Kaikki nämä tehtävät voidaan kuitenkin ratkaista ilmaisella verkkopalvelulla. Normalisointi CSV, vaikka on syytä harkita sen rajoitusta ladatun tiedoston kokoon. Siinä kaikki minulle. Kiitos huomiostasi. Onnea!

klo 19:44 Vaihda viesti 16 kommenttia

Tietokoneella luoduilla tiedostoilla ja asiakirjoilla on aina oma koodauksensa. Usein käy niin, että tiedostoja vaihdettaessa tai Internetistä ladattaessa tietokoneemme ei pysty lukemaan koodausta, jolla ne on luotu. Syyt tähän voivat olla erilaisia ​​- sekä tarvittavan koodauksen puute ohjelmassa, jolla haluamme avata tiedoston, että yksinkertaisesti joidenkin ohjelmakomponenttien puuttuminen (esimerkiksi ylimääräinen fonttipaketti).

Alla pohditaan, kuinka muuttaa lukukelvottoman tiedoston tai asiakirjan koodausta eri ohjelmissa.

Koodauksen muuttaminen selainsivulla

Google Chromelle

  1. Valitse valikko "Asetukset" → "Työkalut".
  2. Rivi "Koodaus" - vie hiiri päälle, ja luettelo mahdollisista koodauksista tulee näkyviin selaimeen.
  3. Valitsemme "Windows 1251" venäläisille sivustoille. Jos se ei auta, kokeile "Automaattisesti".

Operalle

  1. Napsauta "Opera" → "Asetukset"
  2. Vasen valikko "Verkkosivustot" → kenttä 2 "Näyttö" → "Määritä fontit"
  3. Valitse "Koodaus"-kentästä "Kyrillinen (Windows 1251)".

Firefoxille

  1. Firefox -> Asetukset -> Sisältö.
  2. Paina riviä "Font oletusarvoisesti" vastapäätä painiketta "Lisäasetukset".
  3. Valitse ikkunan alareunasta "Koodaus" → "Kyrillinen (Windows 1251)".

Vaihda koodaus Wordissa

Tarkastellaan esimerkkinä menettelyä koodauksen muuttamisesta Word 2010:n avulla.

  1. Avaamme asiakirjan.
  2. Tiedosto-välilehti → Asetukset.
  3. Valitsemme rivin "Lisä". Laita "Yleiset"-osiossa riviä "Vahvista tiedostomuodon muuntaminen avattaessa" vastapäätä valintamerkki. Napsauta OK.
  4. Seuraavaksi "Muunna tiedosto" -ikkuna avautuu. Valitse "Koodattu teksti", napsauta OK.
  5. Valitse seuraavaksi avautuvassa ikkunassa "Muu" ja valitse luettelosta koodaus, joka näyttää vaaditun tekstin. "Näyte"-ikkunassa voit nähdä, kuinka teksti näytetään valitsemassamme koodauksessa.

Jos yllä oleva toimenpide ei auttanut asiakirjan näyttämistä, voit yrittää vaihtaa fontin. Joskus asiakirja voidaan näyttää "neliöiden" tai muiden merkkien muodossa, jos ohjelmassa ei ole sopivaa fonttia.

Vaihda koodaus Excelissä

Harkitse koodauksen vaihtamista Excel 93-2004:lle ja 2007:lle:

  1. Avaa lukukelvoton asiakirja Notepad ++ -sovelluksella.
  2. Valitse valikko Koodaus → Muunna UTF-8:ksi.
  3. Symbolit eivät muutu, vain näytön alareunassa oleva koodaus muuttuu. Seuraavaksi valitsemme joukon merkkejä. Jos se on venäjä: Koodaus → Merkistöt → Kyrillinen → Windows-1251.
  4. Napsauta "Tallenna". Avaa tiedosto Excelissä. Jos tekstiä ei voi lukea, yritä toistaa vaiheet 3-4.

Vaihda tekstin koodaus

  1. Avaa tiedosto tavallisessa tekstinkäsittelyohjelmassa Muistiossa.
  2. Napsauta "Tallenna nimellä".
  3. Valitse avautuvasta tallennusikkunasta paikka, johon haluamme tallentaa tiedoston, asiakirjan tyyppi on teksti ja aseta myös erilainen koodaustyyppi.
  4. Tallentaa.
  5. Yritetään avata asiakirjaa.

Lue myös artikkeli

VKontakte Facebook Odnoklassniki

Kaikkiin uusiin Windows-versioihin siirtymisen myötä monien venäjän kielen koodausten olemassaolon ongelman akuutti on melkein kadonnut

Selainten, tekstieditorien ja prosessorien parissa työskentelevät käyttäjät kohtaavat usein tarpeen muuttaa tekstin koodausta. Siitä huolimatta Excel-laskentataulukkoprosessorissa työskennellessä tällainen tarve voi syntyä, koska tämä ohjelma käsittelee paitsi numeroita myös tekstiä. Katsotaanpa kuinka muuttaa koodausta Excelissä.

Oppitunti: Koodaus Microsoft Wordissa


Tekstin koodaus on joukko sähköisiä digitaalisia ilmaisuja, jotka muunnetaan käyttäjälle ymmärrettäviksi merkeiksi. Koodauksia on monenlaisia, jokaisella on omat sääntönsä ja kielensä. Ohjelman kyky tunnistaa tietty kieli ja kääntää se tavalliselle ihmiselle ymmärrettäviksi merkeiksi (kirjaimet, numerot, muut symbolit) määrittää, voiko sovellus toimia tietyn tekstin kanssa vai ei. Suosituista tekstikoodauksista on korostettava seuraavaa:

  • Windows-1251;
  • KOI-8;
  • ASCII;
  • ANSI;
  • UKS-2;
  • UTF-8 (Unicode).

Sukunimi on yleisin koodauksista maailmassa, koska sitä pidetään eräänlaisena yleisenä standardina.

Useimmiten ohjelma itse tunnistaa koodauksen ja vaihtaa siihen automaattisesti, mutta joissain tapauksissa käyttäjän on kerrottava sovellukselle sen tyyppi. Vasta sitten se voi toimia oikein koodattujen merkkien kanssa.

Eniten ongelmia koodauksen purkamisessa Excelissä kohdataan yritettäessä avata CSV-tiedostoja tai viedä txt-tiedostoja. Usein tavallisten kirjainten sijasta näitä tiedostoja avattaessa Excelin kautta voimme havaita käsittämättömiä merkkejä, ns. "krakozyabry". Näissä tapauksissa käyttäjän on suoritettava tiettyjä manipulaatioita, jotta ohjelma alkaa näyttää tietoja oikein. On olemassa useita tapoja ratkaista tämä ongelma.

Tapa 1: vaihda koodaus Notepad ++ -sovelluksella

Valitettavasti Excelissä ei ole täysimittaista työkalua, jonka avulla voit nopeasti muuttaa kaikentyyppisen tekstin koodausta. Siksi näihin tarkoituksiin sinun on käytettävä monivaiheisia ratkaisuja tai turvauduttava kolmansien osapuolien sovelluksiin. Yksi luotettavimmista tavoista on käyttää tekstieditoria Notepad ++.


Huolimatta siitä, että tämä menetelmä perustuu kolmannen osapuolen ohjelmistojen käyttöön, se on yksi helpoimmista vaihtoehdoista tiedostojen sisällön muuntamiseen Exceliä varten.

Tapa 2: Ohjatun tekstitoiminnon käyttäminen

Lisäksi muunnos voidaan tehdä käyttämällä ohjelman sisäänrakennettuja työkaluja, nimittäin ohjattua tekstitoimintoa. Kummallista kyllä, tämän työkalun käyttö on hieman monimutkaisempaa kuin edellisessä menetelmässä kuvatun kolmannen osapuolen ohjelman käyttäminen.

Tapa 3: tallenna tiedosto tietyllä koodauksella

On myös päinvastainen tilanne, kun tiedostoa ei tarvitse avata oikealla tietojen näytöllä, vaan tallentaa määritetyllä koodauksella. Excelissä voit myös suorittaa tämän tehtävän.


Asiakirja tallennetaan kiintolevyllesi tai siirrettävälle tietovälineelle itse määrittelemälläsi koodauksella. Muista kuitenkin, että nyt Exceliin tallennetut asiakirjat tallennetaan aina tässä koodauksessa. Jos haluat muuttaa tämän, sinun on mentävä ikkunan läpi uudelleen. "Web-asiakirjan asetukset" ja muuta asetuksia.

On toinenkin tapa muuttaa tallennetun tekstin koodausasetuksia.