Hjálp:Ljóslestur

Úr Wikiheimild

Snið:Hjálparröð Ljóslestur er tækni sem er notuð til að færa ritað mál af pappír yfir á stafrænt form. Hann er notaður á wikiheimild til að minnka vinnuna við hverja bók. Það eru fjórar aðferðir við að ljóslesa bók.

Í þeim tilvikum sem skráin er fengin frá landsbókasafni eða Internet Archive er óþarfi að fara eftir leiðbeiningunum á þessari síðu, farðu beint í villulestur.

Internet Archive[breyta]

  1. Farðu á Internet Archive
  2. Stofnaðu aðgang með því að smella á tengilinn "join us" til hægri og fylla út eyðublaðið.
  3. Smelltu á "Upload" í hægra horni
  4. Fylltu út eyðublaðið. Ekki gleyma því að tilgreina tungumálið!
  5. Smelltu á "Upload and create your item"
  6. Þegar Internet Archive hefur upphalað skránni þá byrjar hún að ljóslesa skránna og umbreyta skránni í PDF skrá. Þú þarft ekki að gera neitt þangað til skráin er tilbúin.

Tesseract[breyta]

Tesseract er hugbúnaðarvél sem ljósles skrár, er frjáls hugbúnaður og hefur íslenskustuðning.

Uppsetning[breyta]

Fyrst þurfum við að setja inn Tesseract.

Linux:

Í flestum Linux stýrikerfum fylgir Tesseract með en til þess að forritið geti sem best skilið íslensku og íslenska stafi þarf að setja Tesseract-ocr-isl og íslenska orðabók. Leitaðu að tesseract eða tesseract-ocr til að finna möppuna sem tesseract er sett upp í.

Fyrir þá sem vilja grafískt notendaviðmót má mæla með gImageReader sem notar Tesseract ljóslestrarvélina og getur skilað af sér PDF skjali með ósýnilegu textalagi. Þessu skjali er síðan hægt að hlaða upp á Wikiheimild.

Mac OS X:

Settu upp homebrew. Þegar þú ert búinn að því opnaðu Terminal og sláðu inn skipunina brew install tesseract

Windows:

Sæktu Tesseract og Leptonica. Þú færð uppsetningarskrá sem leiðir þig í gegnum uppsetninguna. Í uppsetningarferlinu, þegar þú ert spurður um hvaða hluta (components) þú vilt, veldu þá "language data" og "Icelandic". Við það sækir uppsetningarskráin íslenskan stuðning og setur hana upp fyrir þig.

Vinnsla[breyta]

Athugaðu hvar skráin er sem þú vilt ljóslesa. Í Mac OS X eða Linux með því að opnaðu Terminal. Í Windows opnaðu Command prompt. Ef við segjum sem svo að myndin heiti myscan.jpg, að hún sé staðsett beint undir C drifinu og að við viljum fá ljóslesna skrá beint undir C drifið með skráarnafnið text þá er skipunin svona:

tesseract c:\myscan.jpg c:\text -l isl

Eftirfarandi skipun virkar líka:

tesseract \myscan.jpg \text -l isl

Lagaðu skráarslóðirnar eftir þörfum og sláðu skipunina inn. Tesseract vinnur þá í skránni og gefur þér textaskrá með ljóslesna textanum.

Hlaða skránni upp á Wikiheimild[breyta]

Eftir að skráin er tilbúin á eftir að bæta skránni við sem er gert í eftirfarandi skrefum.

Hlaða skránni inn[breyta]

Skrám er hlaðið inn á sameiginlegan myndagrunn, Wikimedia commons, sem wikiheimild og systurverkefni hennar nota. Þú getur hlaðið inn skrá sem er allt að 4GB að stærð.

Skránni er hlaðið inn með því að nota Upphölunar álfinn.