Tokeniseerimine

Autor: Louise Ward
Loomise Kuupäev: 8 Veebruar 2021
Värskenduse Kuupäev: 18 Mai 2024
Anonim
Plokiahela ökosüsteem ja tokeniseerimine
Videot: Plokiahela ökosüsteem ja tokeniseerimine

Sisu

Definitsioon - mida tähendab märgistamine?

Tokeniseerimine on stringijada jagunemine tükkideks, näiteks sõnadeks, märksõnadeks, fraasideks, sümboliteks ja muudeks elementideks, mida nimetatakse tähisteks. Märgid võivad olla üksikud sõnad, fraasid või isegi terved laused. Juhendamise protsessis loobutakse osadest märkidest, nagu kirjavahemärgid. Juhendid saavad sisendiks sellisele protsessile nagu sõelumine ja kaevandamine.


Märgistust kasutatakse arvutiteaduses, kus sellel on suur osa leksikaalse analüüsi protsessis.

Sissejuhatus Microsoft Azure'i ja Microsoft Cloud | Kogu selle juhendi kaudu saate teada, mis on pilvandmetöötlus ja kuidas Microsoft Azure aitab teil pilvest rännata ja oma ettevõtet juhtida.

Techopedia selgitab märgistamist

Märkide eraldamiseks mõne sammu abil toetub tokeniseerimine enamasti lihtsale heuristikale:

  • Märgid või sõnad on eraldatud tühiku, kirjavahemärkide või reavahedega
  • Sõltuvalt vajadusest võib tühiku või kirjavahemärke lisada või mitte
  • Kõik külgnevates stringides olevad märgid on osa märgist. Tokenid võivad koosneda kõikidest täht-, numbrimärkidest või ainult numbrimärkidest.

Tokenid ise võivad olla ka eraldajad. Näiteks saab enamikus programmeerimiskeeltes identifikaatorid paigutada koos aritmeetiliste operaatoritega ilma tühikuteta. Ehkki tundub, et see paistaks ühe sõna või märgina, peab keele grammatika matemaatilist operaatorit (sümboolikat) eraldajaks, nii et isegi kui mitu märki on kokku kobaras, saab neid ikkagi matemaatilise vahendi abil eraldada operaator.