Archive

Posts Tagged ‘แบ่งคำภาษาไทย’

แบ่งคำ/ตัดคำ ภาษาไทยใน R ด้วย SWATH

January 23rd, 2018 Comments off

โปรแกรมที่ช่วยในการแบ่งคำหรือตัดคำภาษาไทยที่น่าสนใจอีกตัวหนึ่งนอกเหนือจาก LexTo (http://www.sansarn.com/lexto/) ก็มี SWATH (https://linux.thai.net/projects/swath) ครับ

SWATH มีความสามารถที่จะใช้ตัดคำภาษาไทยที่อยู่ในหลาย file format ครับไม่ว่าจะเป็น LaTex, HTML, RTF หรือ plain text  แต่การใช้งานต้องใช้ในแบบ command line ไม่มี GUI ครับ โดย swath จะมี options ต่างให้

เพื่อความสะดวกเอาไปใช้ใน R บน Windows ผมเลยเขียน packageเพื่อเรียกใช้งาน SWATH แบบง่ายๆไว้ที่ https://github.com/slphyx/RSwath หรือดูเพิ่มเติมที่ http://www.sakngoi.com/2018/01/23/rswath-the-r-interface-to-swath/

การใช้งานก็เริ่งจากติดตั้งจาก github ด้วยคำสั่ง

library("devtools")
install_github("slphyx/RSwath")

จากนั้นก็เรียกใช้งาน

library("RSwath")

การใช้งานกับไฟล์ข้อความที่เป็นภาษาไทยที่ต้องการแบ่งสมมุติว่าชื่อ testTH.txt แล้วต้องการให้ไฟล์ที่แบ่งคำแล้วด้วย SWATH ชื่อ testTHX.txt ก็เพียงพิมพ์

rswath(inputfile="testTH.txt",outputfile="testTHX.txt")

ตัวอย่างไฟล์ที่ใช้กับswathกับผลลัพธ์ที่ได้

 

RSwath: The R Interface to SWATH

January 23rd, 2018 Comments off

RSwath: The R Interface to Swath ผมเอา SWATH (https://code.google.com/archive/p/swath/) มาทำเป็น r-package สำหรับใช้ใน R บน Windows ครับ

ตอนนี้มันยังเป็นรุ่นเก่าอยู่ (swath 0.3.4) ครับ

SWATH ก็เป็นตัวแบ่งคำภาษาไทยอีกตัวหนึ่งที่พัฒนาโดยท่าน Phaisarn Charoenpornsawat และท่าน Theppitak Karoonboonyanan ครับ
สนใจใช้งานก็ไปที่ https://github.com/slphyx/RSwath

การใช้งานก็เริ่มจากติดตั้งจาก github ด้วยคำสั่ง

library("devtools")
install_github("slphyx/RSwath")

จากนั้นก็เรียกใช้งาน

library("RSwath")

การใช้งานกับไฟล์ข้อความที่เป็นภาษาไทยที่ต้องการแบ่งสมมุติว่าชื่อ testTH.txt แล้วต้องการให้ไฟล์ที่แบ่งคำแล้วด้วย SWATH ชื่อ testTHX.txt ก็เพียงพิมพ์

rswath(inputfile="testTH.txt",outputfile="testTHX.txt")

ตัวอย่างไฟล์ที่ใช้กับswathกับผลลัพธ์ที่ได้

 

 

 

 

LexTo บน Windows

December 13th, 2017 No comments

ผมเอา code LexTo เค้ามาลองเขียนเล่นสำหรับใช้งานแบบ offline บน Windows (7, 8 และ 10)ครับ

สนใจdownload ได้ที่นี่ครับ

ที่download มันจะเป็นไฟล์ zip ที่มีตัวโปรแกรมชื่อ Araiwa.exe กับไฟล์ dictionary ชื่อ lexitron.txt พร้อมกับไฟล์ araiwadll.dll ก็ให้แตกไฟล์ zip นี้ออก แล้วdouble click ที่ไฟล์ Araiwa.exe ได้เลยครับ

ส่วนใครที่อยากใช้มันใน R ผมเขียนเป็นpackage เรียกมันว่า araiwa ครับ ดูเพิ่มเติมได้ที่ https://github.com/slphyx/Araiwa

RLongLexTo แบ่งคำภาษาไทยใน R

July 12th, 2016 Comments off

จาก http://wp.me/p1rsA6-pn

ผมเอา code ที่เขียนมาทำเป็น r-package แล้วเรียกมันว่า RLongLexTo (https://github.com/slphyx/RLongLexTo) ครับเผื่อว่าใครอยากเอาไปพัฒนาต่อ  เบื้องต้นนี้ผมทดสอบเฉพาะสำหรับใช้งานบนวินโดว์ 10 เท่านั้น

วิธีติดตั้ง

*RLongLexTo ต้องการบางคำสั่งจาก package rJava ครับ ดังนั้นผู้ใช้ก็ต้องลง rJava ก่อนครับ

library(rJava)
library(devtools)
install_github("slphyx/RLongLexTo", INSTALL_opts="--no-multiarch")

##คำแนะนำสำหรับผู้ที่ลง rJava แล้วมีปัญหาใช้RLongLexToไม่ได้ ผมแนะนำให้ลง java JDK (http://www.oracle.com/technetwork/java/javase/downloads/index.html) หรือไม่ก็ลองดูเรื่อง PATH ของ Java ก่อนครับ

ใน RLongLexTo นี้จะมีคำสั่งหลักคือ RLongLexToC ที่จะทำการรับข้อความภาษาไทยมาเพื่อทำการแบ่งคำ

วิธีการใช้งาน

RLongLexToC("ข้อความที่ต้องการแบ่งคำ")

หากมีปัญหาเรื่องการแสดงผลภาษาไทยก็ให้ลองเซ็ตlocaleเป็นภาษาไทยก่อนใช้งานอีกทีครับ

Sys.setlocale(locale="Thai")

rlonglexto3

มีหลายคนเมล์มาสอบถามเรื่องการเอา RLongLexTo ไปใช้พร้อมกับถามเรื่องรายละเอียดของอัลกอรึทึ่มด้วย ซึ่งผมก็อยากบอกตรงนี้เลยนะครับว่าผมไม่รู้เรื่องหรอกครับ  ผมเพียงแต่เอา code ต้นฉบับมาดัดแปลงให้ใช้ใน R ตามที่มีคนถามมาและผมก็ว่างทำให้ดูเป็นตัวอย่างเท่านั้นครับ

ส่วนตัวแล้วผมอยากจะบอกว่าคำสั่งสำหรับจัดการเรื่องข้อมูลประเภท string จาก package ชื่อ stringr หรือ stringi ครับ ก็มีเรื่องการแบ่งคำก็เช่นกันครับ  เช่น stringr มีคำสั่งช่วยเรื่องแบ่งคำอยู่แล้วซึ่งใช้ได้กับภาษาไทยด้วย ตัวอย่างเช่น str_split เป็นคำสั่งจาก stringr ที่เราสามารใช้แยกstring ให้ได้เพียงแค่บอกว่าจะแยกเป็นคำหรือเป็นประโยค

ลองไปดูเพิ่มเติมที่ http://stringr.tidyverse.org/ ครับ

จริงๆแล้ว stringr ก็เขียนมาจาก stringi เพื่อทำให้ใช้ง่ายขึ้น โดยที่ stringi นี้ก็คือ wrapper ของ ICU library ครับ ซึ่งICUนี้มีความสามารถในการแบ่งคำภาษาไทยด้วย (ต้องขอบคุณผู้ที่พัฒนานี้จริงๆ) ICU มี demo ให้ทดลองใช้งานด้วยครับที่ http://demo.icu-project.org/icu-bin/icusegments

ตัว RLongLexTo มันก็ยังมีข้อดีอยู่บ้างครับ เพราะตัวมันเองใช้ dictionary พจนานุกรมเป็นตัวช่วยในการแบ่งคำ นั่นก็หมายความว่าผู้ใช้สามารถที่จะปรับแต่งหรือเพิ่มเติมคำได้ตามที่ต้องการเลย และใน RLongLexTo นี้ผมใส่ตัวแปรชื่อ path.dic ไว้สำหรับใช้กับพจนานุกรมของผู้ใช้เอง ซึ่งผู้ใช้สามารถที่จะ download พจนานุกรมจากเวบของ Lexitron มาแก้ไขดัดแปลงเองหรือจะเพิ่มจากที่ผมเตรียมไว้แล้วกับแพคเกจนี้ครับ

แบ่งคำภาษาไทยใน R ด้วย LexTo

April 11th, 2016 No comments

มีคนส่งข้อความมาว่าให้ช่วยทำให้ดูหน่อยว่าจะเอาโปรแกรมตัดคำภาษาไทย http://www.sansarn.com/lexto/ ซึ่งเขียนด้วยภาษา Java โดย Choochart Haruechaiyasak มาใช้ใน R ได้อย่างไร
ด้วยความที่เห็นว่าผู้ถามเป็นหญิง แถมส่งการ์ตูนมาด้วยว่าร้องไห้หนักมาก ไอ้เราก็เป็นคนใจอ่อนด้วยสิ เลยทำให้ดูแบบคร่าวๆตามนี้ครับ
R สามารถที่เรียกโปรแกรมที่เขียนด้วย Java มาใช้ใน R หมายถึงมีการส่งผ่านค่าหรือรับค่าต่างๆจากโปรแกรมนั้นได้โดยใช้คำสั่งที่อยู่ในpackageอย่าง rJava ครับรายละเอียดก็ไปหาอ่านเอาเองนะครับ
โปรแกรม LexTo ที่ให้โหลดกันนั้นจะมีfunction main อยู่ในไฟล์ LongLexTo.java ครับ ผมก็แก้ไขอะไรบางอย่าง(จำไม่ได้ ต้องเปิดดู) หลักๆก็วิธีที่เขียนผลลัพท์ออกมา แล้วก็คอมไพล์ใหม่ซึ่งเราก็จะได้เป็น .class มาครับ

ส่วนอันนี้ก็เป็น code ที่เขียนเพื่อเรียกใช้ function main ของโปรแกรม LongLexTo ที่คอมไพล์แล้วครับ
library(rJava)

.jinit()
.jaddClassPath(“D:\\works\\LongLexTo\\R”) # replace with the path to the folder containing LongLexTo class file
.jclassPath()

# export the input string to a text file
writeinput<-function(inputstring){
inputfile<-file(“RLongLexToinput.txt”)
writeLines(inputstring,inputfile,useBytes=T)
close(inputfile)
}

## call the main function in LongLexTo
RLongLexToF<-function(inputfilename,outputfilename){
J(‘LongLexTo’,’main’,c(inputfilename,outputfilename))
}

RLongLexToC<-function(inputtext){
writeinput(inputtext)
inputfilename <- “RLongLexToinput.txt” # input file
outputfilename <- “RLongLexTotemp.txt” # temp output file
RLongLexToF(inputfilename,outputfilename)
outtxt<-as.vector(strsplit(readLines(outputfilename,encoding=”UTF-8″),”[|]”)[[1]])
outtxt
}

setwd(“D:\\works\\LongLexTo\\R”) # set the path to your dictionary file

ผลที่ได้ก็ประมาณนี้ครับ

RLexLongTo

ผมลองกับข้อความแบบต่างๆแล้วรู้สึกว่าจะมีปัญหาเรื่อง encoding อยู่ครับ ต้องขอให้ผู้ที่รู้เรื่องทางด้านนี้หรือใครก็ตามที่อยากปรับปรุงให้มันดีขึ้นมาช่วยแล้วล่ะครับ

ผมทำเป็น R package แล้วที่ https://github.com/slphyx/RLongLexTo

ลองดูเพิ่มเติมที่นี่อีกครับ

ส่วนตัวแล้วผมอยากจะบอกว่าคำสั่งสำหรับจัดการเรื่องข้อมูลประเภท string จาก package ชื่อ stringr หรือ stringi ครับ ก็มีเรื่องการแบ่งคำเช่นกันครับ  เช่น stringr มีคำสั่งช่วยเรื่องแบ่งคำอยู่แล้วซึ่งใช้ได้กับภาษาไทยด้วยอย่าง str_split ที่เราสามารใช้แยก string ให้ได้เพียงแค่บอกว่าจะแยกเป็นคำหรือเป็นประโยค

##

ผมเขียนpackageสำหรับแบ่งคำโดยใช้ LexTo อีกตัวครับเรียกมันว่าอะไรวะ https://github.com/slphyx/araiwa เป็นตัวอย่างแบบง่ายที่ผมใช้สอนเรื่องการใช้.net ในR ครับ

%d bloggers like this:
Locations of visitors to this page