Jl. Lapangan Banteng Timur No.2-4, Jakarta Pusat
 1 50-991    ID | EN      Login Pegawai
 
Text Mining : Sebuah Proses untuk Memanfaatkan Lautan Data di Era Industri 4.0
Satria Rahman
Jum'at, 12 Mei 2023   |   1556 kali

Pertumbuhan yang sangat pesat dalam penggunaan media sosial telah menghasilkan banyak data berupa teks. Hal ini sejalan dengan pertumbuhan teknologi internet baik dari sisi kecepatan ataupun jangkauan yang sudah semakin luas. Kontribusi teks terhadap jumlah data tidak hanya datang dari media sosial, di berbagai bidang seperti pendidikan yang menghasilkan banyak penelitian berupa tulisan atau teks, di bidang jurnalis berupa artikel dan juga berita, di bidang kedokteran berupa rekam medis juga turut memperkaya khazanah data dalam bentuk teks dan masih banyak lagi di bidang lainnya. Bahkan sudah sejak tahun 1982, John Naisbitt telah mengatakan “We are drowning in information but starved for knowledge.” yang artinya kurang lebih bahwa kita sekarang kebanjiran informasi tapi kelaparan pengetahuan. Jadi dengan kata lain berdasarkan kalimat ini, kita mempunyai informasi yang sangat banyak namun data atau informasi tersebut belum kita manfaatkan secara maksimal agar menjadi pengetahuan yang dapat berguna. Kegunaan ini dapat untuk meningkatkan pendapatan, efisiensi biaya, mengurangi risiko, meningkatkan kepuasan layanan, dan meningkatkan operasi.


Dalam merepresentasikan teks pada suatu data biasanya digunakan istilah tipe data string. Namun digunakan kata teks, karena istilah "teks" biasanya lebih luas dan digunakan dalam konteks yang lebih umum. Teks dapat mencakup segala macam informasi tertulis atau ditulis, termasuk dokumen, buku, email, surat, artikel, dan lain-lain. Teks dapat berisi karakter, kata, frasa, kalimat, paragraf, atau bahkan dokumen yang lebih panjang. Sedangkan pengertian dari string adalah tipe data untuk teks yang merupakan gabungan huruf, angka, whitespace (spasi), dan berbagai karakter. Di era industri 4.0 sekarang ini, sangat banyak ditemukan data yang dihasilkan dari perangkat digital seperti sensor, perangkat mobile, dan perangkat IoT (Internet of Things) yang menghasilkan data dalam bentuk teks atau string. Hal ini didukung oleh teknologi yang dapat memproses dan menganalisis data teks seperti Natural Language Processing, Machine Learning, Deep Learning, dan Artificial Intelligence.


Untuk memanfaatkan ledakan data berupa teks yang kemungkinan jumlahnya saat ini telah mencapai ukuran dengan satuan petabyte, exabyte, atau bahkan zettabyte dapat digunakan sebuah teknik yang dinamakan text mining. Penggunaan teknik text mining pada zaman sekarang lebih diutamakan dibandingkan alat dan teknik analisis data tradisional karena kemampuan text mining yang lebih mampu dalam memproses atau menganalisis volume data yang jumlahnya sangat besar. Selain itu, teknik text mining juga mempunyai keunggulan dalam hal menangani data tidak terstruktur seperti dokumen, email, ulasan produk, dan media sosial. Kemudian dengan perpaduan antara teknologi text mining dan Natural Language Processing (NLP) memungkinkan dalam menciptakan output yang lebih canggih seperti chatbot, analisis sentimen, sistem penerjemah bahasa, klasifikasi dokumen dll. 

Lalu bagaimana langkah-langkah teknis yang dilakukan dalam menggunakan teknik text mining tentunya setelah pemahaman bisnis dan pemahaman data telah dilakukan dengan baik. Dan sebelumnya perlu diketahui bahwa dokumen seperti teks harus diubah dulu ke dalam representasi multidimensi. Agar data teks tersebut dapat menjadi data yang berkualitas sehingga hasil analisis bisa lebih baik dan lebih akurat maka dapat dilakukan langkah-langkah umum pra proses data teks yakni : 


  1. Case Folding, yaitu proses untuk mengubah seluruh huruf yang terdapat dalam dokumen teks menjadi huruf kecil dengan tujuan agar kata-kata yang sama tidak terdeteksi berbeda hanya karena perbedaan terdapat huruf kapital.

  2. Remove Punctuation, yaitu proses untuk menghapus seluruh tanda baca seperti !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ dengan tujuan menghilangkan sesuatu yang tidak penting.

  3. Stopword removal, stopword adalah kata yang sering muncul dalam bahasa yang tidak memiliki banyak informasi penting untuk penerapan text mining.

  4. Stemming, tahapan untuk memperkecil jumlah indeks yang berbeda dari satu data sehingga sebuah kata yang memiliki suffix maupun prefix akan kembali ke bentuk dasarnya. Selain itu juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk yang berbeda karena mendapatkan imbuhan yang berbeda pula.

  5. Lemmatization, yaitu proses mengekstrak akar kata dari kata yang ditempelkan dengan tujuan untuk mereduksi variasi kata menjadi akar kata (Arimbawa & ER, 2020). Lemmatization mempertimbangkan analisis morfologi kata, yaitu mengelompokkan  berbagai bentuk infleksi kata sehingga dapat dianalisis menjadi satu item. Di dalam Bahasa Inggris misalnya kata runs, running, ran adalah semua bentuk kata run, oleh karena itu run adalah inti dari semua kata ini dan lemmatization mengembalikan kata yang sebenarnya dari bahasa tersebut.

  6. Tokenization, yaitu proses memisahkan atau memecahkan yang awalnya berupa kalimat menjadi kata-kata atau memutus urutan string menjadi potongan-potongan seperti kata-kata berdasarkan tiap kata yang menyusunnya (Asiyah & Fithriasari, 2016).


Tahap pada pra proses data teks memiliki peran yang sangat penting dan juga menghabiskan banyak waktu. Apabila telah mendapatkan data yang bersih setelah tahap pra proses data teks ini, maka dapat dilanjutkan dengan berbagai alternatif pilihan tergantung dengan tujuan dari analisis text mining yang ingin dilakukan. Misalnya melakukan representasi data dengan TF-IDF (Term Frequency-Inverse Document Frequency) dengan tujuan memberikan bobot yang lebih tinggi pada kata-kata yang sering muncul dalam satu dokumen tetapi jarang muncul dalam dokumen lain. Contoh Kasus penerapan TF IDF yang mungkin sering kita temui seperti rekomendasi produk pada e-commerce sehingga dapat merekomendasikan produk yang lebih sesuai dengan preferensi pengguna berdasarkan analisis konten.


Contoh lain yang dapat dilakukan setelah tahap pra proses data teks adalah melakukan klasifikasi teks dengan berbagai pilihan algoritma seperti Naive Bayes, Support Vector Machines (SVM), Decision Tree, dll. Atau jika ingin melakukan clustering dengan menggunakan algoritma seperti K-Means, Hierarchical Clustering, dll. Penerapan yang mungkin untuk dilakukan dengan contoh ini seperti analisis sentimen untuk menganalisis sentimen atau perasaan orang dalam teks seperti pesan, ulasan produk, atau media sosial. Dan masih ada lagi langkah lain yang dapat dilakukan sesuai dengan tujuan yang ingin didapatkan.


Adapun contoh pemanfaatan text mining dari sisi pemerintahan seperti pada perbaikan layanan pemerintahan berupa e-government . Setiap instansi pemerintahan yang mengandalkan penerapan e-government harus terbuka untuk menerima saran dan kritik sebagai pengembangan atau perbaikan aplikasi untuk melayani stakeholder terutama dalam hal pelayanan kepada masyarakat bahkan jika perlu secara aktif dengan meminta kepada pengguna atau stakeholder untuk memberikan saran perbaikan. Saran dan kritik dari pengguna tersebut dapat berupa ulasan atau pendapat mengenai kualitas dari aplikasi yang menjadi sarana atau wadah pelayanan. Dari saran dan kritik berupa ulasan tersebut yang tentunya berjenis tipe data string atau teks, dapat dilakukan analisis text mining. 


Melalui penerapan teknik text mining, dapat dilakukan ekstraksi informasi penting dari ulasan-ulasan tentang pengalaman stakeholder dalam menggunakan aplikasi baik yang berbentuk mobile ataupun web. Identifikasi masalah perbaikan yang didapatkan dari ulasan dapat menjadi evaluasi untuk pengembangan ataupun penambahan fitur sehingga dapat dapat meningkatkan kepuasan pengguna jasa khususnya bagi stakeholder instansi pemerintah yang menerapkan e-government. Analisis yang digunakan seperti pada contoh kasus ini dapat dilakukan dengan mengimplementasikan TF-IDF untuk mendapatkan wawasan berharga seperti identifikasi kata-kata yang paling penting dalam ulasan, tema atau topik masalah paling umum atau signifikan yang dibahas oleh pengguna jasa dll.


Singkatnya, data atau informasi khususnya yang berjenis teks di era Industri 4.0 sekarang ini sudah sangat memenuhi kehidupan manusia. Tentunya sebagai adaptasi terhadap perubahan ini, data ini tidak kita biarkan menumpuk begitu saja. Dalam rangka perbaikan suatu organisasi, entitas, perusahaan atau apapun bentuknya, diperlukan pemanfaatan data terlebih jika organisasi itu merupakan organisasi yang besar dan menyangkut hajat hidup orang banyak. Menteri Keuangan RI, Sri Mulyani pernah menyampaikan bahwa kita tertinggal 5 tahun dibanding negara maju dalam hal pemanfaatan data menggunakan data analytics. Berdasarkan pernyataan tersebut, maka reaksi yang tepat bagi kita adalah mengejar ketertinggalan terutama bagi seluruh instansi pemerintahan dalam meningkatkan pelayanan kepada masyarakat. Dan salah satu dari sekian banyak jenis analisis yang dapat diterapkan dalam meningkatkan kualitas pelayanan sehingga mendapatkan keputusan perbaikan yang tepat adalah penerapan teknik text mining.   


Penulis : Satria Rahman (Pelaksana Seksi Hukum dan Informasi)

Reviewer : Dian Muhammad Gufron (Pusintek)

sumber gambar : 

https://www.wordclouds.com/


sumber : 


Agustini, Ketut dkk. (2022). Data Mining. Universitas Terbuka


Sari, I. & Indarti, D. (2019). Text Mining : Praktik Klasifikasi dan Pemodelan Topik dengan Python. Uwais Inspirasi Indonesia.


https://chat.openai.com/

https://klc2.kemenkeu.go.id/

https://jendela.kemdikbud.go.id/v2/fokus/detail/sekilas-pandang-revolusi-industri-4-0#:~:text=Kini kita berada di era,biasa di bidang teknologi internet.

https://datareportal.com/reports/digital-2022-global-overview-report

https://www.youtube.com/watch?v=MvCN3pDHJ5E&list=PLI3JRBDM4PcMj-6xWSatBVOMNHvVC3I2D&ab_channel=Irwansight

https://www.brainyquote.com/quotes/john_naisbitt_382513

https://socs.binus.ac.id/2020/11/16/tipe-data/

https://algorit.ma/blog/data-science/pengertian-text-mining-dan-nlp/

https://medium.com/statistics-uii/pengenalan-natural-language-processing-nlp-text-mining-1574c413bb1

https://dltsierra.medium.com/algoritma-tf-idf-633e17d10a80

https://media.neliti.com/media/publications/70394-ID-none.pdf

https://eduparx.id/blog/insight/piramida-data-information-knowledge-wisdom/

Disclaimer
Tulisan ini adalah pendapat pribadi dan tidak mencerminkan kebijakan institusi di mana penulis bekerja.
Peta Situs | Email Kemenkeu | Prasyarat | Wise | LPSE | Hubungi Kami | Oppini