March 25, 2018

Tentang Side Project Membuat Aplikasi Sentiment Analysis Indonesia

#TesOmbak

Sedang mengembangkan side project sederhana untuk mengisi waktu luang disela-sela proses penyelesaian projek akhir kuliah. Side project ini berupa app sentiment analysis yang mengolah data Twitter (karna Facebook sudah milik Cambridge Analytica hehe). Setelah beberapa waktu mengembangkan app ini, sekarang saatnya melakukan sedikit testing.

Jadi topik yang lagi hangat baru-baru ini adalah soal "koalisi Habib Rizieq" untuk pilpres 2019. Testing ini mencoba memanfaatkan topik tersebut sebagai objek uji coba. Sebenarnya tidak ada tujuan bahas politik, hanya karena topik ini sedang hangat-hangatnya dalam beberapa hari ini.
Crawl data twitter
Testing app ini diawali dengan mengambil Tweet yang diposting hari kemarin (topiknya baru booming kemarin juga). Pengambilan data dibatasi 1000 Tweet, walau demikian data Tweet yang berhasil di crawl cuma 181 data (no retweet dan no reply). Sebanyak 181 data ini kemudian diolah untuk mencari polaritas sentimennya, siapa saja pelaku berpengaruh pada topik ini, feature word-nya, dan lokasi Tweet yang berbicara soal topik ini. Berikur hasilnya:

# Sentiment
Hasil analisis sentimen
Tweet dengan sentimen positif
Hasil analisis sentimen menunjukkan 51.9% data Tweet memiliki sentiment postive untuk topik ini, 45.9% neutral dan hanya dan hanya 2.2% negative. Penasaran dengan hasil ini, jadilah akhirnya "kepo" ke Tweet-tweet positive. Hasilnya bisa diliat digambar, memang banyak Tweet positive dari netizen Twitter soal topik ini, contohnya Tweet dari @al_rayha yang mengatakan "persatuan ummat selalu membawa maslahat bagi bangsa. PBB Siap Patuhi Habib Rizieq Koalisi dengan Gerindra-PAN-PKS" atau dari @_mediaislam yang mengatakan "Menangkan Pilpres 2019, PKS Siap Sambut Saran Koalisi Habib Rizieq". Hasil ini menunjukkan banyak yang mendukung partai-partai tersebut untuk bersatu, dan ini mungkin jadi momen baik untuk mewujudkan hal tersebut.

# Tweet Berpengaruh
Tweet berpengaruh
Pengguna Twitter dengan Tweet paling berpengaruh untuk topik ini adalah BangPino_, Tweet-nya di like/favorite sebanyak 1K lebih, mendapat 68 reply, dan 829 retweet. Tweet ini bersentimen negative (banyak yg kegalauannya terwakili oleh Tweet dia sepertinya). Sedikit info soal user ini, dia menuliskan "Industrial Engineer | Praktisi Kesehatan | Pemerhati Sosial Politik | Santri Modern | Profesional Photographer." pada profilnya. Jadi bukan dari orang politik atau news akun. Untuk Tweet lain yang berpengaruh bisa diliat digambar.

# Feature Word
Feature word
Jadi orang-orang yang membicarakan soal koalisi ini banyak menyebutkan partai-partai seperti PKS, Gerindra, PAN, PBB yang mana memang itu partai yang disarankan untuk berkoalisi. Namun ada sedikit netizen juga menyinggung Nasdem dan PDIP disana. Kedua partai tersebut disebutkan beberapa kali oleh netizen sebagai lawan dari koalisi yang disarankan.

# Lokasi Tweet
Sebaran data lokasi tweet
Tidak semua Tweet diketahui asal lokasinya. Lebih spesifik ada 55 data yang tidak diketahui asal lokasinya. Sisanya tersebar, Tweet yang berasal dari Jakarta ada 67 Tweet, yang lainnya tersebar diberbagai daerah sepeti Jogja, Medan, Pekanbaru, Bandung, Bengkulu, Bogor hingga Sorong, Papua. Walaupun asal datanya terlihat menyebar, namun kebanyakan Tweet berasal dari daerah-daerah dipulau Jawa, di ikuti Sumatra, Kalimantan, Sulawesi dan kemudian Papua. Tandanya topik koalisi ini sudah masuk isu Nasional.

# Potensi Pengembangan Side Project Ini

Saat ini masih banyak kekurangan yang perlu dibenahi, khusunya pada:
  • Classifier Sentimen
    Saat ini masih menggunakan statistical method merujuk paper : jurnal.ugm.ac.id/ijccs/article/view/16625. Sudah ada modifikasi yang dilakukan sebagai upaya agar classifier-nya bisa bekerja lebih bagus untuk data sosmed, tapi yakin improvment-nya belum begitu besar dengan akurasi masih 60%-70% atau bahkan bisa turun. Untuk pastinya belum hitung akurasi ulang. Rencananya classifier ini akan dipindahkan ke machine learning secepatnya.
  • Soal Tweet Retweet
    Kedepannya data retweet juga harus di crawl dan diperhitungkan. Hal ini didasari dari pengamatan Tweet berpengaruh (bagian: # Tweet Berpengaruh). Tweet yang paling banyak di retweet adalah Tweet negative, Tweet-tweet Retweet ini belum masuk dalam kalkulasi sentiment. Jika masuk mungkin bisa memberikan hasil berbeda.
  • Source Data
    Kedepannya objek data tidak hanya dari Twitter tapi juga dari Facebook, Instagram dan Mainstream Media Indonesia.
Masih banyak yang potensi pengembangan dan hal-hal yang harus diperbaiki. Namanya juga side project. Tapi app ini sudah lumayan untuk digunakan "kepo" soal pilkada, soal viral-viral, atau soal analisis sentiment brand tertentu.

Itu saja.
Terimakasih kepada yang membaca sampai dibawah sini. 
So ya. That's it.

Artikel Terkait

Tentang Side Project Membuat Aplikasi Sentiment Analysis Indonesia
4/ 5
Oleh

Berlangganan

Suka dengan artikel di atas? Silakan berlangganan gratis via email

Tambahkan Komentar Anda