Bagaimana Analisis Sentimen Berfungsi?

.
Analisis sentimen menggunakan pelbagai kaedah dan algoritma Pemprosesan Bahasa Asli (NLP), yang akan kita bahas dengan lebih terperinci di bahagian ini.

Jenis algoritma utama yang digunakan termasuk:

Sistem berasaskan peraturan yang melakukan analisis sentimen berdasarkan satu set peraturan yang dibuat secara manual.
Sistem automatik yang bergantung pada teknik pembelajaran mesin untuk belajar dari data.
Sistem hibrid yang menggabungkan pendekatan berasaskan peraturan dan automatik.

1. Pendekatan berdasarkan peraturan

Biasanya, sistem berasaskan peraturan menggunakan sekumpulan peraturan buatan manusia untuk membantu mengenal pasti subjektiviti, polariti, atau subjek pendapat.

Peraturan ini mungkin merangkumi pelbagai teknik yang dikembangkan dalam komputasi linguistik, seperti:
a. Stemming, tokenization, part-of-speech tagging dan parsing.
b. Leksikon (iaitu senarai kata dan ungkapan).

Berikut adalah contoh asas bagaimana sistem berdasarkan peraturan berfungsi:
1. Mentakrifkan dua senarai kata terpolarisasi (mis. Kata negatif seperti buruk, terburuk, jelek, dll dan kata positif seperti baik, terbaik, cantik, dll).
2. Mengira bilangan kata positif dan negatif yang muncul dalam teks tertentu.
3. Sekiranya jumlah penampilan kata positif lebih besar daripada jumlah penampilan kata negatif, sistem akan mengembalikan sentimen positif, dan sebaliknya. Sekiranya bilangannya genap, sistem akan mengembalikan sentimen neutral.

Sistem berdasarkan peraturan sangat naif kerana tidak mengambil kira bagaimana kata digabungkan dalam satu urutan. Sudah tentu, teknik pemprosesan yang lebih maju dapat digunakan, dan peraturan baru ditambahkan untuk menyokong ungkapan dan kosa kata baru. Namun, menambahkan peraturan baru boleh mempengaruhi hasil sebelumnya, dan keseluruhan sistem menjadi sangat rumit. Oleh kerana sistem berasaskan peraturan sering memerlukan penyesuaian dan penyelenggaraan, mereka juga memerlukan pelaburan tetap.

2. Pendekatan Automatik

Kaedah automatik, bertentangan dengan sistem berasaskan peraturan, tidak bergantung pada peraturan yang dibuat secara manual, tetapi pada teknik pembelajaran mesin.

Tugas analisis sentimen biasanya dimodelkan sebagai masalah klasifikasi, di mana pengelas diberi teks dan mengembalikan kategori, mis. positif, negatif, atau berkecuali.

Inilah cara pengelasan pembelajaran mesin dapat dilaksanakan:

2.1. Proses Latihan dan Ramalan

Dalam proses latihan, model belajar mengaitkan input tertentu (iaitu teks) dengan output (tag) yang sesuai berdasarkan sampel ujian yang digunakan untuk latihan. Pengekstrak ciri memindahkan input teks ke dalam vektor ciri. Pasangan vektor dan tag ciri (mis. Positif, negatif, atau neutral) dimasukkan ke dalam algoritma pembelajaran mesin untuk menghasilkan model.

Dalam proses ramalan, pengekstrak ciri digunakan untuk mengubah input teks yang tidak kelihatan menjadi vektor ciri. Vektor ciri ini kemudian dimasukkan ke dalam model, yang menghasilkan tag yang diramalkan (sekali lagi, positif, negatif, atau neutral).

2.2. Pengekstrakan Ciri dari Teks

Langkah pertama dalam pengkelasan teks pembelajaran mesin adalah untuk mengubah pengekstrakan teks atau vektorisasi teks, dan pendekatan klasik adalah bag-of-word atau bag-of-ngrams dengan kekerapannya.

Terkini, teknik pengekstrakan ciri baru telah diterapkan berdasarkan penyisipan kata (juga dikenali sebagai vektor kata). Perwakilan seperti ini memungkinkan kata-kata dengan makna yang serupa mempunyai representasi yang serupa, yang dapat meningkatkan prestasi pengklasifikasi.

2.3. Algoritma Klasifikasi

Langkah klasifikasi biasanya melibatkan model statistik seperti Naïve Bayes, Regresi Logistik, Mesin Vektor Sokongan, atau Rangkaian Neural:

Naïve Bayes: sekelompok algoritma probabilistik yang menggunakan Teorem Bayes untuk meramalkan kategori teks.

Linear Regression: algoritma yang sangat terkenal dalam statistik yang digunakan untuk meramalkan beberapa nilai (Y) diberikan sekumpulan ciri (X).

Mesin Vektor Sokongan: model bukan probabilistik yang menggunakan perwakilan contoh teks sebagai titik dalam ruang pelbagai dimensi. Contoh kategori yang berbeza (sentimen) dipetakan ke kawasan yang berbeza dalam ruang tersebut. Kemudian, teks baru diberi kategori berdasarkan persamaan dengan teks yang ada dan kawasan yang dipetakan.

Pembelajaran Dalam: pelbagai algoritma yang berupaya meniru otak manusia, dengan menggunakan rangkaian saraf tiruan untuk memproses data.

3. Pendekatan Hibrid

Sistem hibrid menggabungkan unsur-unsur teknik berasaskan peraturan dan automatik yang diinginkan menjadi satu sistem. Satu kelebihan besar sistem ini ialah hasilnya lebih tepat.

4. Cabaran Analisis Sentimen

Para saintis komputer telah berusaha untuk mengembangkan pengkelasan sentimen yang lebih tepat, dan mengatasi batasan dalam beberapa tahun terakhir.

Berikut adalah beberapa cabaran yang mereka hadapi:

4.1. Subjektiviti dan Nada

Pengesanan teks subjektif dan objektif sama pentingnya dengan menganalisis nada mereka. Sebenarnya, teks objektif yang disebut tidak mengandungi sentimen yang tersurat. Katakan, sebagai contoh, anda bermaksud menganalisis sentimen dua teks berikut:

Pakejnya bagus.

Pakej berwarna merah.

Kebanyakan orang akan mengatakan bahawa sentimen positif untuk yang pertama dan neutral untuk yang kedua, bukan? Semua predikat (kata sifat, kata kerja, dan beberapa kata nama) tidak boleh diperlakukan sama sehubungan dengan bagaimana mereka menimbulkan sentimen. Dalam contoh di atas, bagus lebih subjektif daripada warna merah.

4.2. Konteks dan Kutub

Semua ucapan diucapkan pada suatu ketika, di suatu tempat, oleh dan kepada beberapa orang. Dalam kata lain, semua ucapan adalah mengikut konteks. Menganalisis sentimen tanpa konteks adalah sukar. Walau bagaimanapun, mesin tidak akan dapat belajar mengenai konteks jika tidak diberitahu secara eksplisit. Salah satu masalah yang timbul dari konteks adalah perubahan kutub. Lihat tindak balas berikut untuk tinjauan:

Segala-galanya.

Tidak ada apa-apa!

Bayangkan jawapan di atas datang dari jawapan kepada soalan Apa yang anda suka mengenai acara itu? Respons pertama akan positif dan yang kedua adalah negatif, bukan?

Sekarang, bayangkan tanggapan datang dari jawapan kepada soalan Apa yang anda tidak sukai tentang acara itu? Unsur negatif dalam soalan akan membuat analisis sentimen berubah sama sekali.

Banyak aktiviti pra-proses atau pasca-proses diperlukan untuk membolehkan kita mengenalpasti konteks bagi sesuatu teks yang telah dihasilkan. Walau bagaimanapun, cara memproses atau memproses data untuk menangkap konteks tidak mudah.

4.3. Ironi dan Sarkasme

Apabila menyentuh tentang ironi dan sarkasme, manusia menyatakan sentimen negatif mereka melalui kata-kata positif, sesuatu yang sukar untuk dikesan oleh mesin tanpa memiliki pemahaman yang mendalam mengenai konteks situasi di mana perasaan itu diluahkan.

Sebagai contoh, lihat beberapa kemungkinan jawapan untuk soalan tersebut, Adakah anda menikmati pengalaman berbelanja dengan kami?

Ya pasti. Begitu lancar!

Bukan satu, tetapi banyak!

Sentimen apa yang akan anda berikan kepada jawapan di atas? Tanggapan pertama dengan tanda seru boleh menjadi negatif, bukan? Masalahnya ialah tidak ada petunjuk teks yang akan membantu mesin belajar, atau sekurang-kurangnya mempersoalkan sentimen itu memandangkan perkataan ya dan pasti sering tergolong dalam teks positif atau neutral.

Bagaimana dengan tindak balas kedua? Dalam konteks ini, sentimennya positif, tetapi tidak mustahil anda boleh menemui banyak konteks yang berbeza di mana respons yang sama menyampaikan sentimen negatif.

4.4. Perbandingan

Cara menangani perbandingan dalam analisis sentimen adalah satu lagi cabaran yang perlu ditangani. Lihat teks di bawah:

Produk ini tiada duanya.

Ini lebih baik daripada alat lama.

Ini lebih baik daripada tiada.

Perbandingan pertama tidak memerlukan petunjuk konteks untuk dikelaskan dengan betul. Sudah jelas bahawa itu positif.

Teks kedua dan ketiga agak sukar untuk dikelaskan. Adakah anda mengkelaskannya sebagai neutral, positif, atau negatif? Sekali lagi, konteks akan membezakannya. Contohnya, jika ‘alat lama’ dalam teks kedua dianggap tidak berguna, maka teks kedua hampir sama dengan teks ketiga.

4.5. Emoji

Terdapat dua jenis emoji menurut Guibon et al. Emoji Barat (contohnya: D) dikodkan hanya dalam satu atau dua karakter, sedangkan Emoji Timur (mis. ¯ \ _ (ツ) _ / ¯) adalah gabungan karakter yang lebih panjang dari sifat menegak. Emoji memainkan peranan penting dalam sentimen teks, terutama dalam tweet.

Anda perlu memberi perhatian khusus pada peringkat karakter, dan juga peringkat perkataan, ketika melakukan analisis sentimen pada tweet. Banyak proses pra-proses mungkin diperlukan. Sebagai contoh, anda mungkin ingin memproses kandungan media sosial dan mengubah emoji Barat dan Timur menjadi token dan memasukkannya ke dalam senarai putih (iaitu menjadikannya sebagai ciri untuk tujuan klasifikasi) bagi membantu meningkatkan prestasi analisis sentimen.

4.6. Mendefinisikan Neutral

Mendefinisikan apa yang kita maksudkan dengan neutral adalah satu lagi cabaran yang harus ditangani agar dapat melakukan analisis sentimen yang tepat. Seperti dalam semua masalah klasifikasi, menentukan kategori anda - dan, dalam kes ini, tag neutral - adalah salah satu bahagian masalah yang paling penting. Dalam kata lain, apa yang anda maksudkan dengan neutral, positif, atau negatif adalah penting ketika anda melatih model analisis sentimen. Oleh kerana data penandaan memerlukan kriteria penandaan agar konsisten, definisi masalah yang baik adalah sangat mustahak.

Berikut adalah beberapa idea untuk membantu anda mengenal pasti dan menentukan teks neutral:

Teks objektif. Oleh itu, teks objektif yang disebut tidak mengandungi sentimen yang jelas, jadi anda harus memasukkan teks-teks tersebut ke dalam kategori neutral.

Maklumat tidak berkaitan. Sekiranya anda belum memproses data anda untuk menyaring maklumat yang tidak berkaitan, anda boleh menandakannya secara neutral. Namun, berhati-hatilah! Lakukan ini hanya jika anda tahu bagaimana ini boleh mempengaruhi prestasi keseluruhan. Kadang kala, anda akan menambahkan kebisingan pada pengklasifikasi anda dan prestasi akan bertambah buruk.

Teks yang mengandungi keinginan. Beberapa permintaan seperti, saya berharap produk mempunyai lebih banyak integrasi secara amnya neutral. Walau bagaimanapun, termasuk perbandingan seperti, saya berharap produk lebih baik agak sukar dikategorikan

.

Sumber:
https://monkeylearn.com/sentiment-analysis/#how-does-sentiment-analysis-work