報告題目:基于“詞嵌入袋”的文本分類
英文題目:Bag-of-Embeddings for Text Classification
主講人:金澎 教授
主講人單位:樂山師范學院
時間:2019年4月11日(周四)16:00
地點:明理樓B306
主辦:西南石油大學科研處、計算機科學學院
報告摘要:
一詞多義在自然語言中是普遍現象,這給文本分類等任務帶來巨大挑戰。即便采用詞嵌入(word embedding)方法,該問題仍未得到有效解決。我們研究發現同一個詞在不同文本類中表現出不同的分布特性。基于上述假設,提出基于“詞嵌入袋”的文本分類模型。該模型在訓練時,兩種詞向量同時學習:無標簽詞向量在全部文檔中學習,捕獲的是全部文檔中的上下文信息。帶標簽的詞向量只在標簽類樣本中學習,捕獲的是該類中的上下文信息。由于這兩種模型很好地表示了文本,實驗中僅采用簡單的貝葉斯分類器就獲得了極佳的性能。
報告人簡介:
金澎,博士、教授、碩士生導師。現于樂山師范學院計算機科學學院任教,互聯網自然語言智能處理省高校重點實驗室主任,四川省學術技術帶頭人后備人選。2009年7月畢業于北京大學信息科學技術學院計算語言學研究所,獲理學博士學位。主要研究領域為自然語言處理。發表論文50余篇,其中三大檢索論文36篇;授權國家發明專利一項;主持國家自然科學基金二項;翻譯學術專著一部。