圖1:最佳學(xué)生論文獎(jiǎng)
頻繁模式挖掘是數(shù)據(jù)挖掘研究中最基本問題之一,具有廣泛的應(yīng)用。在傳統(tǒng)的頻繁模式挖掘中,一般用支持度(Support)來度量一個(gè)模式的質(zhì)量,模式越頻繁,說明該模式就越好。然而在有一些實(shí)際的應(yīng)用中,比如網(wǎng)頁內(nèi)容打印推薦,我們發(fā)現(xiàn)僅僅推薦支持度最高的模式給用戶,效果往往不是很好,這是因?yàn)槟J街С侄仍礁?,相?yīng)的該模式中的項(xiàng)(Item)的個(gè)數(shù)就越少,也就是說,推薦給用戶的信息不全,用戶還需進(jìn)一步找到那些不全的信息,從而造成用戶的體驗(yàn)度比較差。因此,我們提出了一個(gè)新的概念,即占有度(Occupancy),來衡量模式的完整性。結(jié)合模式的支持度和占有度,我們可以提供給用戶更加準(zhǔn)確的推薦。與模式支持度的反單調(diào)性不同,模式的占有度既不滿足單調(diào)性,也不滿足反單調(diào)性,因此我們很難把現(xiàn)有工作直接應(yīng)用到我們的問題中。為此,我們深入分析了模式占有度的特性,提出了三個(gè)占有度的上界計(jì)算函數(shù) (第一個(gè)函數(shù)的計(jì)算速度快,但比較松散;第二個(gè)函數(shù)很緊湊,但效率相對(duì)不高;第三個(gè)是效率和松緊度的一個(gè)折中,可以提高整體效率),基于該上界函數(shù),我們可以進(jìn)一步對(duì)搜索空間進(jìn)行剪枝,從而提高算法的效率。最后,在實(shí)際的標(biāo)注數(shù)據(jù)以及合成的數(shù)據(jù)的大量實(shí)驗(yàn)驗(yàn)證了文章所提方法的有效性。該文獨(dú)特的視角與透徹的分析,以及挖掘推薦中潛在的商業(yè)應(yīng)用,因此具有重要的科研和實(shí)用價(jià)值。同時(shí),該文完備的算法設(shè)計(jì)、充足的實(shí)驗(yàn)驗(yàn)證以及流暢的組織表達(dá)也受到審稿人以及優(yōu)秀論文評(píng)選委員會(huì)的積極評(píng)價(jià)和肯定。
圖2:晚宴合影(從左到右依次為大會(huì)主席Xuewen Chen教授、大會(huì)議程主席王海勛博士、張磊同學(xué)、王敏院長、羅平博士)
2012年度CIKM大會(huì)于10月29——11月2日在美國的夏威夷舉行,張磊同學(xué)參加了本次會(huì)議并宣講論文。ACM CIKM 是信息檢索和知識(shí)管理領(lǐng)域的頂級(jí)國際盛會(huì),每年都吸引大量的學(xué)者投稿。本年度共有1089篇論文投稿,但經(jīng)過嚴(yán)厲的審稿后,僅有146篇被接受為會(huì)議長文(接受率為13.4%),157篇被接受為會(huì)議短文(接受率為14.4%)。每一屆被CIKM大會(huì)錄取的論文中,只有一篇最佳交叉學(xué)科論文獎(jiǎng)(Best interdisciplinary paper award )和一篇最佳學(xué)生論文獎(jiǎng)(Best student paper award)
欲了解更多詳細(xì)內(nèi)容,請(qǐng)點(diǎn)擊http://blog.sina.com.cn/s/blog_5e13f6110102e1oo.html