+
CloFAST: chiuso sequenziale modello di data mining utilizzando l'ID-liste sparse e verticali Prima linea: 20 Ott 2015 ricevute: 11 agosto 2014 Revisione: 20 luglio 2015 accettate: 5 Ottobre 2015 Cita questo articolo come: Fumarola, F. Lanotte, P. F. Ceci, M. et al. Knowl Inf Syst (2016) 48: 429. doi: 10.1007 / s10115-015-0884-x 1 Azioni 67 Visualizzazioni astratto Sequenziale modello di data mining è un compito computazionalmente impegnativo in quanto gli algoritmi devono generare e / o testare un numero combinatorio esplosiva di sottosequenze intermedi. Per ridurre la complessità, alcuni ricercatori si concentrano sul compito delle miniere chiuso modelli sequenziali. Ciò comporta non solo una maggiore efficienza, ma fornisce anche un modo per risultati compatti, mantenendo la stessa potenza espressiva di modelli estratte mediante algoritmi modello minerarie tradizionali (non chiusi) sequenziali. In questo articolo, presentiamo CloFAST, un nuovo algoritmo per l'estrazione chiuso sequenze frequenti di itemsets. Esso combina una nuova rappresentazione dei dati del set di dati, sulla base sparse id-list e id-liste verticali. cui teorica proprietà sono studiati per contare velocemente il sostegno di modelli sequenziali, con una tecnica innovativa di uno stadio sia per verificare chiusura sequenza e potare lo spazio di ricerca. Contrariamente a quasi tutti gli algoritmi esistenti, che iterativamente alternate estensione itemset ed estensione sequenza procede CloFAST in due fasi. Inizialmente, tutti chiusi itemset frequenti sono estratti in modo da ottenere un primo insieme di sequenze di dimensioni 1. Quindi, nuove sequenze sono generate lavorando direttamente sulle sequenze, senza inficiare aggiuntivi itemset frequenti. Uno studio approfondito delle prestazioni sia con reali e serie di dati generati artificialmente dimostra empiricamente che CloFAST supera gli algoritmi state-of-the-art, sia nel tempo e consumo di memoria, soprattutto quando l'estrazione lunghe sequenze chiuse. parole modello sequenziale mineraria sequenze chiuse di data mining itemSet Riferimenti Agrawal R, Srikant R (1995) Mining modelli sequenziali. In: Atti del convegno internazionale undicesima sull'ingegneria dei dati, ICDE '95. IEEE Computer Society, Washington, DC, pp 3-14 Ayres J, Flannick J, J Gehrke, Yiu T (2002) sequenziale mineraria modello utilizzando una rappresentazione bitmap. In: Atti della ottava conferenza internazionale ACM SIGKDD sulla scoperta della conoscenza e data mining, KDD '02. ACM, New York, NY, pp 429-435 Burdick D, Calimlim M, Flannick J, J Gehrke, Yiu T (2005) MAFIA: un algoritmo di itemset frequente massima. IEEE Trans Knowl dati Eng 17 (11): 1490-1504 CrossRef Ceci M, Appice A (2006) Classificazione associativo spaziale: proposizionale vs approccio strutturale. J Intell Inf Syst 27 (3): 191-213 CrossRef Ceci M, Lanotte PF, Fumarola F, Cavallo DP, Malerba D (2014) Tempo di Completamento e successiva attività di previsione dei processi che utilizzano sequenziale modello di data mining. In: Dzeroski S, Panov P, Kocev D, Todorovski L (a cura di) Discovery Science-17 ° conferenza internazionale, DS 2014, Bled, Slovenia, ottobre 08-10, 2014. Atti, il volume di 8777 Lecture Notes in Computer Science, Springer, pp 49-61 Ceci M, Loglisci C, Salvemini E, D'Elia D, Malerba D (2011) Mining regole di associazione spaziali per la scoperta composito motivo. In: Bruni R (ed) matematica si avvicina ad analisi di sequenza polimero e problemi connessi. Springer, Berlino, pp 87-109 CrossRef Cerf L, J Besson, Nguyen K-N, Boulicaut (2013) chiuso e modelli di rumore tolleranti nelle relazioni n-ario J-F. Dati Min Knowl Discov 26 (3): 574-619 MATH MathSciNet CrossRef Chi Y, Wang H, Yu PS, Muntz RR (2006) Cogliere il momento: mantenendo chiuso itemset frequenti su una finestra scorrevole flusso di dati. Knowl Inf Syst 10: 265-294 CrossRef Exarchos TP, Tsipouras MG, Papaloukas C, Fotiadis DI (2008) Una metodologia in due fasi per la classificazione sequenza sulla base di data mining modello sequenziale e ottimizzazione. Dati Knowl Eng 66: 467-487 CrossRef Fournier-Viger P (2014) SPMF: un quadro modello di data mining sequenziale. http://www. philippe-fournier-viger. com/spmf/index. php. Accessed 8 ago 2014 Fradkin D, Moerchen F (2010) Margine-chiuso frequente modello di data mining sequenziale. In: Atti del workshop ACM SIGKDD sui modelli utili, UP '10. ACM, New York, NY, pp 45-54 Gomariz A, Campos M, Marín R, Goethals B (2013) di chiusura: un algoritmo efficiente per l'estrazione frequente chiuso sequenze. In: Pei J, Tseng VS, Cao L, Motoda H, Xu G (a cura di) PAKDD (1), vol 7818 delle Lecture Notes in Computer Science. Springer, Berlino, pp 50-61 Han J (2005) Data mining: concetti e tecniche. Morgan Kaufmann Publishers Inc. di San Francisco Huang K-Y, Chang C-H, Tung J-H, Ho C-T (2006) COBRA: chiusi sequenziale modello di data mining utilizzando approccio di riduzione del bi-fase. In: Tjoa AM, Trujillo J (eds) DaWaK, vol 4081 delle Lecture Notes in Computer Science. Springer, Berlino, pp 280-291 Jingjun Zhu GG, Wu Haiyan (2010) un metodo efficace di web modello sequenziale mineraria basata su filtro sessione e l'identificazione delle transazioni. J Netw (9) 5: 1017-1024 Li Z, Lu S, S Myagmar, Zhou Y (2006) Cp-minatore: trovare copia-incolla e gli insetti correlati in codice del software su larga scala. IEEE Trans Softw Eng 32: 176-192 CrossRef Masseglia F, Poncelet P, Teisseire M (2009) l'estrazione efficiente di modelli sequenziali con vincoli di tempo: ridurre le combinazioni. Expert Syst Appl Int J 36: 2677-2690 CrossRef Pei J, Han J, Mortazavi-Asl B, Pinto H, Chen Q, Dayal U, Hsu M (2001) PrefixSpan: estrazione modelli sequenziali da una crescita del prefisso proiettato. In: Atti del convegno internazionale 17 sull'ingegneria dei dati. IEEE Computer Society, Washington, DC, pp 215-224 Salvemini E, F Fumarola, Malerba D, Han J (2011) sequenza veloce mineraria in base sparse id-liste. In: Kryszkiewicz M, H Rybinski, Skowron A, Ras ZW (a cura di) ISMIS, vol 6804 delle Lecture Notes in Computer Science, Springer, Berlino, pp 316-325 Canzone S, Hu H, Jin S (2005) HVSM: un nuovo algoritmo di data mining modello sequenziale utilizzando rappresentazione bitmap. In: Li X, Wang S, Dong Z (eds) Advanced Data Mining e applicazioni, vol 3584, Lecture Notes in Computer ScienceSpringer, Berlin Heidelberg, pp 455-463 Turi A, Loglisci C, Salvemini E, Grillo G, Malerba D, D'Elia D (2009) annotazione computazionale dei moduli CIS-normativo UTR attraverso frequenti modello di data mining. BMC Bioinform 10: 1-12. doi: 10,1186 / 1471-2105-10-S6-S25 CrossRef Wang J, J Han, Li C (2007) frequente sequenza mineraria chiuso, senza manutenzione candidato. IEEE Trans. Knowl. Eng dati. 19: 1042-1056 CrossRef Yan X, Han J, Afshar R (2003) CloSpan: miniere chiuse modelli sequenziali in grandi insiemi di dati. In: SDM, pp 166-177 Yang Z, Kitsuregawa M (2005) LAPIN-SPAM: un algoritmo migliorato per l'estrazione modello sequenziale. In: 22 ° conferenza internazionale sulla officine meccaniche di dati, vol 0, pp 1222 Zaki MJ (2001) SPADE: un algoritmo efficiente per l'estrazione di sequenze frequenti. Mach Learn 42 (1-2): 31-60 CrossRef MATEMATICA Zhang X, Dong G, Ramamohanarao K (2000) Esplorare i vincoli in modo efficiente la mia emergente modelli da grandi insiemi di dati ad alta-dimensionale. In: Atti della sesta conferenza internazionale ACM SIGKDD sull'estrazione di conoscenza e data mining (KDD '00). ACM, New York, 310-314. http://dx. doi. org/10.1145/347090.347158 informazioni sul copyright © Springer-Verlag di Londra 2015 CloFAST: chiuso sequenziale modello di data mining utilizzando l'ID-liste sparse e verticali Prima linea: 20 Ott 2015 ricevute: 11 agosto 2014 Revisione: 20 luglio 2015 accettate: 5 Ottobre 2015 Cita questo articolo come: Fumarola, F. Lanotte, P. F. Ceci, M. et al. Knowl Inf Syst (2016) 48: 429. doi: 10.1007 / s10115-015-0884-x 1 Azioni 67 Visualizzazioni astratto Sequenziale modello di data mining è un compito computazionalmente impegnativo in quanto gli algoritmi devono generare e / o testare un numero combinatorio esplosiva di sottosequenze intermedi. Per ridurre la complessità, alcuni ricercatori si concentrano sul compito delle miniere chiuso modelli sequenziali. Ciò comporta non solo una maggiore efficienza, ma fornisce anche un modo per risultati compatti, mantenendo la stessa potenza espressiva di modelli estratte mediante algoritmi modello minerarie tradizionali (non chiusi) sequenziali. In questo articolo, presentiamo CloFAST, un nuovo algoritmo per l'estrazione chiuso sequenze frequenti di itemsets. Esso combina una nuova rappresentazione dei dati del set di dati, sulla base sparse id-list e id-liste verticali. cui teorica proprietà sono studiati per contare velocemente il sostegno di modelli sequenziali, con una tecnica innovativa di uno stadio sia per verificare chiusura sequenza e potare lo spazio di ricerca. Contrariamente a quasi tutti gli algoritmi esistenti, che iterativamente alternate estensione itemset ed estensione sequenza procede CloFAST in due fasi. Inizialmente, tutti chiusi itemset frequenti sono estratti in modo da ottenere un primo insieme di sequenze di dimensioni 1. Quindi, nuove sequenze sono generate lavorando direttamente sulle sequenze, senza inficiare aggiuntivi itemset frequenti. Uno studio approfondito delle prestazioni sia con reali e serie di dati generati artificialmente dimostra empiricamente che CloFAST supera gli algoritmi state-of-the-art, sia nel tempo e consumo di memoria, soprattutto quando l'estrazione lunghe sequenze chiuse. parole modello sequenziale mineraria sequenze chiuse di data mining itemSet Riferimenti Agrawal R, Srikant R (1995) Mining modelli sequenziali. In: Atti del convegno internazionale undicesima sull'ingegneria dei dati, ICDE '95. IEEE Computer Society, Washington, DC, pp 3-14 Ayres J, Flannick J, J Gehrke, Yiu T (2002) sequenziale mineraria modello utilizzando una rappresentazione bitmap. In: Atti della ottava conferenza internazionale ACM SIGKDD sulla scoperta della conoscenza e data mining, KDD '02. ACM, New York, NY, pp 429-435 Burdick D, Calimlim M, Flannick J, J Gehrke, Yiu T (2005) MAFIA: un algoritmo di itemset frequente massima. IEEE Trans Knowl dati Eng 17 (11): 1490-1504 CrossRef Ceci M, Appice A (2006) Classificazione associativo spaziale: proposizionale vs approccio strutturale. J Intell Inf Syst 27 (3): 191-213 CrossRef Ceci M, Lanotte PF, Fumarola F, Cavallo DP, Malerba D (2014) Tempo di Completamento e successiva attività di previsione dei processi che utilizzano sequenziale modello di data mining. In: Dzeroski S, Panov P, Kocev D, Todorovski L (a cura di) Discovery Science-17 ° conferenza internazionale, DS 2014, Bled, Slovenia, ottobre 08-10, 2014. Atti, il volume di 8777 Lecture Notes in Computer Science, Springer, pp 49-61 Ceci M, Loglisci C, Salvemini E, D'Elia D, Malerba D (2011) Mining regole di associazione spaziali per la scoperta composito motivo. In: Bruni R (ed) matematica si avvicina ad analisi di sequenza polimero e problemi connessi. Springer, Berlino, pp 87-109 CrossRef Cerf L, J Besson, Nguyen K-N, Boulicaut (2013) chiuso e modelli di rumore tolleranti nelle relazioni n-ario J-F. Dati Min Knowl Discov 26 (3): 574-619 MATH MathSciNet CrossRef Chi Y, Wang H, Yu PS, Muntz RR (2006) Cogliere il momento: mantenendo chiuso itemset frequenti su una finestra scorrevole flusso di dati. Knowl Inf Syst 10: 265-294 CrossRef Exarchos TP, Tsipouras MG, Papaloukas C, Fotiadis DI (2008) Una metodologia in due fasi per la classificazione sequenza sulla base di data mining modello sequenziale e ottimizzazione. Dati Knowl Eng 66: 467-487 CrossRef Fournier-Viger P (2014) SPMF: un quadro modello di data mining sequenziale. http://www. philippe-fournier-viger. com/spmf/index. php. Accessed 8 ago 2014 Fradkin D, Moerchen F (2010) Margine-chiuso frequente modello di data mining sequenziale. In: Atti del workshop ACM SIGKDD sui modelli utili, UP '10. ACM, New York, NY, pp 45-54 Gomariz A, Campos M, Marín R, Goethals B (2013) di chiusura: un algoritmo efficiente per l'estrazione frequente chiuso sequenze. In: Pei J, Tseng VS, Cao L, Motoda H, Xu G (a cura di) PAKDD (1), vol 7818 delle Lecture Notes in Computer Science. Springer, Berlino, pp 50-61 Han J (2005) Data mining: concetti e tecniche. Morgan Kaufmann Publishers Inc. di San Francisco Huang K-Y, Chang C-H, Tung J-H, Ho C-T (2006) COBRA: chiusi sequenziale modello di data mining utilizzando approccio di riduzione del bi-fase. In: Tjoa AM, Trujillo J (eds) DaWaK, vol 4081 delle Lecture Notes in Computer Science. Springer, Berlino, pp 280-291 Jingjun Zhu GG, Wu Haiyan (2010) un metodo efficace di web modello sequenziale mineraria basata su filtro sessione e l'identificazione delle transazioni. J Netw (9) 5: 1017-1024 Li Z, Lu S, S Myagmar, Zhou Y (2006) Cp-minatore: trovare copia-incolla e gli insetti correlati in codice del software su larga scala. IEEE Trans Softw Eng 32: 176-192 CrossRef Masseglia F, Poncelet P, Teisseire M (2009) l'estrazione efficiente di modelli sequenziali con vincoli di tempo: ridurre le combinazioni. Expert Syst Appl Int J 36: 2677-2690 CrossRef Pei J, Han J, Mortazavi-Asl B, Pinto H, Chen Q, Dayal U, Hsu M (2001) PrefixSpan: estrazione modelli sequenziali da una crescita del prefisso proiettato. In: Atti del convegno internazionale 17 sull'ingegneria dei dati. IEEE Computer Society, Washington, DC, pp 215-224 Salvemini E, F Fumarola, Malerba D, Han J (2011) sequenza veloce mineraria in base sparse id-liste. In: Kryszkiewicz M, H Rybinski, Skowron A, Ras ZW (a cura di) ISMIS, vol 6804 delle Lecture Notes in Computer Science, Springer, Berlino, pp 316-325 Canzone S, Hu H, Jin S (2005) HVSM: un nuovo algoritmo di data mining modello sequenziale utilizzando rappresentazione bitmap. In: Li X, Wang S, Dong Z (eds) Advanced Data Mining e applicazioni, vol 3584, Lecture Notes in Computer ScienceSpringer, Berlin Heidelberg, pp 455-463 Turi A, Loglisci C, Salvemini E, Grillo G, Malerba D, D'Elia D (2009) annotazione computazionale dei moduli CIS-normativo UTR attraverso frequenti modello di data mining. BMC Bioinform 10: 1-12. doi: 10,1186 / 1471-2105-10-S6-S25 CrossRef Wang J, J Han, Li C (2007) frequente sequenza mineraria chiuso, senza manutenzione candidato. IEEE Trans. Knowl. Eng dati. 19: 1042-1056 CrossRef Yan X, Han J, Afshar R (2003) CloSpan: miniere chiuse modelli sequenziali in grandi insiemi di dati. In: SDM, pp 166-177 Yang Z, Kitsuregawa M (2005) LAPIN-SPAM: un algoritmo migliorato per l'estrazione modello sequenziale. In: 22 ° conferenza internazionale sulla officine meccaniche di dati, vol 0, pp 1222 Zaki MJ (2001) SPADE: un algoritmo efficiente per l'estrazione di sequenze frequenti. Mach Learn 42 (1-2): 31-60 CrossRef MATEMATICA Zhang X, Dong G, Ramamohanarao K (2000) Esplorare i vincoli in modo efficiente la mia emergente modelli da grandi insiemi di dati ad alta-dimensionale. In: Atti della sesta conferenza internazionale ACM SIGKDD sull'estrazione di conoscenza e data mining (KDD '00). ACM, New York, 310-314. http://dx. doi. org/10.1145/347090.347158 informazioni sul copyright © Springer-Verlag di Londra 2015

No comments:
Post a Comment