Evaluación del algoritmo de desambiguación de autores de AMiner en un metabuscador académico de Ciencias de la Computación

Ana Canteros; Eduardo Zamudio; Horacio Daniel  Kuna

doi:10.18682/cyt.vi0.2591

Ana Canteros Universidad Nacional de Misiones
Eduardo Zamudio Universidad Nacional de Misiones
Horacio Daniel Kuna Universidad Nacional de Misiones

DOI: https://doi.org/10.18682/cyt.vi0.2591

Palabras clave: desambiguación de autores, metabuscador académico, resolución de entidades, datos bibliográficos

Resumen

La desambiguación de autores es un problema de gran relevancia para los sistemas de recuperación de información del ámbito académico. El algoritmo de desambiguación de nombres de AMiner representa uno de los enfoques basados en Aprendizaje Automático con mayor impacto en la actualidad. En este trabajo, se presenta una evaluación del algoritmo de desambiguación de nombres de AMiner para la desambiguación de autores en el contexto de un metabuscador académico del área de las Ciencias de la Computación. Los resultados experimentales con datos generados por el metabuscador académico dan cuenta de un desempeño promedio similar a la referencia. Asimismo, las evaluaciones experimentales permitieron identificar casos especiales de nombres de autores en el que el algoritmo presenta un bajo desempeño en comparación con el promedio. Este hallazgo permitió identificar una asociación aparente entre el bajo desempeño del algoritmo en contextos de varios autores con un mismo nombre y con pocas publicaciones.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Ana Canteros, Universidad Nacional de Misiones

Estudiante de grado/Investigadora de la Universidad Nacional de Misiones. Egresada de la carrera Analista de Sistemas de Computación y estudiante de Licenciatura en Sistemas de Información de la Facultad de Ciencias Exactas, Químicas y Naturales, UNaM. Actualmente cursando la tesis de grado desarrollando una línea de investigación sobre desambiguación de autores para un metabuscador académico del área de las Ciencias de la Computación. Formo parte del Programa de Investigación en Ciencias de la Computación desde el año 2015. Durante dicho periodo obtuve una beca otorgada por el Comité de Desarrollo e Innovación Tecnológica (CEDIT) y en dos ocasiones obtuve una beca de Estímulo a las Vocaciones Científicas del Consejo Interuniversitario Nacional (CIN). Participo en trabajos de investigación relacionados con Sistemas de Recuperación de Información y me desempeño como Administradora de Sistemas en Marandu Comunicaciones S.E. desde el año 2018.

Eduardo Zamudio, Universidad Nacional de Misiones

Docente/Investigador de la Universidad Nacional de Misiones. Egresado del Doctorado en Ciencias de la Computación en la Universidad Nacional del Centro de la Provincia de Buenos Aires, financiado por una beca para Áreas de Vacancia Geográfica de CONICET. Mi área principal de trabajo son los sistemas de recuperación de información y el Aprendizaje Automático. Actualmente participo en trabajos de investigación relacionados con la recuperación de información para la construcción automática de perfiles de expertos. Dirijo tesis de grado y posgrado en el área de las Ciencias de la Computación y afines. Mi objetivo es formarme en el ámbito de la investigación y desarrollo del área de las Ciencias de la Computación, a partir del desarrollo de nuevas tecnologías para el análisis y predicción de datos, mediante técnicas de Procesamiento de Lenguaje Natural y técnicas de Aprendizaje Automático.

Horacio Daniel Kuna, Universidad Nacional de Misiones

Investigador categoría II. Programa de Incentivos a la Investigación. Ministerio de Educación de
la Argentina.

Profesor Titular de la Facultad de Ciencias Exactas Químicas y naturales de la Universidad Nacional de Misiones (FCEQyN/UNaM).
Director del Instituto de Investigación Desarrollo e Innovación en Informática (FCEQyN/UNaM).
Director de Programa de Investigación en Computación (FCEQyN/UNaM).

Director de la Maestría en Tecnologías de la Información (FCEQyN/UNaM).

Vicedirector del Doctorado en Informática (UNNE, UNaM, UTN-FRRe).

Secretario de Investigación y Posgrado (FCEQyN/UNaM).

Citas

Ferreira, A. A., Gonçalves, M. A., & Laender, A. H. F. (2012). A Brief Survey of Automatic Methods for Author Name Disambiguation. SIGMOD Rec., 41(2), 15–26. https://doi.org/10.1145/2350036.2350040

Kuna, H., Cantero, A., Canteros, A., Rey, M., Zamudio, E., Rambo, A., Martini, E., Pautsch, G., Biale, C., Krujoski, S., & Rauber, F. (2019). Avances en el desarrollo de métodos de Desambiguación y Recomendación de Autores Científicos para un Metabuscador de las Ciencias de la Computación. XXI Workshop de Investigadores en Ciencias de la Computación, 198-202. http://www.wicc2019.unsj.edu.ar/descargas/Libro_WICC2019.pdf

Kuna, H., Rey, M., Zamudio, E., Olivas, J. A., Rambo, A., Cantero, A., Canteros, A., Martini, E., & Biale, C. (2017). An Entity Profile Schema for Data Integration in an Academic Metasearch Engine. Proceedings of the 2017 International Conference on Artificial Intelligence, 281–285. http://csce.ucmss.com/cr/books/2017/ConferenceReport?ConferenceKey=ICA

Liu, Y., Li, W., Huang, Z., & Fang, Q. (2015). A fast method based on multiple clustering for name disambiguation in bibliographic citations. Journal of the Association for Information Science and Technology, 66(3), 634-644. https://doi.org/10.1002/asi.23183

Santana, A. F., Gonçalves, M. A., Laender, A. H. F., & Ferreira, A. A. (2017). Incremental Author Name Disambiguation by Exploiting Domain-specific Heuristics. J. Assoc. Inf. Sci. Technol., 68(4), 931–945. https://doi.org/10.1002/asi.23726

Shoaib, M., Daud, A., & Amjad, T. (2020). Author Name Disambiguation in Bibliographic Databases: A Survey. arXiv preprint arXiv:2004.06391.

Tang, J., Fong, A. C. M., Wang, B., & Zhang, J. (2012). A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transactions on Knowledge and Data Engineering, 24(6), 975-987. https://doi.org/10.1109/TKDE.2011.13

Tang, Jie. (2016a). AMiner: Mining deep knowledge from big scholar data. Proceedings of the 25th international conference companion on world wide web, 373–373.

Tang, Jie. (2016b). AMiner: Toward understanding big scholar data. Proceedings of the ninth ACM international conference on web search and data mining, 467–467.

Wan, H., Zhang, Y., Zhang, J., & Tang, J. (2019). Aminer: Search and mining of academic social networks. Data Intelligence, 1(1), 58–76.

Wang, H., Wang, R., Wen, C., Li, S., Jia, Y., Zhang, W., & Wang, X. (2020). Author Name Disambiguation on Heterogeneous Information Network with Adversarial Representation Learning. arXiv preprint arXiv:2002.09803.

Zhang, W., Yan, Z., & Zheng, Y. (2019). Author Name Disambiguation Using Graph Node Embedding Method. 2019 IEEE 23rd International Conference on Computer Supported Cooperative Work in Design (CSCWD), 410–415.

Zhang, Y., Zhang, F., Yao, P., & Tang, J. (2018). Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 1002–1011.

Zhu, J., Wu, X., Lin, X., Huang, C., Fung, G. P., & Tang, Y. (2018). A Novel Multiple Layers Name Disambiguation Framework for Digital Libraries Using Dynamic Clustering. Scientometrics, 114(3), 781–794. https://doi.org/10.1007/s11192-017-2611-8

Sasaki, Y. (2007). The truth of the F-measure. Teach Tutor Mater.

Van Rijsbergen, C. (1979). Information Retrieval | Guide books. https://dl.acm.org/doi/book/10.5555/539927