Cálculo de similitud de texto basado en Gensim
Un corpus es un conjunto de textos sin procesar que se utilizan para entrenar sin supervisión la estructura oculta de los temas del texto. No es necesario etiquetar manualmente información adicional en el corpus. En Gensim, un corpus suele ser un objeto iterable (como una lista). Cada iteración devuelve un vector disperso que puede usarse para expresar objetos de texto.
Un vector es una lista de características de texto. Es la representación interna de un texto en Gensim.
Un diccionario es una colección de todas las palabras de todos los documentos, registrando el número de veces que aparece cada palabra y otra información. ?
Modelo es un término abstracto. Se define una transformación de dos espacios vectoriales (es decir, de una representación vectorial de texto a otra).
Utilice un experimento para comprender:
# -*-Codificación: UTF-8 -*-?
Importar corpus, similitud, modelo de gensim
Importar Jieba
classGensimExp(object):
def__init__(self, documentos, test_document , Tipo, feature_num, best_num):
self.raw_documents = Documentos
self testDocuments = documentos de prueba
Self. SimCalType = tipo
self.num_features = feature_num
self.num_best =mejor número
defCalSim(self):
corpora_documents = [ ]
#Segmentación de palabras
para item _ textin self . raw _ documentos:
item _ seg = list(jieba . cut(item _ text))
corpora_documents.append
#Generar diccionario y corpus
Diccionario = corpus. Diccionario (corpus_document)
#Calcular la flecha correspondiente a cada noticia.
corpus =[diccionario . doc 2 arco(texto)para incorporación de texto _ documentos]#iterador
if self. tipo simcal == ' Similitud-tfi df-index ':
#¿El valor IDF de cada característica en el corpus estadístico?
tfidf_model = modelo. TfidfModel(corpus)
Corpus_tfi df = tfi df_model[corpus]
Self. _similitud = similitud. similitud (yo.
SimCalType, corpus_tfidf,\
num_features=self.num_features, num_best=self.num_best)
test _ cut _ raw = list(jieba . cut(self . test _ document))
test _ corpus = diccionario . doc 2 bow(test _ cut _ raw)
#Genere el valor IF-IDF según el modelo entrenado y luego calcule la similitud.
Yo mismo. _ prueba _ corpus = tfi df _ model[prueba _ corpus]
elifself. SimCalType == ' Índice-LSI de similitud ':
lsi_model = modelo. LsiModel(corpus)
Corpus_LSI = LSI_model[corpus]
Self. _similitud = similitud. similitud(self. SimCalType, corpus_lsi, \
num_features=self.num_features, num_best=self.num_best)
test_cut_raw = list(jieba . cut(self . test _ document))
test_corpus=diccionario .doc 2 arco(test_cut_raw)
self. _ prueba _ corpus = LSI _ modelo[prueba _ corpus]
self. printout()
defPrint_Out(self):
string = 'El material más similar es'
fortplinrange(len(self._similarity[self ._test_corpus] )):
iftpl! = len(self._similarity[self._test_corpus]) -1:
cadena = cadena str(self._similarity[self._test_corpus][tpl][0]) \
p>'(' str(self._similarity[self._test_corpus][tpl][1]) '),'
De lo contrario:
string = char String str(self. _similaridad[self._test_corpus][tpl][0]) \
'(' str(self._similarity[self._test_corpus][tpl][1]) ')'
Print (string)
if__name__=='__main__ ':
raw_documents = [
0 1 19, CITIC Group y Tencent firmaron un acuerdo marco estratégico en Shenzhen, anunciando que promoverán la cooperación empresarial en la nube, big data, blockchain, inteligencia artificial y otros campos técnicos, y explorarán activamente el camino hacia la transformación digital y la mejora de la industria física. ,
1 El Banco de Desarrollo de Shanghai Pudong anunció que la sucursal de Chengdu de la compañía fue multada con 462 millones de yuanes por la Comisión Reguladora Bancaria de China por negocios de crédito ilegales y otras actividades ilegales. El monto total de la multa se incluyó en la multa de la compañía. Resultados de 2017, lo que tiene un impacto negativo en el desarrollo empresarial y las operaciones sostenibles de la empresa. No hay efectos adversos significativos.
,
2 El Banco de Desarrollo de Shanghai Pudong fue multado con 462 millones de yuanes en respuesta a la violación de la sucursal de Chengdu del Banco de Desarrollo de Shanghai Pudong: Se supo por la oficina central del Banco de Desarrollo de Shanghai Pudong que el Banco de Desarrollo de Shanghai Pudong está profundamente avergonzado por la caso de la emisión ilegal de préstamos por parte de la sucursal de Chengdu, apoyamos y aceptamos firmemente la investigación de las autoridades reguladoras y utilizaremos esto como un estímulo para fortalecer su propia gestión, adherirse a una gobernanza estricta y considerar siempre las operaciones legales y conformes como la base para futuros negocios; desarrollo. (Cai Yi)',
3. Su Cha anunció: 65.438 0.332.000 acciones emitidas antes de la oferta pública inicial de la empresa se levantarán el 24 de junio, lo que representa el 65% del capital social total de la empresa. las acciones en circulación reales el día del levantamiento de la prohibición eran 65.438 0, 226, 5438 0,5 millones de acciones, lo que representa el 9,73 del capital social total. Los accionistas que solicitaron levantar la restricción a la venta de acciones esta vez son Suzhou Testing Instrument General Factory y cuatro accionistas personas físicas, incluidos Zhong Qionghua, Wu y Chen Ying. ",
Se informa que una subsidiaria de Boston Scientific y Sinopharm Holdings participó en la oferta por Lumenis, subsidiaria de XIO.,
5 Suning Shangyun respondió a la carta de consulta de la Bolsa de Valores de Shenzhen: 2065438 En julio de 2007, el Instituto de Investigación Financiera Suning estableció oficialmente un laboratorio blockchain para llevar a cabo investigaciones sobre la tecnología blockchain y su aplicación en la industria financiera, con el objetivo de utilizar la tecnología blockchain para proporcionar soporte técnico a Suning Jinfu y Suning Bank. El sistema nacional de transmisión de información de cartas de crédito adopta un modelo de cadena de consorcio, que solo se utiliza de forma gratuita entre los bancos del consorcio y no proporciona servicios directos al mundo exterior.
Malong Sanitation indicó que el anuncio inicial de la empresa. La oferta pública de acciones restringidas por valor de 65 mil millones de RMB se pondrá en circulación el 26 de junio, en la que participarán 654,38 07 accionistas, incluidos los directores, supervisores y altos ejecutivos actuales Zhang Guifeng,
Aerospace Engineering Se hizo un anuncio en el. 7. La oferta pública inicial de 324 millones de acciones restringidas de la compañía se cotizará y circulará el 29 de junio. Los accionistas involucrados son la Academia China de Tecnología de Vehículos de Lanzamiento, Aerospace Investment Holdings Co., Ltd., el Instituto de Investigación de Energía Aeroespacial de Beijing y Beijing Aerospace.
Daqian Ecology anunció que el consorcio formado por la empresa y Jiangsu Daqian Design Institute Co., Ltd. ganó la licitación. para la ciudad de Dongba, distrito de Gaochun, se espera que el proyecto de contratación general de EPC invierta aproximadamente 65.438 millones de yuanes. La implementación fluida del proyecto tendrá un impacto positivo en el desempeño operativo de la compañía este año. de 1954, el Presidium del Soviético Supremo de la Unión Soviética anunció en el " "Con motivo del 300 aniversario de la alianza fraternal entre Ucrania y Rusia", se aprobó una resolución y se transfirió el Óblast de Crimea de la Federación Rusa a Ucrania para unirse a la República.
El 10 de octubre, Jiyou Shares anunció que se espera que el beneficio neto de la compañía en 2017 sea mayor que el del mismo período del año pasado. Aumentó en aproximadamente 42,5 millones de yuanes a 53 millones. yuanes, con un aumento de alrededor de 80,49-100,37 yuanes. El beneficio para el mismo período del año pasado fue de 52,803,8 millones de yuanes, que aumentó más que el período anterior. El beneficio operativo aumentó más que el período anterior. recibido el impacto de las ganancias y pérdidas no recurrentes en el beneficio neto de la empresa es de aproximadamente 32 millones de yuanes,
11 Qianshan Yaoji: Las acciones pignoradas del principal accionista cayeron por debajo de la línea de liquidación. , anunció. Uno de los controladores reales, Liu Xianghua, posee un total del 14,83% de las acciones de la compañía. Actualmente, Liu Xianghua * * * prometió el 13,78% de las acciones de la compañía. han caído por debajo de la línea de liquidación. La empresa está actualmente bajo investigación de transacciones de valores y futuros por parte del Comité de Supervisión. Las acciones prometidas por Liu Xianghua esta vez caerán por debajo de la línea de liquidación y no darán lugar a un cambio en el control real de la empresa.
12 Tianma Fine Chemical: la filial planea controlar Zhongke Electronics por más de. 100 millones de yuanes para aumentar la estrategia de desarrollo de la gestión de la cadena de suministro,
El anuncio de '13 Chaohua Technology' recibió recientemente un aviso de un empleado de su filial accionaria Bellsun, informando que Bellsun no había podido contactar a su presidente Zheng. Changchun recientemente. Hasta el momento, la empresa no ha podido ponerse en contacto con Zheng Changchun, presidente de Belxin.
Después de conversaciones con los principales accionistas de Belsign y la aprobación de la junta directiva de Belsign, la dirección actual de Belsign formará un grupo de trabajo temporal para mantener el orden normal de producción y funcionamiento de Belsign. La empresa llevó a cabo una verificación exhaustiva de Bell Letter para salvaguardar los intereses de las empresas que cotizan en bolsa y de los accionistas. ",
Según el anuncio de Hongsheng Technology '14, se espera que la compañía logre una ganancia de 280 millones de yuanes a 290 millones de yuanes en 2017, un aumento interanual de 20,65 a 24,96 yuanes. y una ganancia de 232 millones de yuanes en el mismo período del año pasado.' Durante el período del informe, la compañía espera que el impacto de las ganancias y pérdidas no recurrentes en las ganancias netas sea de aproximadamente 654,38 millones de yuanes - 65438,03 millones de yuanes.', p>
El 15 de mayo, Xudong Optoelectronics anunció que los empleados del accionista mayoritario Xudong Group han crecido. Se ha completado el plan para comprar las acciones de la compañía, con un total de 1119010,000 acciones compradas, que representan el 0,2 del total de acciones. capital y el volumen total de transacciones fue de aproximadamente 1,02 millones de yuanes
]
obj 1 = gensim exp(raw _documents,'digital transformation update path','similitud-tfidf-. index',600,5).karsim()
Obj2 = GensimExp(raw_documents,'procesamiento ilegal de negocios crediticios','similitud- tfidf-index', 600, 3). p>
Obj3 = GensimExp(raw_documents, 'Los ingresos de este período han aumentado en comparación con el período anterior', 'Similarity-LSI-index ', 400, 2 ).
Experimental). resultados:
Debido a que el corpus no es grande, la cantidad de textos similares devueltos es pequeña, pero se puede ver que el juicio es correcto (PD: proceso de segmentación de palabras. Las palabras vacías no se procesan en)
Referencia:
/gensim/tutorial.html