filik

import requests
import pandas as pd
info = []

letters = ['А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З', 'И', 'Й', 'К', 'Л', 'М', 'Н', 'О', 'П', 'Р', 'С', 'Т', 'У', 'Ф', 'Х', 'Ц', 'Ч', 'Ш', 'Щ', 'Э', 'Ю', 'Я']
for k in letters:
    url='https://www.hse.ru/org/persons?ltr='+ k + ';udept=22726'
    response=requests.get(url)
    from bs4 import BeautifulSoup
    tree = BeautifulSoup(response.content, 'html.parser')
    profiles=tree.find_all('div',{'class': "post__content post__content_person"})
    for i in range(len(profiles)):
        fff=profiles[i].find_all('div')
        urlnew = 'https://www.hse.ru' + fff[1].a.get('href') #это ссылка на страничку человека
        
#это две строчки фнукциональной штуки        
        responew=requests.get(urlnew)
        if responew.status_code == 200:
            treenew = BeautifulSoup(responew.content, 'html.parser')

    #ФИО    
            Surname = {}
            Name = {}
            Patronymic = {}

            personal_info = treenew.find('div', {"class" : "main__inner main__inner_"})
            full_name = personal_info.find('div').get('title').split()  
            surname = full_name[0]
            full_name.remove(full_name[0])
            name = full_name[0]
            full_name.remove(full_name[0])
            if len(full_name) == 1:
                patronymic = full_name[0]
            elif len(full_name) < 1:
                patronymic = 0
            else:
                patronymic = ' '.join(map(str, full_name))

            Surname[urlnew] = surname
            Name[urlnew] = name
            Patronymic[urlnew] = patronymic

    #должность и место работы
            Position = {}
            Working_place = {}

            position = []
            working_place = []

            personalities = treenew.find('ul', {'class' : "g-ul g-list small"})

            try:
                for position__ in personalities.find_all('span', {'class' : "person-appointment-title"}):
                    position_ = position__.text.strip(':')
                    position.append(position_)
            except:
                position.append(0)

            try:
                for working___place in personalities.find_all('a', {'class' : "link"}):
                    working__place = working___place.text
                    working_place.append(working__place)
            except:
                working_place.append(0)

            Position[urlnew] = position
            Working_place[urlnew] = working_place

    #блок с общим стажем и вообще стажем работы (в конце заготовка под создание датафрейма)
            try:
                work = treenew.find('div', {'tab-node': 'stage-info'})
                working = work.find_all('li')

                working[0] = str(working[0])
                wo = working[0].split()
                check = ['года', 'год', 'лет', 'лет</li>','год</li>','года</li>', 'год</div>','года</div>','лет</div>']
                if len(set(wo) & set(check)) == 0:
                    genworktime = int(wo[2])/12
                    genworktime = round(genworktime, 2)
                else:
                    try:
                        genworktime = int(wo[2]) + int(wo[4])/12
                        genworktime = round(genworktime, 2)
                    except:
                        genworktime = int(wo[2])
                try: 
                    working[1] = str(working[1])
                    wo = working[1].split()
                    if len(set(wo) & set(check)) == 0:
                        sciworktime = int(wo[2])/12
                        sciworktime = round(sciworktime, 2)
                    else:
                        try:
                            sciworktime = int(wo[2]) + int(wo[4])/12
                            sciworktime = round(sciworktime, 2)
                        except:
                            sciworktime = int(wo[2])
                except:
                    sciworktime = 0

                try:
                    working[2] = str(working[2])
                    wo = working[2].split()
                    if len(set(wo) & set(check)) == 0:
                        preworktime = int(wo[2])/12
                        preworktime = round(preworktime, 2)
                    else:
                        try:
                            preworktime = int(wo[2]) + int(wo[4])/12
                            preworktime = round(preworktime, 2)
                        except:
                            preworktime = int(wo[2])
                except:
                    preworktime = 0
            except:
                genworktime = [0]
                sciworktime = [0]
                preworktime = [0]
            try:
                work = treenew.find('div', {'tab-node': 'stage-info'}).div
                working = str(work)
                working = working.split()
                wo = working[1:]
                check = ['года', 'год', 'лет', 'лет</li>','год</li>','года</li>', 'год</div>','года</div>','лет</div>']
                if len(set(wo) & set(check)) == 0:
                    genworktime = int(wo[2])/12
                    genworktime = round(genworktime, 2)
                else:
                    try:
                        genworktime = int(wo[2]) + int(wo[4])/12
                        genworktime = round(genworktime, 2)
                    except:
                        genworktime = int(wo[2])
            except: 
                b = 0
            stag = {}
            sci ={}
            pre = {}
            stag[urlnew] = genworktime
            sci[urlnew] = sciworktime
            pre[urlnew] = preworktime

    #блок с языками
            n = []
            k = []
            yaziki = {}
            amountyaz = {}
            yaziki[urlnew] = n
            try:
                lang = treenew.find('dl',{'class': "main-list large main-list-language-knowledge-level"})
                languages = lang.find_all('dd')
                amountyaz[urlnew] = len(languages)
                for i in languages:
                    m = list(i)
                    n.append(m[0])
            except:
                amountyaz[urlnew] = [0]
                yaziki[urlnew] = [0]
    #Год окончания бакалвриата
            bachelor = {}
            try:
                bak = treenew.find('div', {'tab-node': 'sci-degrees1'})
                bach = bak.find_all('div', {'class': 'person-list-hangover'})
                bachel = bach[-1].text
                bachelor[urlnew] = int(bachel)
            except:
                bachelor[urlnew] = [0]

    ##Год начала работы
            nachalo = {}
            start = treenew.find('li', {'class': 'i'})
            try:
                start.text
                start = str(start.text).split()
                start_ = int(start[6])
            except:
                start_ = 0
            nachalo[urlnew] = start_

    # Пол
            pol = {}
            start = treenew.find('li', {'class': 'i'})
            try:
                start.text
                start = str(start.text).split()
                if start[0] == 'Начала':
                    sex = 'Ж'
                else:
                    sex = 'М'
            except:
                sex = 0
            pol[urlnew] = sex

     #Количество публикаций
            kolichestvo_publ = {}
            publ = treenew.find('sup')
            try:
                publ.text
                publ = str(publ.text)
                if publ == '*':
                    publications = 0
                else:
                    publications = publ
            except:
                publications = 0
            kolichestvo_publ[urlnew] = publications

    #Адрес
            adres = {}
            adres[urlnew] = [0]
            try:
                place = treenew.find('dl', {'class':'main-list large'})
                adr = place.find_all('dd')
                for i in adr:
                    adrik = i.text
                    adrik = adrik.split()
                    if adrik[0] == 'Адрес:':
                        adrik = ' '.join(adrik)
                        adrik = adrik.split(',')
                        adres[urlnew] = ' '.join(adrik[0:2])
            except:
                adres[urlnew] = [0]

    #Профессиональные интересы
            Professional_interests = {}
            pers_interests = []
            try:
                personal_interests = treenew.find('div', {"class" : "b-person-data b-person-data__tags"})
                for interesting in personal_interests.find_all('a', {"class" : "tag tag_small"}):
                    interests = interesting.text
                    pers_interests.append(interests)
            except:
                pers_interests.append(0)

            Professional_interests[urlnew] = pers_interests

    #Новости
            mentioned_in_news = {}
            try:
                new = treenew.find('div', {"class" : "b-person-data posts printable", 'tab-index' : 'press_links_news'})
                news = []
                for n in new.find_all('p', {"class" : "with-indent"}):
                                new_one = n.text
                                news.append(new_one)
                l = len(news)
                mentioned_in_news[urlnew] = l
            except:
                mentioned_in_news[urlnew] = [0]

    #вот та самая пресловутая заготовка

            info.append({
                'Ссылка': urlnew,
                'Фамилия': Surname[urlnew],
                'Имя': Name[urlnew],
                'Отчество': Patronymic[urlnew],
                'Должность' : Position[urlnew],
                'Место работы' : Working_place[urlnew],
                'Общий стаж(в годах)': stag[urlnew],
                'Научно-педагогический стаж': sci[urlnew],
                'Преподавательский стаж': pre[urlnew],
                'Владение языками':yaziki[urlnew],
                'Количество языков': amountyaz[urlnew],
                'Год окончания бакалавриата/специалитета': bachelor[urlnew],
                'Начало работы в ВШЭ': nachalo[urlnew],
                'Пол': pol[urlnew],
                'Количество публикаций': kolichestvo_publ[urlnew],
                'Адрес места работы': adres[urlnew],
                'Профессиональные интересы': Professional_interests[urlnew],
                'Упоминаний в новостях': mentioned_in_news[urlnew]
             })
df = pd.DataFrame(data = info)
df


# ПРЕПОД НЕ ПРЕПОД

#На основе данных из столбца 'Должность' можно узнать занимается ли тот или иной сотрудник ВШЭ преподавательской деятельностью. Для этого создадим словарь со всеми имеющимися должностями и проанализируем его
#Гипотеза: Работников, занимающихся преподавательской деятельностью в ВШЭ больше, чем сотрудников, занимающихся иной деятельностью.

df_pos = df['Должность'].tolist()
for i in range(len(df_pos)):
    df_pos[i] = df_pos[i].replace("[","")
    df_pos[i] = df_pos[i].replace("]","")
    df_pos[i] = df_pos[i].replace("'","")
 df_poss = ', '.join(map(str, df_pos))
df_poss = df_poss.split(', ')

position_dict = {}

for i in df_poss:
    position_dict[i] = position_dict.get(i,0) + 1
    
print(f'Всего должностей: {len(position_dict)}')
position_dict

###### Из списка понятно, что преподовательской деятельностью занимаются:
#   - 'профессор', 
#   - 'приглашенный преподаватель', 
#   - 'доцент', 
#   - 'преподаватель', 
#   - 'старший преподаватель', 
#   - 'научный сотрудник', 
#   - 'научный руководитель', 
#   - 'руководитель проекта',  
#   - 'приглашенный специалист', 
#   - 'руководитель проектной группы', 
#   - 'начальник цикла- старший преподаватель',   
#   - 'Почетный профессор', 
#   - 'научный руководитель направления', 
#   - 'научный руководитель по направлению', 
#   - 'ведущий специалист', 
#   - 'научный руководитель лаборатории', 
#   - 'специалист', 
#   - 'тьютор', 
#   - 'ассистент', 
#   - 'профессор-исследователь',  
#   - 'социальный педагог'
   
#Соответственно выбираем общие слова, ими являются: профессор, научный сотрудник, доцент, преподаватель, научный руководитель, руководитель проекта, специалист, руководитель проектной группы, тьютор, ассистент

workers = {'count_of_science_workers' : 0, 'count_of_not_science_workers' : 0}

workers = {'count_of_science_workers' : 0, 'count_of_not_science_workers' : 0}
proffesor = []
for i in range(len(df_pos)):
    teacher_or_not = df['Ссылка'][i]
    if 'профессор' in df_pos[i] or 'научный сотрудник' in df_pos[i] or 'доцент' in df_pos[i] or 'преподаватель' in df_pos[i] or 'научный руководитель' in df_pos[i] or 'руководитель проекта' in df_pos[i] or 'специалист' in df_pos[i] or 'руководитель проектной группы' in df_pos[i] or 'тьютор' in df_pos[i] or 'ассистент' in df_pos[i]:
        workers['count_of_science_workers'] += 1
        proffesor.append('Преподаватель')
    else:
        workers['count_of_not_science_workers'] += 1
        proffesor.append('Иная сфера деятельности')
        
teachers = workers['count_of_science_workers']
not_teachers = workers['count_of_not_science_workers']
        
print(f'Всего сотрудников, задействованных в преподавательской деятельности: {teachers}')
print(f'Сотрудников, занимающихся иной деятельностью: {not_teachers}')

dict1 = {}
for i in range(len(proffesor)):
    dict1[i] = proffesor[i]
teacher_or_not = []
for i in range(len(proffesor)):
    teacher_or_not.append({
        'Преподаватель или нет' : dict1[i]
         })
    
dataframe = pd.DataFrame(teacher_or_not)
df['Сфера деятельности'] = dataframe['Преподаватель или нет']

## Вывод: Гипотеза подтвердилась


# MARKDOWN
# Сколько языков знают сотрудники ВШЭ?
Часто люди, в чьи проффесиональные обязанности не входит знание и повседневного использования иностранных языков, владеют 1-2 языками. Но так как мы проведим исследование сотрудников НИУ ВШЭ, а для некоторых из сотрудников влвдение несколькими иностранными языками - это вопрос профессиональной компетенции, то для некоторых из них, количество иностранных языков может сильно превышать среднестатистический показатель.
# MARKDOWN

x = df['Количество языков']
fig, lang = plt.subplots(sharey=True, tight_layout=True)
plt.hist(x,  
          color = 'powderblue', 
          edgecolor = 'lightslategray', 
          linewidth = 1, 
          width = 0.8, 
          bins = max(df['Количество языков'])
          )

lang.xaxis.set_major_locator(ticker.MultipleLocator(1))
plt.title('Распределение сотрудников по количеству языков, которыми они владеют', size = 13, fontweight="bold")
plt.xlabel('Количество языков, которыми владеют сотрудники', fontsize=10)
plt.ylabel('Количество человек', fontsize=10)
print(x.describe())

# MARKDOWN
### Выводы
Из предоставленной гистограммы и таблицы данных, можно узнать, что действительно, в среднем сотрудники НИУ ВШЭ владеют одним иностранным языком. А максимальное количество языков, которыми владеют сотрудники достигает 13.

__Стоит отметить:__
1) Некоторые сотрудники вышки могли просто не подать о себе информацию по владению языками. Из чего следует, что количество человек не владеющих ни одним иностранным языком может оказаться гораздо меньше.

2) Также некоторые сотрудники в графе владения языками отмечали русский, а некоторые нет. Что в результате не дает нам однозначный результат о количестве языков, которыми владеют сотрудники НИУ ВШЭ.
# MARKDOWN


# MARKDOWN
# Владение языками
Уже долгие годы наиболее распространенным и востребованным иностранным языком в мире безусловно является английский - язык дипломатии, науки, бизнеса. Именно английскому чаще всего учат в школе. Следующим по популярности изучения, по данным рбк нза III квартал является немецкий. За ним следует французский, китайский и испанский. (https://trends.rbc.ru/trends/education/5f99a74c9a7947f9580ecc82)
# MARKDOWN

df_languages = df['Владение языками'].tolist()
for i in range(len(df)):
    df_languages[i] = df_languages[i].replace("[","")
    df_languages[i] = df_languages[i].replace("]","")
    df_languages[i] = df_languages[i].replace("'","")
df_languages = ', '.join(map(str, df_languages))
df_languages = df_languages.split(', ')
languages_list = []
for i in range(len(df_languages)):
    df_languages[i] = df_languages[i].strip()
    if df_languages[i] == '0':
        languages_list.append('не владеют языками')
    else:
        languages_list.append(df_languages[i])      
Languages_dict = {}
for i in languages_list:
    Languages_dict[i] = Languages_dict.get(i,0) + 1
l = list(Languages_dict.keys())
c = list(Languages_dict.values())
d1 = {}
d2 = {}
for i in range(len(l)):
    d1[i] = l[i]
    d2[i] = c[i]
inf = []
for i in range(len(c)):
    inf.append({
        'Языки' : d1[i],
        'Носители' : d2[i]
         })
ddf = pd.DataFrame(inf)

fig, ax = plt.subplots(1,1, figsize=(8, 25))
ax.plot(ddf['Носители'], ddf['Языки'], color = 'orange', linewidth = 2)
plt.title('Распрострененность знаний иностранных языков среди сотрудников ВШЭ', size = 20, fontweight="bold")
plt.xlabel('Количество человек, владеющих языком', fontsize=18)
plt.ylabel('Иностранные языки', fontsize=18)
print(ddf.describe())

ddf = ddf.groupby('Языки').agg({'Носители': max})
ddf = ddf.sort_values('Носители', ascending=False)
print(ddf.head(5))

# MARKDOWN
### Вывод 
Cреди сотрудников ВШЭ наиболее распространенным иностранным языком дейстивельно является английский - им владеют 6969 человек или 73,6% сотрудников. Следующими по распространенности являеются немецкий и французский - их знают 1360 и 1318 человек. 
Однако, как уже было сказанно ранее, много человек не указали о себе информацию по владению языками, потому второй по распространенности графой стала - "Не владеют языками", которая в совокупности собрала 2290 человек.
# MARKDOWN